Форум сайта python.su
shizaчего я не понимаю?
Ок. Теперь я вижу что недопонимание - у тебя.
shizaтогда и недопонимания не будет.
получил страницу, обработал, выдрал с нее внешние/внутрение ссылки пошел к ним. и.тд
Офлайн
Имеет смысл:
1. Сделать очередь ссылок для обработки и set() ссылок которые уже обработаны (чтоб не обрабатывать уже обработанную страницу).
2. Чтобы кол-во ссылок не было катастрофически огромным, разделить ввнутренние и внешние сслыки. Причем внутренние урезать до домена. Если стоит задача ходить по всем ссылкам подрят - имеет смысл хранить домены во внешней БД (потому что доменов в мире слишком много чтоб держать их в памяти).
Отредактировано (Дек. 15, 2008 01:34:09)
Офлайн