Найти - Пользователи
Полная версия: Обработка информации со страницы сайта
Начало » Python для новичков » Обработка информации со страницы сайта
1
banjo
Есть такая задача:
1. Есть страница сайта. (таких страниц немногим больше 100).
2. На каждой странице список из 30 ссылок с описанием.
3. Каждая ссылка ведет на страницу с таблицей (все таблицы схожи)
4. Нужно каждую таблицу обработать и перенести информацию из таблиц в удобный формат базы данных.

Есть ли примеры каких-то схожишь скриптов на питоне? Насколько я понимаю, это не такая проблематичная задача?
fata1ex
Если под таблицами имеется в виду html-таблица, тот тут вам нужен любой html-парсер, например lxml. По абстрактной формулировке задачи сложно посоветовать что-нибудь конкретное. Если приведете пример таблицы, можно будет показать, как её парсить. Или посмотрите самостоятельно примеры.
banjo
Спасибо.
Вот, собственно, таблица http://www.oaontc.ru/services/registers/lnk/?&page=1
fata1ex
Можно еще посоветовать что-нибудь вроде grab, на сайте есть ссылки на статьи с примерами. Там уже есть паук, чтобы бегать по нужным ссылкам на странице.
py.user.next
banjo
1. Есть страница сайта. (таких страниц немногим больше 100).
2. На каждой странице список из 30 ссылок с описанием.
3. Каждая ссылка ведет на страницу с таблицей (все таблицы схожи)
4. Нужно каждую таблицу обработать и перенести информацию из таблиц в удобный формат базы данных.
Обработчик Сайта
Обработчик Страницы со Ссылками
Обработчик Страницы с Таблицей
Обработчик Таблицы

ОС для каждой страницы запускает ОСС, который для каждой ссылки запускает ОСТ, который для таблицы запускает ОТ
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB