Уведомления

Группа в Telegram: @pythonsu

#1 Авг. 15, 2012 10:23:16

banjo
Зарегистрирован: 2012-08-15
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

Обработка информации со страницы сайта

Есть такая задача:
1. Есть страница сайта. (таких страниц немногим больше 100).
2. На каждой странице список из 30 ссылок с описанием.
3. Каждая ссылка ведет на страницу с таблицей (все таблицы схожи)
4. Нужно каждую таблицу обработать и перенести информацию из таблиц в удобный формат базы данных.

Есть ли примеры каких-то схожишь скриптов на питоне? Насколько я понимаю, это не такая проблематичная задача?

Офлайн

#2 Авг. 15, 2012 10:46:07

fata1ex
От:
Зарегистрирован: 2009-07-11
Сообщения: 732
Репутация: +  52  -
Профиль   Отправить e-mail  

Обработка информации со страницы сайта

Если под таблицами имеется в виду html-таблица, тот тут вам нужен любой html-парсер, например lxml. По абстрактной формулировке задачи сложно посоветовать что-нибудь конкретное. Если приведете пример таблицы, можно будет показать, как её парсить. Или посмотрите самостоятельно примеры.



Офлайн

#3 Авг. 15, 2012 14:15:30

banjo
Зарегистрирован: 2012-08-15
Сообщения: 2
Репутация: +  0  -
Профиль   Отправить e-mail  

Обработка информации со страницы сайта

Спасибо.
Вот, собственно, таблица http://www.oaontc.ru/services/registers/lnk/?&page=1

Офлайн

#4 Авг. 15, 2012 14:26:15

fata1ex
От:
Зарегистрирован: 2009-07-11
Сообщения: 732
Репутация: +  52  -
Профиль   Отправить e-mail  

Обработка информации со страницы сайта

Можно еще посоветовать что-нибудь вроде grab, на сайте есть ссылки на статьи с примерами. Там уже есть паук, чтобы бегать по нужным ссылкам на странице.



Офлайн

#5 Авг. 16, 2012 07:08:33

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 10015
Репутация: +  857  -
Профиль   Отправить e-mail  

Обработка информации со страницы сайта

banjo
1. Есть страница сайта. (таких страниц немногим больше 100).
2. На каждой странице список из 30 ссылок с описанием.
3. Каждая ссылка ведет на страницу с таблицей (все таблицы схожи)
4. Нужно каждую таблицу обработать и перенести информацию из таблиц в удобный формат базы данных.
Обработчик Сайта
Обработчик Страницы со Ссылками
Обработчик Страницы с Таблицей
Обработчик Таблицы

ОС для каждой страницы запускает ОСС, который для каждой ссылки запускает ОСТ, который для таблицы запускает ОТ



Отредактировано py.user.next (Авг. 16, 2012 07:09:38)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version