Уведомления

Группа в Telegram: @pythonsu

#1 Апрель 5, 2010 15:32:29

Pydj
От:
Зарегистрирован: 2009-02-07
Сообщения: 55
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html на Питоне

У меня вопрос: как с помощью Питона организовать граббинг html (вернее цифр из определенных колонок) и занесение этой информации в локальную базу данных. И вообще, возможно ли это или это из области фантастики? Вот более конкретный пример:
1. Есть баскетбольный сайт
2. Страница команды с ее результатами игр http://www.acb.com/partclub.php?cod_equipo=EST
Вопрос 1 - возможно ли спарсить эти результаты и занести в свою БД
Вопрос 2 - возможно ли войти в статистику каждого матча (например http://www.acb.com/fichas/LACB54008.php) и спарсить из этой статистики нужную инфу?
Заранее спасибо за подсказки.



Офлайн

#2 Апрель 5, 2010 15:59:15

o7412369815963
От:
Зарегистрирован: 2009-06-17
Сообщения: 1986
Репутация: +  32  -
Профиль   Отправить e-mail  

Парсинг html на Питоне

возможно, страницу тащить с пом. urllib, данные из неё выдирать с пом. регулярных выражений или xml-парсера

Офлайн

#3 Апрель 5, 2010 16:17:06

plusplus
От:
Зарегистрирован: 2009-01-05
Сообщения: 418
Репутация: +  15  -
Профиль   Отправить e-mail  

Парсинг html на Питоне

А в чём проблема?
Получаешь текст страницы, например так:

the_page = urllib.urlopen("http://www.acb.com/fichas/LACB54008.php").read()
И дальше выдираешь из этой строки(the_page) нужные тебе данные. Можешь с помощью методов строки, можешь с помощью регулярных выражений (модуль re), можешь специальный модуль для работы с html поставить - BeautifulSoup.



Офлайн

#4 Апрель 5, 2010 16:23:43

Pydj
От:
Зарегистрирован: 2009-02-07
Сообщения: 55
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html на Питоне

А если есть страница с общим списком игр - http://www.acb.com/partclub.php?cod_equipo=EST, - можно программным путем заходить на каждый матч и вытаскивать нужную инфу (к примеру, на страницу http://www.acb.com/fichas/LACB54008.php и другие)?



Офлайн

#5 Апрель 5, 2010 21:04:34

Pydj
От:
Зарегистрирован: 2009-02-07
Сообщения: 55
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html на Питоне

Программка для анализа баскетбольной статистики

Для использования на локальном компьютере. Ее можно реализовать на Python + Django (чтобы не писать на чистом питоне административный интерфейс и т.п.).

Смысл проги в следующем:
Есть, например, чемпионат России по баскетболу.
- я путем заполнения поля забиваю названия команд
- есть 2 селекта - я путем выбора команд в селекте забиваю результаты игр. Допустим, в одном раскрывающемся списке я выбрал ЦСКА, в другом УНИКС, и ввел счет в полях ниже, а также забил фору и тотал, которая устанавливала букмекерская контора на этот матч. После этого, программа должна раскрасить определенным образом результат этого матча.
- самое основное – это чтобы программа могла скачивать с определенных в Интернете страниц статистические показателя по этому матчу и добавлять в локальную БД, а потом выводить их возле каждой игры.
- необходимо сделать возможность сравнения статистики команд
- возле каждого матча нужно реализовать, чтобы я мог писать заметки, текущую инфу о команде

Типа такого. Кто-нибудь готов взяться за реализацию сего проекта?

P.S. баскет-чемпионатов на самом деле больше 20, мне необходимо, чтобы программист сделал по одному чемпионату, и объяснил, как можно это все реализовать с другими чемпами самостоятельно.
Если программа будет на Джанго, то нужно, чтобы объяснили, как установить локальный сервер.

P.S.2 Естественно, за вознаграждение.

Пишите на vlad2plus@gmail.com



Отредактировано (Апрель 5, 2010 21:17:29)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version