Найти - Пользователи
Полная версия: Парсинг HTML файлов
Начало » Python для новичков » Парсинг HTML файлов
1
Newbie
Доброго времени суток!

У меня такой вопрос: посредством чего стянуть с сайта нужную инфу? На PHP с помощью file_get_contents() беру страницу, а далее уже через позиционную проверку (RegExp) получаю нужную информацию. На Питоне пытался тоже самое сделать - не получается. Через модули urllib2 и re делал. Может вовсе надо с модулем htmllib работать? Как быть?
regall
Довольно мрачно описана проблема…
Можна поподробнее, какой-то код, как делал… а то, чесно говоря, не понятно как тебе помочь…
slav0nic
http://www.crummy.com/software/BeautifulSoup/
Newbie
regall
Довольно мрачно описана проблема…
Можна поподробнее, какой-то код, как делал… а то, чесно говоря, не понятно как тебе помочь…
Да че тут описывать-то? Берем страницу, выдираем из нее нужную инфу посредством позиционной проверки, вот так: $pattern = ‘/(?<=some_unique_tag).*(?=another_unique_tag)/’, где .* - нужная инфа. Потом подтираем все оставшиеся теги и воуля - только искомая информация. Ну и обрабытываем ее как заблагорассудится… Я таким образом прогноз погоды с одного сайта достаю. На PHP для своего сайта сделал такой вот скрипт, а хочется еще на Питоне такое же проделать. В общем, не получилось…
Newbie
Кстати, кто-нибудь делал подобную прогу с погодой? Что это за API сервис, который предоставляют некоторые погодные сайты для развития собственных приложений? Если не понятно, взгляните сюда. Не проще ли парсить их сайты своими средствами?
bw
> У меня такой вопрос: посредством чего стянуть с сайта нужную инфу?
Посредством поиска по этому форуму. Задача многократно здесь обсуждалась.

> В общем, не получилось…
Мы сейчас пойдем в специальную комноту и начнем медитировать, а кокй-же именно код у уважаемого не работает и в чем же проявляется его не работа.

> Что это за API сервис
Там регистрироваться надо. Такой хоккей нам не нужен!

..bw
Newbie
Сегодня свою страничку с погодой открыл - ПОГОДА ЗА ПРОШЛЫЙ МЕСЯЦ!!! Блин! Спалили что-ли?
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB