Уведомления

Группа в Telegram: @pythonsu

#1 Апрель 8, 2015 19:00:04

IRiot
Зарегистрирован: 2015-03-28
Сообщения: 30
Репутация: +  0  -
Профиль   Отправить e-mail  

soup.find не находит данные. парсинг.

Доброго времени суток. Имеется код:

mt = soup.find('div', 'article_full_text clearfix', id = 'article_full_text', itemprop = 'articleBody')
article_full_text = mt.string
Он возвращает None. Хотя div в html коде присутствует. Аналогичный код, работает:
mt = soup.find('h1', 'article_header_title', itemprop = 'name')
article_header_title = mt.string
В чем может быть проблема, и как это исправить? Заранее благодарен за любой ответ.

Офлайн

#2 Апрель 9, 2015 00:54:47

sander
Зарегистрирован: 2015-02-19
Сообщения: 317
Репутация: +  53  -
Профиль   Отправить e-mail  

soup.find не находит данные. парсинг.

IRiot
попробуй id заменить на id_

Офлайн

#3 Апрель 9, 2015 06:00:53

IRiot
Зарегистрирован: 2015-03-28
Сообщения: 30
Репутация: +  0  -
Профиль   Отправить e-mail  

soup.find не находит данные. парсинг.

article_full_text = mt.string
AttributeError: ‘NoneType’ object has no attribute ‘string’
Скрипт как будто не видит данные, хотя при просмотре html они там есть и точно в данном div'e.

Офлайн

#4 Апрель 9, 2015 07:07:54

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

soup.find не находит данные. парсинг.

А, собственно, soup - это что?



Офлайн

#5 Апрель 9, 2015 14:59:20

IRiot
Зарегистрирован: 2015-03-28
Сообщения: 30
Репутация: +  0  -
Профиль   Отправить e-mail  

soup.find не находит данные. парсинг.

FishHook,

http://www.crummy.com/software/BeautifulSoup/
<class 'bs4.BeautifulSoup'>

Офлайн

#6 Апрель 9, 2015 15:16:17

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

soup.find не находит данные. парсинг.

показывай html и что из него надо получить



Офлайн

#7 Апрель 9, 2015 15:58:25

IRiot
Зарегистрирован: 2015-03-28
Сообщения: 30
Репутация: +  0  -
Профиль   Отправить e-mail  

soup.find не находит данные. парсинг.

<div class="article_full_text clearfix" id="article_full_text" itemprop="articleBody">
Нужно выудить все из этого div'a т.е текст основной новости.

Прикреплённый файлы:
attachment 1.html (136,0 KБ)

Офлайн

#8 Апрель 9, 2015 16:13:55

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

soup.find не находит данные. парсинг.

from bs4 import BeautifulSoup
soup = BeautifulSoup(open("1.html"))
mt = soup.find('div', id='article_full_text')
print mt.text
ВЕНА, 9 апр — РИА Новости. Представитель ОБСЕ по свободе СМИ Дунья Миятович осудила в четверг кибератаку на французскую телевизионную сеть TV5Monde, которая на несколько часов заблокировала ее телевизионные передачи, интернет-сайты и каналы в социальных сетях, сообщает ОБСЕ.
“Блокировка доступа к медийному контенту путем отключения телеканалов и взлома сайтов — явное нарушение права на свободу выражения и свободы СМИ”,- приводятся в заявлении слова Миятович.
Она похвалила французские власти за скорую реакцию на событие и заметила, что “этот новый способ цензуры” должен получить ответ со стороны международного сообщества.
Сайт и аккаунты французского телеканала TV5 Monde были взломаны поздно вечером в среду. На странице телеканала в социальной сети Facebook хакеры разместили документы, которые, предположительно, принадлежат родственникам французских военнослужащих, участвующих в операции против ИГ. В настоящее время канал восстанавливает работу, однако вещание по-прежнему серьезно нарушено.



Офлайн

#9 Апрель 9, 2015 16:23:49

IRiot
Зарегистрирован: 2015-03-28
Сообщения: 30
Репутация: +  0  -
Профиль   Отправить e-mail  

soup.find не находит данные. парсинг.

Переделал так, как предложили вы. Все равно возвращает None.

Офлайн

#10 Апрель 9, 2015 16:29:23

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

soup.find не находит данные. парсинг.

Ну значит кто-то кого-то обманывает.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version