Найти - Пользователи
Полная версия: soup.find не находит данные. парсинг.
Начало » Python для новичков » soup.find не находит данные. парсинг.
1 2 3
IRiot
Доброго времени суток. Имеется код:
mt = soup.find('div', 'article_full_text clearfix', id = 'article_full_text', itemprop = 'articleBody')
article_full_text = mt.string
Он возвращает None. Хотя div в html коде присутствует. Аналогичный код, работает:
mt = soup.find('h1', 'article_header_title', itemprop = 'name')
article_header_title = mt.string
В чем может быть проблема, и как это исправить? Заранее благодарен за любой ответ.
sander
IRiot
попробуй id заменить на id_
IRiot
article_full_text = mt.string
AttributeError: ‘NoneType’ object has no attribute ‘string’
Скрипт как будто не видит данные, хотя при просмотре html они там есть и точно в данном div'e.
FishHook
А, собственно, soup - это что?
IRiot
FishHook,
http://www.crummy.com/software/BeautifulSoup/
<class 'bs4.BeautifulSoup'>
FishHook
показывай html и что из него надо получить
IRiot
<div class="article_full_text clearfix" id="article_full_text" itemprop="articleBody">
Нужно выудить все из этого div'a т.е текст основной новости.
FishHook
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("1.html"))
mt = soup.find('div', id='article_full_text')
print mt.text
ВЕНА, 9 апр — РИА Новости. Представитель ОБСЕ по свободе СМИ Дунья Миятович осудила в четверг кибератаку на французскую телевизионную сеть TV5Monde, которая на несколько часов заблокировала ее телевизионные передачи, интернет-сайты и каналы в социальных сетях, сообщает ОБСЕ.
“Блокировка доступа к медийному контенту путем отключения телеканалов и взлома сайтов — явное нарушение права на свободу выражения и свободы СМИ”,- приводятся в заявлении слова Миятович.
Она похвалила французские власти за скорую реакцию на событие и заметила, что “этот новый способ цензуры” должен получить ответ со стороны международного сообщества.
Сайт и аккаунты французского телеканала TV5 Monde были взломаны поздно вечером в среду. На странице телеканала в социальной сети Facebook хакеры разместили документы, которые, предположительно, принадлежат родственникам французских военнослужащих, участвующих в операции против ИГ. В настоящее время канал восстанавливает работу, однако вещание по-прежнему серьезно нарушено.

IRiot
Переделал так, как предложили вы. Все равно возвращает None.
FishHook
Ну значит кто-то кого-то обманывает.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB