Форум сайта python.su
0
Почитал документацию посмотрел видео, попробовал спарсит текст материала но почему то мне выдает только html верстку
Имеем следующий код
#!/usr/bin/Env python3
import urllib.request
from bs4 import BeautifulSoup
def get_html(url):
response = urllib.request.urlopen(url)
return response.read()
def parse(html):
soup = BeautifulSoup(html ,"html.parser")
td = soup.find('td', class_='eMessage')
print(td.prettify())
def main():
parse(get_html('http://4inana.ucoz.ru/news/giga_plamja_serdec_ft_aj_man/2014-12-05-108'))
if __name__ == '__main__':
main()
Прикреплённый файлы:
Новый точечный рисунок.png (17,3 KБ)
Офлайн
12
ну Вы нашли и вывели элемент с нужным классом, что не так?
Офлайн
0
izekiaЯ нашел и вывел элемент, но на сайте в нем есть текст . А в питоне его нет. В чем сей трабл ? Как добраться до текста.
ну Вы нашли и вывели элемент с нужным классом, что не так?
Офлайн
12
roviur
а Вы не пробовали смотреть что Вам по запросу прилетает? почему Вы решили что это именно то что отображается у Вас в браузере по окончанию загрузки?
Офлайн
0
izekiaВсе, тут я уже не понимаю. Если вас не затруднит поясните пожалуйста !
roviurа Вы не пробовали смотреть что Вам по запросу прилетает? почему Вы решили что это именно то что отображается у Вас в браузере по окончанию загрузки?

Отредактировано roviur (Ноя. 13, 2016 20:56:01)
Офлайн
12
страница формируется динамически, то что вы получаете - это не то что получается в браузере после окончательного формирования страницы
если у Вас хром, то по правой кнопке есть возможности: “Просмотр кода страницы” и “Просмотреть код”
Первое - это то что вы получаете по респонсу, а второе - это собственно сформированная структура документа которую Вы видите в браузере. Попробуйте в качестве обучения начать парсить странички попроще.
Офлайн
12
я в питоне именно не занимался подобным
но вот что по запросу находится сразу: stack, пример с хабра
в общем это для понимания сути идеи, может кто-то из более опытных товарищей подскажет наиболее удобный инструмент для эмуляции браузера
Офлайн