Найти - Пользователи
Полная версия: Как спарсить сам текст ?
Начало » Python для новичков » Как спарсить сам текст ?
1
roviur
Почитал документацию посмотрел видео, попробовал спарсит текст материала но почему то мне выдает только html верстку
Имеем следующий код
#!/usr/bin/Env python3

import urllib.request
from bs4 import BeautifulSoup


def get_html(url):
response = urllib.request.urlopen(url)
return response.read()

def parse(html):
soup = BeautifulSoup(html ,"html.parser")
td = soup.find('td', class_='eMessage')
print(td.prettify())

def main():
parse(get_html('http://4inana.ucoz.ru/news/giga_plamja_serdec_ft_aj_man/2014-12-05-108'))

if __name__ == '__main__':
main()

izekia
ну Вы нашли и вывели элемент с нужным классом, что не так?
roviur
izekia
ну Вы нашли и вывели элемент с нужным классом, что не так?
Я нашел и вывел элемент, но на сайте в нем есть текст . А в питоне его нет. В чем сей трабл ? Как добраться до текста.
izekia
roviur
а Вы не пробовали смотреть что Вам по запросу прилетает? почему Вы решили что это именно то что отображается у Вас в браузере по окончанию загрузки?
roviur

izekia
roviurа Вы не пробовали смотреть что Вам по запросу прилетает? почему Вы решили что это именно то что отображается у Вас в браузере по окончанию загрузки?
Все, тут я уже не понимаю. Если вас не затруднит поясните пожалуйста !



По сути вот такая картина …
izekia
страница формируется динамически, то что вы получаете - это не то что получается в браузере после окончательного формирования страницы
если у Вас хром, то по правой кнопке есть возможности: “Просмотр кода страницы” и “Просмотреть код”
Первое - это то что вы получаете по респонсу, а второе - это собственно сформированная структура документа которую Вы видите в браузере. Попробуйте в качестве обучения начать парсить странички попроще.
izekia
я в питоне именно не занимался подобным
но вот что по запросу находится сразу: stack, пример с хабра
в общем это для понимания сути идеи, может кто-то из более опытных товарищей подскажет наиболее удобный инструмент для эмуляции браузера
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB