Форум сайта python.su
Приветствую! Подскажите, есть ли учебники или просто обширная инфа на русском по теме парсинга html на python ? Интересует именно “чистый парс” без использования библиотек. Спасибо.
Офлайн
Зачем вам это? Возможно какими-то нереальными способами можно сделать это с помощью методов строк. Ещё можно сделать это с помощью встроеных модулей re и requests.
Офлайн
Djo0513
Ещё можно сделать это с помощью встроеных модулей re и requests.
Офлайн
на русском для четвертой версии https://www.opennet.ru/docs/RUS/HTML4r/
для пятой пока онли инглиш https://www.w3.org/TR/html5/
читаете и пишете свой парсер с преферансом и стриптизершами…
[code python][/code]
Офлайн
PEHDOMЯ сожалею что вы тоже ничего не знаете по этой теме.
на русском для четвертой версии https://www.opennet.ru/docs/RUS/HTML4r/для пятой пока онли инглиш https://www.w3.org/TR/html5/читаете и пишете свой парсер с преферансом и стриптизершами…
Офлайн
onlineЧто ты под этим понимаешь? Опиши задачу конкретно: что у тебя есть, что нужно из этого получить.
Подскажите, есть ли учебники или просто обширная инфа на русском по теме парсинга html на python ?
onlineЧистый парс применён внутри таких библиотек. С помощью конечных автоматов происходит распознавание цепочек символов, удовлетворяющих заданным грамматикам.
Интересует именно “чистый парс” без использования библиотек.
Офлайн
py.user.next
Что ты под этим понимаешь? Опиши задачу конкретно:
Офлайн
Вообще, для этого достаточно документации питона
python.org. urlopen()
python.org. urllib examples
python.org. urllib howto
Отредактировано py.user.next (Авг. 23, 2017 02:20:58)
Офлайн
online
есть ли учебники или просто обширная инфа на русском
online
“чистый парс” без использования библиотек
online:) :) :)
Далее работа со строкой в виде условий и циклов,
Отредактировано doza_and (Авг. 23, 2017 08:06:47)
Офлайн
onlineА собственно чего вы хотите? вы же хотели чистый парсер на пайтоне? вот вам ссылка на спецификацию ХТМЛ, получайте хтмл-ку и разбирайте согласно спецификации.
Я сожалею что вы тоже ничего не знаете по этой теме.
onlineА мы об этом должны догадываться с помощью телепатии или гадании по блевотине носорога? Тем более что вы уже сами все написали. только поменяйте html = site.read() на html = site.read().decode('utf-8') и у вас строка с которой можно работать.
Я хочу найти материал в сети, в котором бы описывалось примерно так:
onlineИ что вам мешает? вы хотите чтобы вам подсказали как работать с строкой?А какой результат вы хотите получить?
Далее работа со строкой в виде условий и циклов, get-post запросов, пока не будет достигнут нужный результат.
import urllib.request import re site = urllib.request.urlopen('https://news.google.com') html = site.read().decode('utf-8') header_tags = re.findall(r'<h[1-2][^>]*><a[^>]*>(.*?)</a></h[1-2]>', str(html)) print( str('\n'.join(header_tags)))
doza_andну малоли? Может у человека задание такое по курсовой или дипломной. Или ему нужен очень ограниченые функциии парсера, типа вытащить только ссылки или заголовки из страницы, и человек не хочет ради этого тащить левые либы с кучей ненужного ему функционала?
Зачем вам это нужно? Почему вы так ставите задачу?
[code python][/code]
Офлайн