online
Я сожалею что вы тоже ничего не знаете по этой теме.
А собственно чего вы хотите? вы же хотели чистый парсер на пайтоне? вот вам ссылка на спецификацию ХТМЛ, получайте хтмл-ку и разбирайте согласно спецификации.
online
Я хочу найти материал в сети, в котором бы описывалось примерно так:
А мы об этом должны догадываться с помощью телепатии или гадании по блевотине носорога? Тем более что вы уже сами все написали. только поменяйте html = site.read() на html = site.read().decode('utf-8') и у вас строка с которой можно работать.
online
Далее работа со строкой в виде условий и циклов, get-post запросов, пока не будет достигнут нужный результат.
И что вам мешает? вы хотите чтобы вам подсказали как работать с строкой?А какой результат вы хотите получить?
вот банальный пример простого парсера текста внутри заголовков сайта:
import urllib.request
import re
site = urllib.request.urlopen('https://news.google.com')
html = site.read().decode('utf-8')
header_tags = re.findall(r'<h[1-2][^>]*><a[^>]*>(.*?)</a></h[1-2]>', str(html))
print( str('\n'.join(header_tags)))
doza_and
Зачем вам это нужно? Почему вы так ставите задачу?
ну малоли? Может у человека задание такое по курсовой или дипломной. Или ему нужен очень ограниченые функциии парсера, типа вытащить только ссылки или заголовки из страницы, и человек не хочет ради этого тащить левые либы с кучей ненужного ему функционала?