DjangoBB LoFi version

Полная версия: Парсинг html без использования библиотек

Начало » Python для новичков » Парсинг html без использования библиотек

online

Авг. 22, 2017 22:35:54

Приветствую! Подскажите, есть ли учебники или просто обширная инфа на русском по теме парсинга html на python ? Интересует именно “чистый парс” без использования библиотек. Спасибо.

Djo0513

Авг. 22, 2017 22:49:54

Зачем вам это? Возможно какими-то нереальными способами можно сделать это с помощью методов строк. Ещё можно сделать это с помощью встроеных модулей re и requests.

online

Авг. 22, 2017 23:54:54

Djo0513
Ещё можно сделать это с помощью встроеных модулей re и requests.

Ну вот я о том же

PEHDOM

Авг. 22, 2017 23:59:59

на русском для четвертой версии https://www.opennet.ru/docs/RUS/HTML4r/
для пятой пока онли инглиш https://www.w3.org/TR/html5/
читаете и пишете свой парсер с преферансом и стриптизершами…

online

Авг. 23, 2017 00:11:44

PEHDOM
на русском для четвертой версии https://www.opennet.ru/docs/RUS/HTML4r/для пятой пока онли инглиш https://www.w3.org/TR/html5/читаете и пишете свой парсер с преферансом и стриптизершами…

Я сожалею что вы тоже ничего не знаете по этой теме.

py.user.next

Авг. 23, 2017 01:14:29

online
Подскажите, есть ли учебники или просто обширная инфа на русском по теме парсинга html на python ?

Что ты под этим понимаешь? Опиши задачу конкретно: что у тебя есть, что нужно из этого получить.

online
Интересует именно “чистый парс” без использования библиотек.

Чистый парс применён внутри таких библиотек. С помощью конечных автоматов происходит распознавание цепочек символов, удовлетворяющих заданным грамматикам.

online

Авг. 23, 2017 01:51:10

py.user.next
Что ты под этим понимаешь? Опиши задачу конкретно:

Я хочу найти материал в сети, в котором бы описывалось примерно так:

site = urllib.request.urlopen('http://www.python.su')# В site url страницы которую мы хотим спарсить
html = site.read()
st = str(html) # Поучили содержимое html в виде строки

Все!
Далее работа со строкой в виде условий и циклов, get-post запросов, пока не будет достигнут нужный результат.

py.user.next

Авг. 23, 2017 02:18:35

Вообще, для этого достаточно документации питона
python.org. urlopen()
python.org. urllib examples
python.org. urllib howto

doza_and

Авг. 23, 2017 08:04:31

online
есть ли учебники или просто обширная инфа на русском

online
“чистый парс” без использования библиотек

online
Далее работа со строкой в виде условий и циклов,

:) :) :)

Вот уж повеселили! Спасибо! Обширная инфа по “Ничему”? Практически всегда работа в специализированной области приводит к созданию библиотек, В вашей постановке вы можете читать документацию только по ядру языка, потому что ни один здравомыслящий человек не будет с нуля писать парсер.

Задача удерживать гирю без рук и т.п. Обычно бывает во время споров или соревнований. Зачем вам это нужно? Почему вы так ставите задачу?

PEHDOM

Авг. 23, 2017 10:37:30

online
Я сожалею что вы тоже ничего не знаете по этой теме.

А собственно чего вы хотите? вы же хотели чистый парсер на пайтоне? вот вам ссылка на спецификацию ХТМЛ, получайте хтмл-ку и разбирайте согласно спецификации.

online
Я хочу найти материал в сети, в котором бы описывалось примерно так:

А мы об этом должны догадываться с помощью телепатии или гадании по блевотине носорога? Тем более что вы уже сами все написали. только поменяйте html = site.read() на html = site.read().decode('utf-8') и у вас строка с которой можно работать.

online
Далее работа со строкой в виде условий и циклов, get-post запросов, пока не будет достигнут нужный результат.

И что вам мешает? вы хотите чтобы вам подсказали как работать с строкой?А какой результат вы хотите получить?
вот банальный пример простого парсера текста внутри заголовков сайта:

 import urllib.request
import re
site = urllib.request.urlopen('https://news.google.com')
html = site.read().decode('utf-8')
header_tags = re.findall(r'<h[1-2][^>]*><a[^>]*>(.*?)</a></h[1-2]>', str(html))
print( str('\n'.join(header_tags)))

doza_and
Зачем вам это нужно? Почему вы так ставите задачу?

ну малоли? Может у человека задание такое по курсовой или дипломной. Или ему нужен очень ограниченые функциии парсера, типа вытащить только ссылки или заголовки из страницы, и человек не хочет ради этого тащить левые либы с кучей ненужного ему функционала?