Найти - Пользователи
Полная версия: Парсинг html без использования библиотек
Начало » Python для новичков » Парсинг html без использования библиотек
1
online
Приветствую! Подскажите, есть ли учебники или просто обширная инфа на русском по теме парсинга html на python ? Интересует именно “чистый парс” без использования библиотек. Спасибо.
Djo0513
Зачем вам это? Возможно какими-то нереальными способами можно сделать это с помощью методов строк. Ещё можно сделать это с помощью встроеных модулей re и requests.
online
Djo0513
Ещё можно сделать это с помощью встроеных модулей re и requests.

Ну вот я о том же
PEHDOM
на русском для четвертой версии https://www.opennet.ru/docs/RUS/HTML4r/
для пятой пока онли инглиш https://www.w3.org/TR/html5/
читаете и пишете свой парсер с преферансом и стриптизершами…
online
PEHDOM
на русском для четвертой версии https://www.opennet.ru/docs/RUS/HTML4r/для пятой пока онли инглиш https://www.w3.org/TR/html5/читаете и пишете свой парсер с преферансом и стриптизершами…
Я сожалею что вы тоже ничего не знаете по этой теме.
py.user.next
online
Подскажите, есть ли учебники или просто обширная инфа на русском по теме парсинга html на python ?
Что ты под этим понимаешь? Опиши задачу конкретно: что у тебя есть, что нужно из этого получить.

online
Интересует именно “чистый парс” без использования библиотек.
Чистый парс применён внутри таких библиотек. С помощью конечных автоматов происходит распознавание цепочек символов, удовлетворяющих заданным грамматикам.
online
py.user.next
Что ты под этим понимаешь? Опиши задачу конкретно:

Я хочу найти материал в сети, в котором бы описывалось примерно так:

site = urllib.request.urlopen('http://www.python.su')# В site url страницы которую мы хотим спарсить
html = site.read()
st = str(html) # Поучили содержимое html в виде строки

Все!
Далее работа со строкой в виде условий и циклов, get-post запросов, пока не будет достигнут нужный результат.

py.user.next
Вообще, для этого достаточно документации питона
python.org. urlopen()
python.org. urllib examples
python.org. urllib howto
doza_and
online
есть ли учебники или просто обширная инфа на русском
online
“чистый парс” без использования библиотек
online
Далее работа со строкой в виде условий и циклов,
:) :) :)

Вот уж повеселили! Спасибо! Обширная инфа по “Ничему”? Практически всегда работа в специализированной области приводит к созданию библиотек, В вашей постановке вы можете читать документацию только по ядру языка, потому что ни один здравомыслящий человек не будет с нуля писать парсер.

Задача удерживать гирю без рук и т.п. Обычно бывает во время споров или соревнований. Зачем вам это нужно? Почему вы так ставите задачу?
PEHDOM
online
Я сожалею что вы тоже ничего не знаете по этой теме.
А собственно чего вы хотите? вы же хотели чистый парсер на пайтоне? вот вам ссылка на спецификацию ХТМЛ, получайте хтмл-ку и разбирайте согласно спецификации.
online
Я хочу найти материал в сети, в котором бы описывалось примерно так:
А мы об этом должны догадываться с помощью телепатии или гадании по блевотине носорога? Тем более что вы уже сами все написали. только поменяйте html = site.read() на html = site.read().decode('utf-8') и у вас строка с которой можно работать.
online
Далее работа со строкой в виде условий и циклов, get-post запросов, пока не будет достигнут нужный результат.
И что вам мешает? вы хотите чтобы вам подсказали как работать с строкой?А какой результат вы хотите получить?
вот банальный пример простого парсера текста внутри заголовков сайта:
 import urllib.request
import re
site = urllib.request.urlopen('https://news.google.com')
html = site.read().decode('utf-8')
header_tags = re.findall(r'<h[1-2][^>]*><a[^>]*>(.*?)</a></h[1-2]>', str(html))
print( str('\n'.join(header_tags)))
doza_and
Зачем вам это нужно? Почему вы так ставите задачу?
ну малоли? Может у человека задание такое по курсовой или дипломной. Или ему нужен очень ограниченые функциии парсера, типа вытащить только ссылки или заголовки из страницы, и человек не хочет ради этого тащить левые либы с кучей ненужного ему функционала?

This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB