Python-сообщество

online · Авг. 22, 2017 22:35:54

Приветствую! Подскажите, есть ли учебники или просто обширная инфа на русском по теме парсинга html на python ? Интересует именно “чистый парс” без использования библиотек. Спасибо.

Djo0513 · Авг. 22, 2017 22:49:54

Зачем вам это? Возможно какими-то нереальными способами можно сделать это с помощью методов строк. Ещё можно сделать это с помощью встроеных модулей re и requests.

Лучший учитель - это ты сам.

online · Авг. 22, 2017 23:54:54

Djo0513
Ещё можно сделать это с помощью встроеных модулей re и requests.

Ну вот я о том же

PEHDOM · Авг. 22, 2017 23:59:59

на русском для четвертой версии https://www.opennet.ru/docs/RUS/HTML4r/
для пятой пока онли инглиш https://www.w3.org/TR/html5/
читаете и пишете свой парсер с преферансом и стриптизершами…

==============================
Помещайте код в теги:

[code python][/code]

Бериегите свое и чужое время.

online · Авг. 23, 2017 00:11:44

PEHDOM
на русском для четвертой версии https://www.opennet.ru/docs/RUS/HTML4r/для пятой пока онли инглиш https://www.w3.org/TR/html5/читаете и пишете свой парсер с преферансом и стриптизершами…

Я сожалею что вы тоже ничего не знаете по этой теме.

py.user.next · Авг. 23, 2017 01:14:29

online
Подскажите, есть ли учебники или просто обширная инфа на русском по теме парсинга html на python ?

Что ты под этим понимаешь? Опиши задачу конкретно: что у тебя есть, что нужно из этого получить.

online
Интересует именно “чистый парс” без использования библиотек.

Чистый парс применён внутри таких библиотек. С помощью конечных автоматов происходит распознавание цепочек символов, удовлетворяющих заданным грамматикам.

online · Авг. 23, 2017 01:51:10

py.user.next
Что ты под этим понимаешь? Опиши задачу конкретно:

Я хочу найти материал в сети, в котором бы описывалось примерно так:

site = urllib.request.urlopen('http://www.python.su')# В site url страницы которую мы хотим спарсить
html = site.read()
st = str(html) # Поучили содержимое html в виде строки

Все!
Далее работа со строкой в виде условий и циклов, get-post запросов, пока не будет достигнут нужный результат.

py.user.next · Авг. 23, 2017 02:18:35

Вообще, для этого достаточно документации питона
python.org. urlopen()
python.org. urllib examples
python.org. urllib howto

Отредактировано py.user.next (Авг. 23, 2017 02:20:58)

doza_and · Авг. 23, 2017 08:04:31

online
есть ли учебники или просто обширная инфа на русском

online
“чистый парс” без использования библиотек

online
Далее работа со строкой в виде условий и циклов,

:) :) :)

Вот уж повеселили! Спасибо! Обширная инфа по “Ничему”? Практически всегда работа в специализированной области приводит к созданию библиотек, В вашей постановке вы можете читать документацию только по ядру языка, потому что ни один здравомыслящий человек не будет с нуля писать парсер.

Задача удерживать гирю без рук и т.п. Обычно бывает во время споров или соревнований. Зачем вам это нужно? Почему вы так ставите задачу?

Отредактировано doza_and (Авг. 23, 2017 08:06:47)

PEHDOM · Авг. 23, 2017 10:37:30

online
Я сожалею что вы тоже ничего не знаете по этой теме.

А собственно чего вы хотите? вы же хотели чистый парсер на пайтоне? вот вам ссылка на спецификацию ХТМЛ, получайте хтмл-ку и разбирайте согласно спецификации.

online
Я хочу найти материал в сети, в котором бы описывалось примерно так:

А мы об этом должны догадываться с помощью телепатии или гадании по блевотине носорога? Тем более что вы уже сами все написали. только поменяйте html = site.read() на html = site.read().decode('utf-8') и у вас строка с которой можно работать.

online
Далее работа со строкой в виде условий и циклов, get-post запросов, пока не будет достигнут нужный результат.

И что вам мешает? вы хотите чтобы вам подсказали как работать с строкой?А какой результат вы хотите получить?
вот банальный пример простого парсера текста внутри заголовков сайта:

 import urllib.request
import re
site = urllib.request.urlopen('https://news.google.com')
html = site.read().decode('utf-8')
header_tags = re.findall(r'<h[1-2][^>]*><a[^>]*>(.*?)</a></h[1-2]>', str(html))
print( str('\n'.join(header_tags)))

doza_and
Зачем вам это нужно? Почему вы так ставите задачу?

ну малоли? Может у человека задание такое по курсовой или дипломной. Или ему нужен очень ограниченые функциии парсера, типа вытащить только ссылки или заголовки из страницы, и человек не хочет ради этого тащить левые либы с кучей ненужного ему функционала?

==============================
Помещайте код в теги:

[code python][/code]

Бериегите свое и чужое время.

Python-сообщество

Уведомления

#1 Авг. 22, 2017 22:35:54

Парсинг html без использования библиотек

#2 Авг. 22, 2017 22:49:54

Парсинг html без использования библиотек

#3 Авг. 22, 2017 23:54:54

Парсинг html без использования библиотек

#4 Авг. 22, 2017 23:59:59

Парсинг html без использования библиотек

#5 Авг. 23, 2017 00:11:44

Парсинг html без использования библиотек

#6 Авг. 23, 2017 01:14:29

Парсинг html без использования библиотек

#7 Авг. 23, 2017 01:51:10

Парсинг html без использования библиотек

#8 Авг. 23, 2017 02:18:35

Парсинг html без использования библиотек

#9 Авг. 23, 2017 08:04:31

Парсинг html без использования библиотек

#10 Авг. 23, 2017 10:37:30

Парсинг html без использования библиотек

Board footer