Уведомления

Группа в Telegram: @pythonsu

#1 Авг. 22, 2017 22:35:54

online
Зарегистрирован: 2017-08-20
Сообщения: 14
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html без использования библиотек

Приветствую! Подскажите, есть ли учебники или просто обширная инфа на русском по теме парсинга html на python ? Интересует именно “чистый парс” без использования библиотек. Спасибо.

Офлайн

#2 Авг. 22, 2017 22:49:54

Djo0513
Зарегистрирован: 2016-09-02
Сообщения: 92
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html без использования библиотек

Зачем вам это? Возможно какими-то нереальными способами можно сделать это с помощью методов строк. Ещё можно сделать это с помощью встроеных модулей re и requests.



Лучший учитель - это ты сам.

Офлайн

#3 Авг. 22, 2017 23:54:54

online
Зарегистрирован: 2017-08-20
Сообщения: 14
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html без использования библиотек

Djo0513
Ещё можно сделать это с помощью встроеных модулей re и requests.

Ну вот я о том же

Офлайн

#4 Авг. 22, 2017 23:59:59

PEHDOM
Зарегистрирован: 2016-11-28
Сообщения: 2196
Репутация: +  294  -
Профиль   Отправить e-mail  

Парсинг html без использования библиотек

на русском для четвертой версии https://www.opennet.ru/docs/RUS/HTML4r/
для пятой пока онли инглиш https://www.w3.org/TR/html5/
читаете и пишете свой парсер с преферансом и стриптизершами…



==============================
Помещайте код в теги:
[code python][/code]
Бериегите свое и чужое время.

Офлайн

#5 Авг. 23, 2017 00:11:44

online
Зарегистрирован: 2017-08-20
Сообщения: 14
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html без использования библиотек

PEHDOM
на русском для четвертой версии https://www.opennet.ru/docs/RUS/HTML4r/для пятой пока онли инглиш https://www.w3.org/TR/html5/читаете и пишете свой парсер с преферансом и стриптизершами…
Я сожалею что вы тоже ничего не знаете по этой теме.

Офлайн

#6 Авг. 23, 2017 01:14:29

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9930
Репутация: +  856  -
Профиль   Отправить e-mail  

Парсинг html без использования библиотек

online
Подскажите, есть ли учебники или просто обширная инфа на русском по теме парсинга html на python ?
Что ты под этим понимаешь? Опиши задачу конкретно: что у тебя есть, что нужно из этого получить.

online
Интересует именно “чистый парс” без использования библиотек.
Чистый парс применён внутри таких библиотек. С помощью конечных автоматов происходит распознавание цепочек символов, удовлетворяющих заданным грамматикам.



Офлайн

#7 Авг. 23, 2017 01:51:10

online
Зарегистрирован: 2017-08-20
Сообщения: 14
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг html без использования библиотек

py.user.next
Что ты под этим понимаешь? Опиши задачу конкретно:

Я хочу найти материал в сети, в котором бы описывалось примерно так:

site = urllib.request.urlopen('http://www.python.su')# В site url страницы которую мы хотим спарсить
html = site.read()
st = str(html) # Поучили содержимое html в виде строки

Все!
Далее работа со строкой в виде условий и циклов, get-post запросов, пока не будет достигнут нужный результат.

Офлайн

#8 Авг. 23, 2017 02:18:35

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9930
Репутация: +  856  -
Профиль   Отправить e-mail  

Парсинг html без использования библиотек

Вообще, для этого достаточно документации питона
python.org. urlopen()
python.org. urllib examples
python.org. urllib howto



Отредактировано py.user.next (Авг. 23, 2017 02:20:58)

Офлайн

#9 Авг. 23, 2017 08:04:31

doza_and
От:
Зарегистрирован: 2010-08-15
Сообщения: 4138
Репутация: +  252  -
Профиль   Отправить e-mail  

Парсинг html без использования библиотек

online
есть ли учебники или просто обширная инфа на русском
online
“чистый парс” без использования библиотек
online
Далее работа со строкой в виде условий и циклов,
:) :) :)

Вот уж повеселили! Спасибо! Обширная инфа по “Ничему”? Практически всегда работа в специализированной области приводит к созданию библиотек, В вашей постановке вы можете читать документацию только по ядру языка, потому что ни один здравомыслящий человек не будет с нуля писать парсер.

Задача удерживать гирю без рук и т.п. Обычно бывает во время споров или соревнований. Зачем вам это нужно? Почему вы так ставите задачу?



Отредактировано doza_and (Авг. 23, 2017 08:06:47)

Офлайн

#10 Авг. 23, 2017 10:37:30

PEHDOM
Зарегистрирован: 2016-11-28
Сообщения: 2196
Репутация: +  294  -
Профиль   Отправить e-mail  

Парсинг html без использования библиотек

online
Я сожалею что вы тоже ничего не знаете по этой теме.
А собственно чего вы хотите? вы же хотели чистый парсер на пайтоне? вот вам ссылка на спецификацию ХТМЛ, получайте хтмл-ку и разбирайте согласно спецификации.
online
Я хочу найти материал в сети, в котором бы описывалось примерно так:
А мы об этом должны догадываться с помощью телепатии или гадании по блевотине носорога? Тем более что вы уже сами все написали. только поменяйте html = site.read() на html = site.read().decode('utf-8') и у вас строка с которой можно работать.
online
Далее работа со строкой в виде условий и циклов, get-post запросов, пока не будет достигнут нужный результат.
И что вам мешает? вы хотите чтобы вам подсказали как работать с строкой?А какой результат вы хотите получить?
вот банальный пример простого парсера текста внутри заголовков сайта:
 import urllib.request
import re
site = urllib.request.urlopen('https://news.google.com')
html = site.read().decode('utf-8')
header_tags = re.findall(r'<h[1-2][^>]*><a[^>]*>(.*?)</a></h[1-2]>', str(html))
print( str('\n'.join(header_tags)))
doza_and
Зачем вам это нужно? Почему вы так ставите задачу?
ну малоли? Может у человека задание такое по курсовой или дипломной. Или ему нужен очень ограниченые функциии парсера, типа вытащить только ссылки или заголовки из страницы, и человек не хочет ради этого тащить левые либы с кучей ненужного ему функционала?



==============================
Помещайте код в теги:
[code python][/code]
Бериегите свое и чужое время.

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version