Найти - Пользователи
Полная версия: Найти подстроку в строке html кода
Начало » Центр помощи » Найти подстроку в строке html кода
1 2 3
Dit81
Нужно найти подстроку такого вида - {?TITLE?} или подобного в коде html - <html><title>{?TITLE?}</title><body></body></html>
Чем лучше искать, есть ли стандартные функции или методы Питона. Или нужно использовать только рег. выражения? И подскажите как это распарсить?
Заранее спасибо!
onemoretime
Если не ошибаюсь Beutifull Soup должен это уметь.
А если не хочется использовать его, то регулярные выражения вам в помощь.
Dit81
onemoretime
Если не ошибаюсь Beutifull Soup должен это уметь.
А если не хочется использовать его, то регулярные выражения вам в помощь.
Спасибо, посмотрю…
Ferroman
Регулярные выражения вам в помощь (модуль re) или sting.find().
AlexAV
Dit81
onemoretime
Если не ошибаюсь Beutifull Soup должен это уметь.
А если не хочется использовать его, то регулярные выражения вам в помощь.
Спасибо, посмотрю…
Я конечно совсем не эксперт, но по моему скромному опыту Beutifull Soup по быстродеийствию сильно уступил регулярным выражениям. Хотя конечно может быть это руки.
Андрей Светлов
А регулярки некорректно обрабатывают XML. И кто тут прав?
Dit81
Ferroman
Регулярные выражения вам в помощь (модуль re) или sting.find().
А пример работы с sting.find() можно привести по поиску подстроки в строке символов? Заранее спасибо!
AlexAV
Андрей Светлов
А регулярки некорректно обрабатывают XML. И кто тут прав?
Как заведомый новичок, рискну спросить, а в чем выражается неккоректность обработки? :)

А в целом мне представляется, что регулярки можно использовать если нужно выцепить из странички какие-то отдельные данные, а если нам нужно работать с полной структурой документа то тут уже стоит использовать бьютифулсоуп и т.п.
Zubchick
я, конечно, не эксперт, но по-моему в хтмл файле только один заголовок. наверно самый простой способ найти через find

a='<html><title>{?TITLE?}</title><body></body></html>'
title = a[a.find('<title>') + len('<title>'):a.find('</title>')]
Андрей Светлов
Вспомнилась одна история.

Есть такой продукт - wordpress. С ним можно работать через API. Транспортом идет XML.
Один человек попробовал - хотел своим скриптом публикации заливать и т.д.
Каково же было его удивление - wordpress обрабатывал далеко не все запросы.
Просмотр кода показал, что разбор XML делается через регулярки. Которые - кривоватые.

В результате пришлось делать генератор “XML по вордпрессовски”, чтобы обходить эти глюки регулярок.
Зачем же тогда называть формат XML, если на деле это наколенное не пойми что?

Мораль: если работаете со структурированным текстом - используйте библиотеки, предназначенные для обрабатываемого формата.
Иначе довольно легко можно поймать неожиданное. Чем больше у вашей поделки пользователей - тем выше шанс споткнуться.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB