Форум сайта python.su
Нужно найти подстроку такого вида - {?TITLE?} или подобного в коде html - <html><title>{?TITLE?}</title><body></body></html>
Чем лучше искать, есть ли стандартные функции или методы Питона. Или нужно использовать только рег. выражения? И подскажите как это распарсить?
Заранее спасибо!
Офлайн
Если не ошибаюсь Beutifull Soup должен это уметь.
А если не хочется использовать его, то регулярные выражения вам в помощь.
Офлайн
onemoretimeСпасибо, посмотрю…
Если не ошибаюсь Beutifull Soup должен это уметь.
А если не хочется использовать его, то регулярные выражения вам в помощь.
Офлайн
Регулярные выражения вам в помощь (модуль re) или sting.find().
Офлайн
Dit81Я конечно совсем не эксперт, но по моему скромному опыту Beutifull Soup по быстродеийствию сильно уступил регулярным выражениям. Хотя конечно может быть это руки.onemoretimeСпасибо, посмотрю…
Если не ошибаюсь Beutifull Soup должен это уметь.
А если не хочется использовать его, то регулярные выражения вам в помощь.
Офлайн
А регулярки некорректно обрабатывают XML. И кто тут прав?
Офлайн
FerromanА пример работы с sting.find() можно привести по поиску подстроки в строке символов? Заранее спасибо!
Регулярные выражения вам в помощь (модуль re) или sting.find().
Офлайн
Андрей СветловКак заведомый новичок, рискну спросить, а в чем выражается неккоректность обработки? :)
А регулярки некорректно обрабатывают XML. И кто тут прав?
Офлайн
я, конечно, не эксперт, но по-моему в хтмл файле только один заголовок. наверно самый простой способ найти через find
a='<html><title>{?TITLE?}</title><body></body></html>'
title = a[a.find('<title>') + len('<title>'):a.find('</title>')]
Офлайн
Вспомнилась одна история.
Есть такой продукт - wordpress. С ним можно работать через API. Транспортом идет XML.
Один человек попробовал - хотел своим скриптом публикации заливать и т.д.
Каково же было его удивление - wordpress обрабатывал далеко не все запросы.
Просмотр кода показал, что разбор XML делается через регулярки. Которые - кривоватые.
В результате пришлось делать генератор “XML по вордпрессовски”, чтобы обходить эти глюки регулярок.
Зачем же тогда называть формат XML, если на деле это наколенное не пойми что?
Мораль: если работаете со структурированным текстом - используйте библиотеки, предназначенные для обрабатываемого формата.
Иначе довольно легко можно поймать неожиданное. Чем больше у вашей поделки пользователей - тем выше шанс споткнуться.
Офлайн