Найти - Пользователи
Полная версия: Закрыть незакрытые теги
Начало » Python для экспертов » Закрыть незакрытые теги
1
astoon
Надо в строке с HTML-тегами закрывать незакрытые теги. Как лучше сделать ?
Ferroman
Ээээ, а откуда знать после чего их закрывать? Сколько текста должно быть болдом, а сколько - нет? Что будет заголовком,а что - нет?
Где заканчивается колонка в таблице?
astoon
Ferroman
Ээээ, а откуда знать после чего их закрывать? Сколько текста должно быть болдом, а сколько - нет? Что будет заголовком,а что - нет?
Где заканчивается колонка в таблице?
Конечно, много случаев, когда это не сработает, и в этом случае - только ручная ругулировка длины отрывка текста. Но все же, думается мне, должно принести пользу в большинстве своем тупое закрытие тэгов. По крайней мере в моем случае. Сами тексты, в 99% случаев набранные в WISIWIG-редакторе статьи. Надо обрубать их, но при этом показывая форматированными.
Чесно, не брался еще за это, но может у кого есть готовый открытый код.
Jenyay
Попробуй Tidy. К нему есть питоновская оболочка - http://utidylib.berlios.de/
shiza
Пробовал для этих целей htmldata, BeautifulSoup, Tidy, html5lib (отсортированы по степени интеллектуальности при закрытии тегов).
Наиболее адекватная, пожалуй, html5lib - http://code.google.com/p/html5lib/.
Ferroman
Я просто думаю, что количество “исключений” - то есть моментов, где придётся руками регулировать больше чем моментов, где можно автоматизировать. Но, может, кое-что все-таки сделать можно.
astoon
shiza
Пробовал для этих целей htmldata, BeautifulSoup, Tidy, html5lib (отсортированы по степени интеллектуальности при закрытии тегов).
Наиболее адекватная, пожалуй, html5lib - http://code.google.com/p/html5lib/.
shiza, спасибо.
derevo
а кто нить скажет где найти доки по html5lib или примеры нормальные…

ногами не бейте я в гугле пробовал искать уже;)
Ferroman
derevo
Родная документация чем не угодила?
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB