Найти - Пользователи
Полная версия: html-кодировка
Начало » Python для новичков » html-кодировка
1
knkd
Чем в стандартной библиотеке перевести html-кодировку (& # 1054; & # 1075; & # 1083;) в нормальный юникод?
pill
>>> print unichr(1054)
О
>>> print unichr(1075)
г
>>> print unichr(1083)
л
knkd
Стыдно :(
Спасибо.

Хотя хотелось бы автоматический способ…
pill
Да я сам не знал ), Гугл подсказал.
А насчет автоматики в HTMLparser есть метод заглушка http://docs.python.org/library/htmlparser.html#HTMLParser.HTMLParser.handle_entityref
можно попробовать поиграться.
ZAN
>>> class MyParser(HTMLParser):
def handle_charref(self, name):
print(unichr(int(name)))

>>> txt = """
<html>
<body>& #1054; &#1075 ; &# 1083;
</body>
</html>"""
>>> parser = MyParser()
>>> parser.feed(txt)
О
г
л
knkd
спасибо :)
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB