Python-сообщество

Semion · Ноя. 7, 2012 10:59:35

Приветствую.
Столкнулся вот с такой проблемой: Имеется хмл файл, открываю его на чтение, извлекаю по тегу значение, оно имеет вид: “Баба-Яга”
и вот тут я спотыкаюсь, не могу конвертировать его в utf8 строку.
Тоже самое:

text = u'Баба-Яга'.encode("ascii", "xmlcharrefreplace")
print text.decode('ascii','xmlcharrefreplace')

Декодирование не проходит. Подскажите мне дремучему как разрешить проблему.

odnochlen · Ноя. 7, 2012 11:08:34

Чем ты извлекаешь? Вроде как xml парсер сам должен сущности в юникод переводить.

Semion · Ноя. 7, 2012 11:46:10

в то и дело что просто открываю файл на редактирование как текстовый без парсера, вот и интересно могу ли конвертнуть не пропуская через парсер

PooH · Ноя. 7, 2012 12:23:28

Semion
вот и интересно могу ли конвертнуть не пропуская через парсер

А фраза “for encoding only” вам ничего не говорит? А фраза “не влезай, убьет”? ;)

Вот здесь один из первых отарков съел лаборанта. Это был такой умный отарк, что понимал даже теорию относительности. Он разговаривал с лаборантом, а потом бросился на него и загрыз…

odnochlen · Ноя. 7, 2012 14:11:22

Можно.

Но если пользуешься парсером - это его работа.

>>> lxml.html.fragment_fromstring('<p>&#1071;</p>')
<Element p at 0x126d5a0>
>>> root=lxml.html.fragment_fromstring('<p>&#1071;</p>')
>>> root.text
u'\u042f'
>>> print root.text
Я

Semion
извлекаю по тегу значение

Я подумал, что ты это парсером делаешь, а ты регекспами?

Semion · Ноя. 7, 2012 14:24:06

odnochlen
Я подумал, что ты это парсером делаешь, а ты регекспами?

Да, регексами.

ладно, буду осваивать парсер

odnochlen · Ноя. 7, 2012 14:27:08

Из встроенных - xml.dom, xml.etree.cElementTree.

Python-сообщество

Уведомления

#1 Ноя. 7, 2012 10:59:35

конвертирование utf8 строк из XML

#2 Ноя. 7, 2012 11:08:34

конвертирование utf8 строк из XML

#3 Ноя. 7, 2012 11:46:10

конвертирование utf8 строк из XML

#4 Ноя. 7, 2012 12:23:28

конвертирование utf8 строк из XML

#5 Ноя. 7, 2012 14:11:22

конвертирование utf8 строк из XML

#6 Ноя. 7, 2012 14:24:06

конвертирование utf8 строк из XML

#7 Ноя. 7, 2012 14:27:08

конвертирование utf8 строк из XML

Board footer