DjangoBB LoFi version

Полная версия: codecs

1 2

verec

Май 24, 2011 22:16:45

Есть текстовые файлы в стандартной виндовой кодировке (windows-1251, как я понимаю), мне необходимо выделить оттуда все слова, проблема в том, что текст может быть как на русском, так и на английском языках. Сейчас код вот такой

f = codecs.open(doc, 'r', "windows-1251")
text = f.read()
text = unicode(text)
words = text.split()
print words

при выводе выдаётся последовательность кодов вида \xx, как узнать, что считалось?

на компьютере Win7 x64 и python2.6

ofigetitelno

Май 24, 2011 22:36:30

:)
так выделить или вывести на экран?

verec

Май 24, 2011 22:39:00

хочу вывести на экран, чтобы можно было проверить правильно ли слова распарсились

ofigetitelno

Май 24, 2011 22:55:32

:)
попробуй выводить по одному слову

verec

Май 24, 2011 22:59:43

там всё равно выдаётся последовательность кодов, а мне хочется увидеть слова, которые выделились

ofigetitelno

Май 24, 2011 23:02:12

:)
попробуйте слова перед выводом на экран перекодировать в кодировку консоли, в виндовс это cp866

verec

Май 24, 2011 23:09:21

а каким образом это можно сделать?

ofigetitelno

Май 24, 2011 23:11:04

:)
к слову, text = unicode(text) делать не нужно, текст уже должен быть в юникоде…

ofigetitelno

Май 24, 2011 23:14:04

:)
у строки есть два метода encode и decode
первый переводит из юникода в указанную кодировку
второй переводит из указанной кодировки в юникод

verec

Май 24, 2011 23:14:18

попробовал сделать вот так

f = codecs.open(doc, 'r', "cp866")
text = f.read()
words = text.split()
print words

но по прежнему русские слова выдаёт как u'\u0401\u044e\u0451\u0404'