Ctrl →

verec · Май 24, 2011 22:16:45

Есть текстовые файлы в стандартной виндовой кодировке (windows-1251, как я понимаю), мне необходимо выделить оттуда все слова, проблема в том, что текст может быть как на русском, так и на английском языках. Сейчас код вот такой

f = codecs.open(doc, 'r', "windows-1251")
text = f.read()
text = unicode(text)
words = text.split()
print words

при выводе выдаётся последовательность кодов вида \xx, как узнать, что считалось?

на компьютере Win7 x64 и python2.6

ofigetitelno · Май 24, 2011 22:36:30

:)
так выделить или вывести на экран?

verec · Май 24, 2011 22:39:00

хочу вывести на экран, чтобы можно было проверить правильно ли слова распарсились

ofigetitelno · Май 24, 2011 22:55:32

:)
попробуй выводить по одному слову

verec · Май 24, 2011 22:59:43

там всё равно выдаётся последовательность кодов, а мне хочется увидеть слова, которые выделились

ofigetitelno · Май 24, 2011 23:02:12

:)
попробуйте слова перед выводом на экран перекодировать в кодировку консоли, в виндовс это cp866

verec · Май 24, 2011 23:09:21

а каким образом это можно сделать?

ofigetitelno · Май 24, 2011 23:11:04

:)
к слову, text = unicode(text) делать не нужно, текст уже должен быть в юникоде…

ofigetitelno · Май 24, 2011 23:14:04

:)
у строки есть два метода encode и decode
первый переводит из юникода в указанную кодировку
второй переводит из указанной кодировки в юникод

verec · Май 24, 2011 23:14:18

попробовал сделать вот так

f = codecs.open(doc, 'r', "cp866")
text = f.read()
words = text.split()
print words

но по прежнему русские слова выдаёт как u'\u0401\u044e\u0451\u0404'

Python-сообщество

Уведомления

#1 Май 24, 2011 22:16:45

codecs

#2 Май 24, 2011 22:36:30

codecs

#3 Май 24, 2011 22:39:00

codecs

#4 Май 24, 2011 22:55:32

codecs

#5 Май 24, 2011 22:59:43

codecs

#6 Май 24, 2011 23:02:12

codecs

#7 Май 24, 2011 23:09:21

codecs

#8 Май 24, 2011 23:11:04

codecs

#9 Май 24, 2011 23:14:04

codecs

#10 Май 24, 2011 23:14:18

codecs

Board footer