DjangoBB LoFi version

Полная версия: Как файл в кодировке cp1251 сохранить в utf-8

Начало » Python для новичков » Как файл в кодировке cp1251 сохранить в utf-8

1 2

Alexsss

Ноя. 21, 2008 22:35:02

Проблема в том, что я из интернета загружаю страничку. Она в cp1251. Так как обрабатывать её в этой кодировке довольно проблематично, то её нужно перекодировать в utf-8. Вопрос: как?

igor.kaist

Ноя. 21, 2008 23:12:02

Сохранить в утф или обрабатывать в программе в юникоде?

Ноя. 21, 2008 23:23:07

text_in_cp1251 = open('cp1251.html', 'rb').read()
text_in_unicode = text_in_cp1251.decode('cp1251')
text_in_utf8 = text_in_unicode.encode('utf8')
open('utf8.html', 'wb').write(text_in_utf8)

RTFM, в конце концов же.

>>> help(str)

Ведь это так просто.

..bw

Alexsss

Ноя. 22, 2008 02:57:42

Спасибо)))

bw
Ведь это так просто.

На то я и чайник!

SvartalF

Ноя. 22, 2008 03:30:53

Alexsss, на то вы чайник, чтобы учиться, а не чтобы перекладывать всю работу на других.

ZZZ

Ноя. 22, 2008 03:54:18

Или более быстрый и менее затратный для памяти вариант, пригодный для очень больших файлов. Главное, чтобы переносы строк были…

f = file("utf8.html", "wb")
for line in file("cp1251.html", "rb"):
    f.write(line.decode('cp1251').encode('utf8'))

P.S. Насколько я помню, open теперь использовать некошерно.

plishas

Ноя. 23, 2008 00:47:20

если перекодировать нужно вручную (не автоматически т.е. не в скрипте),
то можно использовать текстовой редактор: http://notepad-plus.sourceforge.net/ru/site.htm
также этот редактор удобно использовать просто для написания кода…

Ноя. 23, 2008 02:41:48

> то можно использовать текстовой редактор
А еще можно использовать iconv :-).

..bw

-=<fantom>=-

Янв. 14, 2011 17:21:55

ZZZ
Или более быстрый и менее затратный для памяти вариант, пригодный для очень больших файлов. Главное, чтобы переносы строк были…
f = file("utf8.html", "wb")
for line in file("cp1251.html", "rb"):
    f.write(line.decode('cp1251').encode('utf8'))
P.S. Насколько я помню, open теперь использовать некошерно.

Вообще-то, в последней строке с точность наоборот:

f = file("utf8.html", "wb")
for line in file("cp1251.html", "rb"):
    f.write(line.decode('utf8').encode('cp1251'))

По крайней мере, в PortablePython 2.5

igor.kaist

Янв. 14, 2011 17:30:32

-=<fantom>=-, зачем тему поднимать двухлетней давности?