Ctrl →

Alexsss · Ноя. 21, 2008 22:35:02

Проблема в том, что я из интернета загружаю страничку. Она в cp1251. Так как обрабатывать её в этой кодировке довольно проблематично, то её нужно перекодировать в utf-8. Вопрос: как?

igor.kaist · Ноя. 21, 2008 23:12:02

Сохранить в утф или обрабатывать в программе в юникоде?

bw · Ноя. 21, 2008 23:23:07

text_in_cp1251 = open('cp1251.html', 'rb').read()
text_in_unicode = text_in_cp1251.decode('cp1251')
text_in_utf8 = text_in_unicode.encode('utf8')
open('utf8.html', 'wb').write(text_in_utf8)

RTFM, в конце концов же.

>>> help(str)

Ведь это так просто.

..bw

Отредактировано (Ноя. 22, 2008 00:18:36)

Alexsss · Ноя. 22, 2008 02:57:42

Спасибо)))

bw
Ведь это так просто.

На то я и чайник!

SvartalF · Ноя. 22, 2008 03:30:53

Alexsss, на то вы чайник, чтобы учиться, а не чтобы перекладывать всю работу на других.

ZZZ · Ноя. 22, 2008 03:54:18

Или более быстрый и менее затратный для памяти вариант, пригодный для очень больших файлов. Главное, чтобы переносы строк были…

f = file("utf8.html", "wb")
for line in file("cp1251.html", "rb"):
    f.write(line.decode('cp1251').encode('utf8'))

P.S. Насколько я помню, open теперь использовать некошерно.

plishas · Ноя. 23, 2008 00:47:20

если перекодировать нужно вручную (не автоматически т.е. не в скрипте),
то можно использовать текстовой редактор: http://notepad-plus.sourceforge.net/ru/site.htm
также этот редактор удобно использовать просто для написания кода…

bw · Ноя. 23, 2008 02:41:48

> то можно использовать текстовой редактор
А еще можно использовать iconv :-).

..bw

Отредактировано (Ноя. 23, 2008 02:42:30)

-=<fantom>=- · Янв. 14, 2011 17:21:55

ZZZ
Или более быстрый и менее затратный для памяти вариант, пригодный для очень больших файлов. Главное, чтобы переносы строк были…
f = file("utf8.html", "wb")
for line in file("cp1251.html", "rb"):
    f.write(line.decode('cp1251').encode('utf8'))
P.S. Насколько я помню, open теперь использовать некошерно.

Вообще-то, в последней строке с точность наоборот:

f = file("utf8.html", "wb")
for line in file("cp1251.html", "rb"):
    f.write(line.decode('utf8').encode('cp1251'))

По крайней мере, в PortablePython 2.5

igor.kaist · Янв. 14, 2011 17:30:32

-=<fantom>=-, зачем тему поднимать двухлетней давности?

Python-сообщество

Уведомления

#1 Ноя. 21, 2008 22:35:02

Как файл в кодировке cp1251 сохранить в utf-8

#2 Ноя. 21, 2008 23:12:02

Как файл в кодировке cp1251 сохранить в utf-8

#3 Ноя. 21, 2008 23:23:07

Как файл в кодировке cp1251 сохранить в utf-8

#4 Ноя. 22, 2008 02:57:42

Как файл в кодировке cp1251 сохранить в utf-8

#5 Ноя. 22, 2008 03:30:53

Как файл в кодировке cp1251 сохранить в utf-8

#6 Ноя. 22, 2008 03:54:18

Как файл в кодировке cp1251 сохранить в utf-8

#7 Ноя. 23, 2008 00:47:20

Как файл в кодировке cp1251 сохранить в utf-8

#8 Ноя. 23, 2008 02:41:48

Как файл в кодировке cp1251 сохранить в utf-8

#9 Янв. 14, 2011 17:21:55

Как файл в кодировке cp1251 сохранить в utf-8

#10 Янв. 14, 2011 17:30:32

Как файл в кодировке cp1251 сохранить в utf-8

Board footer