DjangoBB LoFi version

Начало » Python для новичков » Кодировки Python.

1 2

Resperator

Ноя. 2, 2016 16:57:41

НЕАКТУАЛЬНО!

Суть вот в чем. По ходу выполнения происходит считывание большого количества строк с .txt
В файле (.txt) текст в UTF-8
В Python'е кодировка по умолчанию cp1251
Как только дело доходит до строк со специфичными символами - все ломается. Как по умолчанию использовать UTF-8 в Python, либо еще что-то в этом роде.

Собс-на сам лог:

File “D:\Python\lib\encodings\cp1251.py”, line 23, in decode
return codecs.charmap_decode(input,self.errors,decoding_table)
UnicodeDecodeError: ‘charmap’ codec can't decode byte 0x98 in position 256: character maps to <undefined>

Пример такого .txt ниже.
Код простейший.

f=open('111.txt','r')
for line in f:
z=line
z=z*2
print(z)

ZerG

Ноя. 3, 2016 16:14:47

http://python.su/forum/search/?action=search&keywords=юникод&author=&forum=0&search_in=all&sort_by=0&sort_dir=DESC&show_as=topics

Resperator

Ноя. 3, 2016 20:28:23

ZerG
http://python.su/forum/search/?action=search&keywords=юникод&author=&forum=0&search_in=all&sort_by=0&sort_dir=DESC&show_as=topics

Found 0 topics.

XD

JOHN_16

Ноя. 3, 2016 21:54:26

python3

 open(..., encoding='utf8')

Resperator

Ноя. 4, 2016 08:43:44

JOHN_16
python3

В этом то и суть. Сие команда не помогает.

Traceback (most recent call last):
File “C:\Users\****\Desktop\****.py”, line 157, in <module>
for line in f:
File “D:\Python\lib\encodings\cp1251.py”, line 23, in decode
return codecs.charmap_decode(input,self.errors,decoding_table)
UnicodeDecodeError: ‘charmap’ codec can't decode byte 0x98 in position 256: character maps to <undefined>

ZerG

Ноя. 4, 2016 10:47:20

 with open('111.txt', "rt", encoding="utf-8") as f:
    z = f.read()
    for i in z:
        print(i)

Прекрасно работает!

 ⚑
 
⚒
 
⚓
 
⚔
 
⚕
 
⚖

Resperator

Ноя. 4, 2016 11:07:53

ZerG
with open('111.txt', “rt”, encoding=“utf-8”) as f:
z = f.read()
for i in z:
print(i)

Таки да. Пропишите пожалуйста еще тот случай, где считывание происходит не по символу, а по строке.

Resperator

Ноя. 4, 2016 11:14:29

ZerG

Переписал сам. Вроде правильно. Позже отпишу.

with open('splitfiles_5.txt', “rt”, encoding=“utf-8”) as f:
for line in f:
print(line)

Resperator

Ноя. 4, 2016 11:24:53

ZerG

Нашел новую проблему. При записи Питон создает .txt в кодировке ANSI. Как создать с помощью него txt именно в UTF-8 для дальнейшей записи.

Resperator

Ноя. 4, 2016 11:31:06

Ибо при записи определенных символов происходит краш. Скажем такого �