DjangoBB LoFi version

Полная версия: метод format() для строк с русскими буквами

Начало » Python для новичков » метод format() для строк с русскими буквами

nesergen

Дек. 5, 2013 22:58:25

имеется простой скрипт:

# -*- coding: utf-8 -*-
asd=("йцу", "ЫПРОИЬТБ", "ВАПпрпА АРИ")
for x in asd:			
    txt="{:*<20s}".format(x)
    print txt, "	len() =",len(txt),  " symbols", type(txt)

из списка берутся слова с русскими буквами и форматируются (делается левое выравнивание и дополнение до 20-ти символов). Далее происходит печать полученного текста. Далее приводится результат:

йцу************** len() = 20 symbols <type ‘str’>
ЫПРОИЬТБ**** len() = 20 symbols <type ‘str’>
ВАПпрпА АРИ len() = 21 symbols <type ‘str’>

из чего видно, что длина слова по символам не соответствует расчетному значению метода len().
Данный косяк встречается с буквами не входящими в кодировку ASCII . В чем проблема, как можно решить? Мне нужно выводить на печать таблицу с ровными столбцами, для этого и использую дополнение длины строки. В реальных условиях из-зи данного дефекта ровные столбцы не получаются даже при использовании моноширинного шрифта.

JOHN_16

Дек. 5, 2013 23:08:53

ваш код, выполненный мною:

>>> asd=("йцу", "ЫПРОИЬТБ", "ВАПпрпА АРИ")
>>> for x in asd:
...     txt="{:*<20s}".format(x)
...     print txt, "    len() =",len(txt),  " symbols", type(txt)
...
йцу*****************    len() = 20  symbols <type 'str'>
ЫПРОИЬТБ************    len() = 20  symbols <type 'str'>
ВАПпрпА АРИ*********    len() = 20  symbols <type 'str'>

nesergen

Дек. 6, 2013 13:11:46

уточняю:
на питоне 2.7 выходит косяк
на питоне 3.2 всё в порядке

Решение нашел. Всё работает привидением всех строк к Юникоду.
Но всё равно не понятно, что же делает питон с обычными строками, что выводит меньше знаков чем надо, а считает количество столько сколько надо?

Дек. 6, 2013 13:49:46

Вы ведь знаете, что UTF-8, это кодировка с не фиксированным размером кода символа? `str` это набор байт (речь о Python2), а не набор символов. И то что эти байты, это строка в кодировке UTF-8, это только в вашей голове, интерпретатору ничего об этом не известно. В `str` кстати, с таким же успехом и JPEG храниться может, что тогда должен показать `len` :-) ?

..bw

bismigalis

Дек. 6, 2013 14:14:07

в python2 используй юникодные строковые литералы