Python-сообщество

nesergen · Дек. 5, 2013 22:58:25

имеется простой скрипт:

# -*- coding: utf-8 -*-
asd=("йцу", "ЫПРОИЬТБ", "ВАПпрпА АРИ")
for x in asd:			
    txt="{:*<20s}".format(x)
    print txt, "	len() =",len(txt),  " symbols", type(txt)

из списка берутся слова с русскими буквами и форматируются (делается левое выравнивание и дополнение до 20-ти символов). Далее происходит печать полученного текста. Далее приводится результат:

йцу************** len() = 20 symbols <type ‘str’>
ЫПРОИЬТБ**** len() = 20 symbols <type ‘str’>
ВАПпрпА АРИ len() = 21 symbols <type ‘str’>

из чего видно, что длина слова по символам не соответствует расчетному значению метода len().
Данный косяк встречается с буквами не входящими в кодировку ASCII . В чем проблема, как можно решить? Мне нужно выводить на печать таблицу с ровными столбцами, для этого и использую дополнение длины строки. В реальных условиях из-зи данного дефекта ровные столбцы не получаются даже при использовании моноширинного шрифта.

Отредактировано nesergen (Дек. 5, 2013 23:02:05)

JOHN_16 · Дек. 5, 2013 23:08:53

ваш код, выполненный мною:

>>> asd=("йцу", "ЫПРОИЬТБ", "ВАПпрпА АРИ")
>>> for x in asd:
...     txt="{:*<20s}".format(x)
...     print txt, "    len() =",len(txt),  " symbols", type(txt)
...
йцу*****************    len() = 20  symbols <type 'str'>
ЫПРОИЬТБ************    len() = 20  symbols <type 'str'>
ВАПпрпА АРИ*********    len() = 20  symbols <type 'str'>

_________________________________________________________________________________
полезный блог о python john16blog.blogspot.com

nesergen · Дек. 6, 2013 13:11:46

уточняю:
на питоне 2.7 выходит косяк
на питоне 3.2 всё в порядке

Решение нашел. Всё работает привидением всех строк к Юникоду.
Но всё равно не понятно, что же делает питон с обычными строками, что выводит меньше знаков чем надо, а считает количество столько сколько надо?

Отредактировано nesergen (Дек. 6, 2013 13:20:50)

bw · Дек. 6, 2013 13:49:46

Вы ведь знаете, что UTF-8, это кодировка с не фиксированным размером кода символа? `str` это набор байт (речь о Python2), а не набор символов. И то что эти байты, это строка в кодировке UTF-8, это только в вашей голове, интерпретатору ничего об этом не известно. В `str` кстати, с таким же успехом и JPEG храниться может, что тогда должен показать `len` :-) ?

..bw

bismigalis · Дек. 6, 2013 14:14:07

в python2 используй юникодные строковые литералы

Python-сообщество

Уведомления

#1 Дек. 5, 2013 22:58:25

метод format() для строк с русскими буквами

#2 Дек. 5, 2013 23:08:53

метод format() для строк с русскими буквами

#3 Дек. 6, 2013 13:11:46

метод format() для строк с русскими буквами

#4 Дек. 6, 2013 13:49:46

метод format() для строк с русскими буквами

#5 Дек. 6, 2013 14:14:07

метод format() для строк с русскими буквами

Board footer