DjangoBB LoFi version

Полная версия: Работа с файлами unicode type

Начало » Python для новичков » Работа с файлами unicode type

Dartanyan

Июль 1, 2014 23:55:35

У знакомого программист конвертировал кирилические имена в юникод и вот что вышло
#U0441#U0430#U0434 вместо слова сад.

Итерировать и переименовать не проблема, а вот конвертировать из этого чуда уже проблема(.

py.user.next

Июль 2, 2014 00:37:17

>>> s = '#U0441#U0430#U0434'
>>> 
>>> out = ''.join(chr(int(i, 16)) for i in s.split('#U') if i)
>>> out
'сад'
>>>

Dartanyan

Июль 2, 2014 01:13:29

осталось только решить вопрос с редкими цыфрами в конце строки

иначе летит все в пух и прах.

py.user.next

Июль 2, 2014 06:39:58

Приведи пример строк, для которых не срабатывает.

Dartanyan

Июль 2, 2014 11:29:58

#U0425#U043e#U043b#U043b1 цыфра может быть везде (

Shaman

Июль 2, 2014 11:35:39

>>> s = '#U0425#U043e#U043b#U043b1'
>>> ''.join(chr(int(i, 16)) for i in s.split('#U') if i)
'Хол䎱'
>>>

dimy44

Июль 2, 2014 15:44:48

Ну там видимо отсечь надо

 ''. join(chr(int(i[:4], 16)) for i in s . split( '#U' ) if i)

Dartanyan

Июль 2, 2014 15:49:44

Решил так, работает но только в 3 питоне в 2 вылетает (.

str = "#U0425#U043e#U043b#U043b1.jpg"
s = str.split('.')
print(''.join(chr(int(i[0:4], 16))+i[4:] for i in s[0].split('#U') if i)+'.'+s[1])

dimy44 решил также, но сам

но вот с беда с 2 питоном

dimy44

Июль 2, 2014 16:45:44

Наверно запары с chr, попробуйте

 print(''.join(unichr(int(i[:4], 16)).encode('utf-8')+i[4:] for i in s.split('#U') if i))

Dartanyan

Июль 2, 2014 19:45:09

dimy44 заработало, все )