Уведомления

Группа в Telegram: @pythonsu

#1 Июнь 17, 2009 14:01:42

nerezus
От:
Зарегистрирован: 2006-08-01
Сообщения: 178
Репутация: +  0  -
Профиль   Отправить e-mail  

Локаль 1251

#-*- coding: windows-1251 -*-

import re
import locale
locale.setlocale(locale.LC_ALL, '.1251')

document = "<B>ЖёП</B>"

reobj = re.compile(r"<B>([А-ЯЁ]+)</B>", re.DOTALL | re.IGNORECASE)
for match in reobj.finditer(document):
print match.group(0)
Почему не находит?
IGNORECASE то включен.
Файл в 1251.



Офлайн

#2 Июнь 17, 2009 17:25:36

ZZZ
От: Москва
Зарегистрирован: 2008-04-03
Сообщения: 2161
Репутация: +  26  -
Профиль   Адрес электронной почты  

Локаль 1251

Матерь-Сратерь… На Дебиане cp1251! У меня просто нет слов… Вернее есть, но за них меня забанят. “Против глупости сами Боги бороться бессильны.” (с) Великий Айзек

Не работайте с текстом как с набором байт (str). Декодируйте в unicode и добавьте флаг re.UNICODE. Трабла может решиться.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version