Ctrl →

qman · Май 3, 2010 20:11:03

Всем привет
есть код

import re
c_false = "12 qweasdzxcasd 32"
c_true = "Ivan Petrovich Sidorov"
re_exp = r"\w+"
print re.compile(re_exp).findall(c_false)

Помогите составить регулярное выражение re_exp чтобы проверять строку в соответствии с формой записи ‘Фамилия, Имя, Отчество’.
Шаблон re_exp = r“\w+” кроме символов алфавита захватывает цифры, а мне нужны только символы алфавита.
Всем спасибо
P.S. так тоже немного не то re_exp = r"+"

Отредактировано (Май 3, 2010 20:12:25)

o7412369815963 · Май 3, 2010 21:17:51

if re.match(r'^[A-Z][a-z]+\s[A-Z][a-z]+\s[A-Z][a-z]+$',c_true): print 'yes'

тут ещё проверка что-б первая буква слова была большая

Запуск программ из Python
Кодировки в python
Мой блог

qman · Май 4, 2010 15:21:51

o7412369815963
if re.match(r'^[A-Z][a-z]+\s[A-Z][a-z]+\s[A-Z][a-z]+$',c_true): print 'yes'
тут ещё проверка что-б первая буква слова была большая

Спасибо. Подскажите почему следующий код не работает для юникода?

# -*- coding: utf-8 -*-
import re
c_false = "12 qweasdzxcasd 32"
#c_true = "Ivan Petrovich Sidorov"
c_true = u"Иван Петрович Сидоров"

if re.match(r'^[A-Z][a-z]+\s[A-Z][a-z]+\s[A-Z][a-z]+$',c_true, re.UNICODE ):
     print 'yes'
else:
    print 'no'

А если Ф.И.О. будет написано в кириллице в кодировке UTF-8 или в юникоде, то оно попадет в множество (для прописных соответственно )?
P.S. забыл поставить знак вопроса

Отредактировано (Май 4, 2010 19:21:31)

o7412369815963 · Май 4, 2010 15:23:59

для русского алфавита нужно добавлять А-Я

Запуск программ из Python
Кодировки в python
Мой блог

misha111 · Май 4, 2010 17:23:29

уберите контроль регистра re.compile(pattern, re.IGNORECASE), что вы мучаетесь

>>>как исключить захват цифр?
не читаю что там по тексту, но исключить символы можно так это будет (не путать с началом строки ^)

Отредактировано (Май 4, 2010 17:24:10)

o7412369815963 · Май 4, 2010 18:09:42

misha111
уберите контроль регистра re.compile(pattern, re.IGNORECASE), что вы мучаетесь

> тут ещё проверка что-б первая буква слова была большая

Запуск программ из Python
Кодировки в python
Мой блог

qman · Май 4, 2010 19:28:14

извините за тупость , но почему следующий код возвращает отрицание:

# -*- coding: utf-8 -*-
import re
c_true = u"ф"

if re.match(r'^[а-я]$',c_true, re.UNICODE|re.IGNORECASE):
     print 'yes'
else:
    print 'no'

Если указать переменную c_true = “ф” не как юникод то будет по прежнему отрицание.!

qman · Май 4, 2010 19:29:59

qman
извините за тупость , но почему следующий код возвращает отрицание:
# -*- coding: utf-8 -*-
import re
c_true = u"ф"

if re.match(r'^[а-я]$',c_true, re.UNICODE|re.IGNORECASE):
     print 'yes'
else:
    print 'no'
Если указать переменную c_true = “ф” не как юникод то будет по прежнему отрицание.!

При работе с латиницей, код работает верно

# -*- coding: utf-8 -*-
import re
c_true = u"s"

if re.match(r'^[a-z]+$',c_true, re.UNICODE|re.IGNORECASE):
     print 'yes'
else:
    print 'no'

qman · Май 4, 2010 19:44:45

Для кириллицы необходимо указывать в юникод

# -*- coding: utf-8 -*-
import re
c_true = u"йдФ"

if re.match(u'^[а-я]+$',c_true, re.UNICODE|re.IGNORECASE):
     print 'yes'
else:
    print 'no'

Для Ф.И.О

import re
c_true = u"Иван Петрович Сидоров"
if re.match(u'^[А-Я][а-я]+[\s]+[А-Я][а-я]+[\s]+[А-Я][а-я]+[\s]*$',c_true, re.UNICODE):
     print 'yes'
else:
    print 'no'

Отредактировано (Май 4, 2010 19:57:33)

Nik · Май 4, 2010 19:47:57

для русского алфавита нужно добавлять А-Я

… и про букву ё забывать не следует.

qman, шаблон сделайте unicode-строкой и будет вам ‘yes’.

Вместо match() лучше использовать search()

Python-сообщество

Уведомления

#1 Май 3, 2010 20:11:03

r"\w+" как исключить захват цифр?

#2 Май 3, 2010 21:17:51

r"\w+" как исключить захват цифр?

#3 Май 4, 2010 15:21:51

r"\w+" как исключить захват цифр?

#4 Май 4, 2010 15:23:59

r"\w+" как исключить захват цифр?

#5 Май 4, 2010 17:23:29

r"\w+" как исключить захват цифр?

#6 Май 4, 2010 18:09:42

r"\w+" как исключить захват цифр?

#7 Май 4, 2010 19:28:14

r"\w+" как исключить захват цифр?

#8 Май 4, 2010 19:29:59

r"\w+" как исключить захват цифр?

#9 Май 4, 2010 19:44:45

r"\w+" как исключить захват цифр?

#10 Май 4, 2010 19:47:57

r"\w+" как исключить захват цифр?

Board footer