Python-сообщество

MikaMika · Июнь 11, 2013 15:11:37

Привет.
Не могу понять в чём разница между:

import re
re.sub(r'\s','','one\r\ntwo\nthree\r\nfive           5')

Результат:
onetwothreefive5
и

import re
re.sub(r'\s+','','one\r\ntwo\nthree\r\nfive           5')

Результат:
onetwothreefive5
В чём разница между \s и \s+

И второй вопрос.
Можно ли заменить инструкцию (которую я сейчас использую):

re.sub(r'\r\n|\r|\n| ', '', 'one\r\ntwo\nthree\r\nfive           5')

одним из предложенных выше вариантов (с “\s” или “\s+”).
Ведь они делаю одно и тоже.

Отредактировано MikaMika (Июнь 11, 2013 15:14:03)

reclosedev · Июнь 11, 2013 16:14:33

Ответы на все есть в документации
http://docs.python.org/2/library/re.html

'+'
Causes the resulting RE to match 1 or more repetitions of the preceding RE. ab+ will match ‘a’ followed by any non-zero number of ‘b’s; it will not match just ‘a’.

\s
When the UNICODE flag is not specified, it matches any whitespace character, 
this is equivalent to the set [ \t\n\r\f\v].
The LOCALE flag has no extra effect on matching of the space.
If UNICODE is set, this will match the characters [ \t\n\r\f\v] 
plus whatever is classified as space in the Unicode character properties database.

py.user.next · Июнь 12, 2013 05:06:26

MikaMika
В чём разница между \s и \s+

\s - это один символ
\s+ - это группа символов

документация посвежее
http://docs.python.org/3/library/re.html

MikaMika
Результат:
onetwothreefive5

результат один, но процесс его достижения различается

либо она удалит один символ, заменит его на пустоту, удалит один символ, заменит его на пустоту, …

либо она удалит группу символов, заменит её на пустоту, удалит группу символов, заменит её на пустоту, …

количество замен различается

MikaMika
Можно ли заменить инструкцию (которую я сейчас использую):

это не одно и то же

MikaMika
r'\r\n|\r|\n| '

r'[\r\n ]+'

MikaMika · Июнь 12, 2013 12:12:22

reclosedev, спасибо, прочитал в силу моего английского.
py.user.next, большое спасибо за развёрнутый ответ!

MikaMika · Июнь 12, 2013 12:47:39

Это эквивалент \s+

r'[\r\n ]+'

, а почему в документации Python, указано, что:
\s -
When the UNICODE flag is not specified, it matches any whitespace character, this is equivalent to the set . The LOCALE flag has no extra effect on matching of the space. If UNICODE is set, this will match the characters plus whatever is classified as space in the Unicode character properties database.
Получается, что \s+ - это:

r'[ \t\n\r\f\v]+'

Получается, что, например, \s - это всё же эквивалент:

re.sub(r'\r\n|\r|\n| ', '', 'one\r\ntwo\nthree\r\nfive           5')

Все символы из этого выражения (и даже больше) входят в \s
Или я что то непонимаю?

Отредактировано MikaMika (Июнь 12, 2013 12:51:16)

py.user.next · Июнь 13, 2013 05:19:55

MikaMika
Это эквивалент \s+
r'[\r\n ]+'

это не эквивалент \s+, это упрощённая запись твоего регулярного выражения

MikaMika
\s - When the UNICODE flag is not specified, it matches any whitespace character, this is equivalent to the set . The LOCALE flag has no extra effect on matching of the space. If UNICODE is set, this will match the characters plus whatever is classified as space in the Unicode character properties database.

в третьем питоне это давно уже работает по-другому: флаг re.UNICODE устарел, переход выполняется с помощью re.ASCII

MikaMika
Получается, что, например, \s - это всё же эквивалент:

нет, она прихватит ещё и табуляции, которых нет в исходном регулярном выражении

Python-сообщество

Уведомления

#1 Июнь 11, 2013 15:11:37

Пара вопросов по re.sub() и регулярным выражениям.

#2 Июнь 11, 2013 16:14:33

Пара вопросов по re.sub() и регулярным выражениям.

#3 Июнь 12, 2013 05:06:26

Пара вопросов по re.sub() и регулярным выражениям.

#4 Июнь 12, 2013 12:12:22

Пара вопросов по re.sub() и регулярным выражениям.

#5 Июнь 12, 2013 12:47:39

Пара вопросов по re.sub() и регулярным выражениям.

#6 Июнь 13, 2013 05:19:55

Пара вопросов по re.sub() и регулярным выражениям.

Board footer