DjangoBB LoFi version

Полная версия: Результат regexp (re module)

Начало » Python для новичков » Результат regexp (re module)

kampella

Дек. 15, 2014 17:18:48

Выражение

 ((http:\/\/|https:\/\/)([a-z0-9_-]+\.){1,4}[a-z]+)

Возвращает 3 группы: общий результат групп и результат двух отдельных групп: (http:\/\/|https:\/\/) и (+\.).

 [('https://wordpress.org', 'https://', 'wordpress.')]

Можно ли вернуть только общий результат 'https://wordpress.org' ?

terabayt

Дек. 15, 2014 17:30:20

>>> a = re.match('((http:\/\/|https:\/\/)([a-z0-9_-]+\.){1,4}[a-z]+)', 'https://wordpress.ru')
>>> a.groups()
('https://wordpress.ru', 'https://', 'wordpress.')
>>> a.groups()[0]
'https://wordpress.ru'
>>> a.group()
'https://wordpress.ru'

kampella

Дек. 15, 2014 17:33:41

terabayt
((http:\/\/|https:\/\/)(+\.){1,4}+)

((?:http:\/\/|https:\/\/)(?:[a-z0-9_-]+\.){1,4}[a-z]+)

terabayt

Дек. 15, 2014 17:57:24

тогда можно и так:

https?:\/\/(\w-?)+(\.[a-z]+){1,3}

>>> a = re.search('https?:\/\/(\w-?)+(\.[a-z]+){1,3}}', 'https://wordpress.ru/')
>>> a.group()
'https://wordpress.ru'

GreyZmeem

Дек. 15, 2014 18:21:08

Почему не воспользоваться urlparse?

kampella

Дек. 15, 2014 22:14:14

GreyZmeem
Почему не воспользоваться urlparse?

Потомучто findall

kampella

Дек. 15, 2014 22:23:51

terabayt
тогда можно и так:

>>> a = re.search('https?:\/\/(\w-?)+(\.[a-z]+){1,3}', 'https://word--press.ru/')
>>> a.group()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

a = re.search('https?:\/\/(\w-*)+(\.[a-z]+){1,3}', 'https://word--press.ru/')

terabayt

Дек. 15, 2014 22:50:49

ну эт я специально сделал. сначала я разместил прост, а потом вспомнил и отредактировал. разве может быть сайт с несколько подряд идущими черточками?! если хотите можно и так:

https?:\/\/[\w-]+(\.[a-z]+){1,3}

py.user.next

Дек. 16, 2014 05:48:56

Слеши экранировать не надо.

r'https?:// ... '