Python-сообщество

kampella · Дек. 15, 2014 17:18:48

Выражение

 ((http:\/\/|https:\/\/)([a-z0-9_-]+\.){1,4}[a-z]+)

Возвращает 3 группы: общий результат групп и результат двух отдельных групп: (http:\/\/|https:\/\/) и (+\.).

 [('https://wordpress.org', 'https://', 'wordpress.')]

Можно ли вернуть только общий результат 'https://wordpress.org' ?

Отредактировано kampella (Дек. 15, 2014 17:20:14)

terabayt · Дек. 15, 2014 17:30:20

>>> a = re.match('((http:\/\/|https:\/\/)([a-z0-9_-]+\.){1,4}[a-z]+)', 'https://wordpress.ru')
>>> a.groups()
('https://wordpress.ru', 'https://', 'wordpress.')
>>> a.groups()[0]
'https://wordpress.ru'
>>> a.group()
'https://wordpress.ru'

————————————————
-*- Simple is better than complex -*-

kampella · Дек. 15, 2014 17:33:41

terabayt
((http:\/\/|https:\/\/)(+\.){1,4}+)

((?:http:\/\/|https:\/\/)(?:[a-z0-9_-]+\.){1,4}[a-z]+)

terabayt · Дек. 15, 2014 17:57:24

тогда можно и так:

https?:\/\/(\w-?)+(\.[a-z]+){1,3}

>>> a = re.search('https?:\/\/(\w-?)+(\.[a-z]+){1,3}}', 'https://wordpress.ru/')
>>> a.group()
'https://wordpress.ru'

————————————————
-*- Simple is better than complex -*-

Отредактировано terabayt (Дек. 15, 2014 18:03:20)

GreyZmeem · Дек. 15, 2014 18:21:08

Почему не воспользоваться urlparse?

kampella · Дек. 15, 2014 22:14:14

GreyZmeem
Почему не воспользоваться urlparse?

Потомучто findall

kampella · Дек. 15, 2014 22:23:51

terabayt
тогда можно и так:

>>> a = re.search('https?:\/\/(\w-?)+(\.[a-z]+){1,3}', 'https://word--press.ru/')
>>> a.group()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

a = re.search('https?:\/\/(\w-*)+(\.[a-z]+){1,3}', 'https://word--press.ru/')

Отредактировано kampella (Дек. 15, 2014 22:26:16)

terabayt · Дек. 15, 2014 22:50:49

ну эт я специально сделал. сначала я разместил прост, а потом вспомнил и отредактировал. разве может быть сайт с несколько подряд идущими черточками?! если хотите можно и так:

https?:\/\/[\w-]+(\.[a-z]+){1,3}

————————————————
-*- Simple is better than complex -*-

py.user.next · Дек. 16, 2014 05:48:56

Слеши экранировать не надо.

r'https?:// ... '

Отредактировано py.user.next (Дек. 16, 2014 05:49:06)

Python-сообщество

Уведомления

#1 Дек. 15, 2014 17:18:48

Результат regexp (re module)

#2 Дек. 15, 2014 17:30:20

Результат regexp (re module)

#3 Дек. 15, 2014 17:33:41

Результат regexp (re module)

#4 Дек. 15, 2014 17:57:24

Результат regexp (re module)

#5 Дек. 15, 2014 18:21:08

Результат regexp (re module)

#6 Дек. 15, 2014 22:14:14

Результат regexp (re module)

#7 Дек. 15, 2014 22:23:51

Результат regexp (re module)

#8 Дек. 15, 2014 22:50:49

Результат regexp (re module)

#9 Дек. 16, 2014 05:48:56

Результат regexp (re module)

Board footer