DjangoBB LoFi version

Начало » Python для новичков » Помогите с регуляркой

Dmitry2020

Янв. 30, 2020 15:04:27

Привет все форумчанам! Прошу помощи по регулярке, есть строка вида

:/groups/finance.markets/"jonpgyvot.hpihbo "<gohvlljgcifx

, нужно извлечь только

/groups/finance.markets/

, заранее спасибо!

FishHook

Янв. 30, 2020 15:16:38

Dmitry2020
Извините, не понял. А зачем извлекать заранее известную строку? Я и без регулярок вам результат извлечения скажу - “/groups/finance.markets/”

Dmitry2020

Янв. 30, 2020 15:40:30

FishHook
Извините, не понял. А зачем извлекать заранее известную строку? Я и без регулярок вам результат извлечения скажу - “/groups/finance.markets/”

Дело в том, что после /groups/ строки меняются.

FishHook

Янв. 30, 2020 16:05:34

Dmitry2020
Вот это вам надо?

 s = ':/groups/SUPER.PUPER/"jonpgyvot.hpihbo "<gohvlljgcifx'
print(s.split('/')[2])

$> python test.py
SUPER.PUPER

Dmitry2020

Янв. 30, 2020 16:32:28

Попробую объснить по другому, есть html страница, в которой в свою очередь есть ссылки вида <a class=“” href=“/groups/bdmmagazine/”>ФИНАНСЫ</a> ,
строка после слова /groups/ меняется, мне нужно вытащить все строки вида /groups/бла-бла-бла, надеюсь теперь я ясно изъяснился.

FishHook

Янв. 30, 2020 16:37:40

Dmitry2020
Попробую объснить по другому, есть html страница, в которой в свою очередь есть ссылки вида <a class=“” href=“/groups/bdmmagazine/”>ФИНАНСЫ</a> ,строка после слова /groups/ меняется, мне нужно вытащить все строки вида /groups/бла-бла-бла, надеюсь теперь я ясно изъяснился.

Это не регулярками делается, вам надо парсить HTML каким-нибудь подходящим инструментом типа lxml, BeautifulSoup и прочими.

Dmitry2020

Янв. 30, 2020 16:43:04

Супом пробовал парсить href, но кроме этих ссылок еще много мусора.

FishHook

Янв. 30, 2020 16:57:25

Dmitry2020
Супом пробовал парсить href, но кроме этих ссылок еще много мусора.

Ну что поделаешь, воровство вообще ремесло нелёгкое

py.user.next

Янв. 31, 2020 03:08:33

  
>>> import re
>>> 
>>> s = """:/groups/finance.markets/"jonpgyvot.hpihbo "<gohvlljgcifx"""
>>> 
>>> pat = r':(.+?)"'
>>> 
>>> out = re.search(pat, s).group(1)
>>> out
'/groups/finance.markets/'
>>>