Уведомления

Группа в Telegram: @pythonsu

#1 Янв. 30, 2020 15:04:27

Dmitry2020
Зарегистрирован: 2020-01-30
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите с регуляркой

Привет все форумчанам! Прошу помощи по регулярке, есть строка вида

:/groups/finance.markets/"jonpgyvot.hpihbo "<gohvlljgcifx
, нужно извлечь только
/groups/finance.markets/
, заранее спасибо!

Отредактировано FishHook (Янв. 30, 2020 15:14:51)

Офлайн

#2 Янв. 30, 2020 15:16:38

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

Помогите с регуляркой

Dmitry2020
Извините, не понял. А зачем извлекать заранее известную строку? Я и без регулярок вам результат извлечения скажу - “/groups/finance.markets/”



Офлайн

#3 Янв. 30, 2020 15:40:30

Dmitry2020
Зарегистрирован: 2020-01-30
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите с регуляркой

FishHook
Извините, не понял. А зачем извлекать заранее известную строку? Я и без регулярок вам результат извлечения скажу - “/groups/finance.markets/”
Дело в том, что после /groups/ строки меняются.

Офлайн

#4 Янв. 30, 2020 16:05:34

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

Помогите с регуляркой

Dmitry2020
Вот это вам надо?

 s = ':/groups/SUPER.PUPER/"jonpgyvot.hpihbo "<gohvlljgcifx'
print(s.split('/')[2])

$> python test.py
SUPER.PUPER



Офлайн

#5 Янв. 30, 2020 16:32:28

Dmitry2020
Зарегистрирован: 2020-01-30
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите с регуляркой

Попробую объснить по другому, есть html страница, в которой в свою очередь есть ссылки вида <a class=“” href=“/groups/bdmmagazine/”>ФИНАНСЫ</a> ,
строка после слова /groups/ меняется, мне нужно вытащить все строки вида /groups/бла-бла-бла, надеюсь теперь я ясно изъяснился.

Офлайн

#6 Янв. 30, 2020 16:37:40

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

Помогите с регуляркой

Dmitry2020
Попробую объснить по другому, есть html страница, в которой в свою очередь есть ссылки вида <a class=“” href=“/groups/bdmmagazine/”>ФИНАНСЫ</a> ,строка после слова /groups/ меняется, мне нужно вытащить все строки вида /groups/бла-бла-бла, надеюсь теперь я ясно изъяснился.
Это не регулярками делается, вам надо парсить HTML каким-нибудь подходящим инструментом типа lxml, BeautifulSoup и прочими.



Офлайн

#7 Янв. 30, 2020 16:43:04

Dmitry2020
Зарегистрирован: 2020-01-30
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите с регуляркой

Супом пробовал парсить href, но кроме этих ссылок еще много мусора.

Офлайн

#8 Янв. 30, 2020 16:57:25

FishHook
От:
Зарегистрирован: 2011-01-08
Сообщения: 8312
Репутация: +  568  -
Профиль   Отправить e-mail  

Помогите с регуляркой

Dmitry2020
Супом пробовал парсить href, но кроме этих ссылок еще много мусора.

Ну что поделаешь, воровство вообще ремесло нелёгкое



Офлайн

#9 Янв. 31, 2020 03:08:33

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 10024
Репутация: +  857  -
Профиль   Отправить e-mail  

Помогите с регуляркой

  
>>> import re
>>> 
>>> s = """:/groups/finance.markets/"jonpgyvot.hpihbo "<gohvlljgcifx"""
>>> 
>>> pat = r':(.+?)"'
>>> 
>>> out = re.search(pat, s).group(1)
>>> out
'/groups/finance.markets/'
>>>



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version