Форум сайта python.su
0
Привет все форумчанам! Прошу помощи по регулярке, есть строка вида
:/groups/finance.markets/"jonpgyvot.hpihbo "<gohvlljgcifx
/groups/finance.markets/
Отредактировано FishHook (Янв. 30, 2020 15:14:51)
Офлайн
568
Dmitry2020
Извините, не понял. А зачем извлекать заранее известную строку? Я и без регулярок вам результат извлечения скажу - “/groups/finance.markets/”
Офлайн
0
FishHookДело в том, что после /groups/ строки меняются.
Извините, не понял. А зачем извлекать заранее известную строку? Я и без регулярок вам результат извлечения скажу - “/groups/finance.markets/”
Офлайн
568
Dmitry2020
Вот это вам надо?
s = ':/groups/SUPER.PUPER/"jonpgyvot.hpihbo "<gohvlljgcifx' print(s.split('/')[2])
$> python test.py
SUPER.PUPER
Офлайн
0
Попробую объснить по другому, есть html страница, в которой в свою очередь есть ссылки вида <a class=“” href=“/groups/bdmmagazine/”>ФИНАНСЫ</a> ,
строка после слова /groups/ меняется, мне нужно вытащить все строки вида /groups/бла-бла-бла, надеюсь теперь я ясно изъяснился.
Офлайн
568
Dmitry2020Это не регулярками делается, вам надо парсить HTML каким-нибудь подходящим инструментом типа lxml, BeautifulSoup и прочими.
Попробую объснить по другому, есть html страница, в которой в свою очередь есть ссылки вида <a class=“” href=“/groups/bdmmagazine/”>ФИНАНСЫ</a> ,строка после слова /groups/ меняется, мне нужно вытащить все строки вида /groups/бла-бла-бла, надеюсь теперь я ясно изъяснился.
Офлайн
0
Супом пробовал парсить href, но кроме этих ссылок еще много мусора.
Офлайн
568
Dmitry2020
Супом пробовал парсить href, но кроме этих ссылок еще много мусора.
Офлайн
857
>>> import re >>> >>> s = """:/groups/finance.markets/"jonpgyvot.hpihbo "<gohvlljgcifx""" >>> >>> pat = r':(.+?)"' >>> >>> out = re.search(pat, s).group(1) >>> out '/groups/finance.markets/' >>>
Офлайн