Найти - Пользователи
Полная версия: Помогите с регуляркой
Начало » Python для новичков » Помогите с регуляркой
1
Dmitry2020
Привет все форумчанам! Прошу помощи по регулярке, есть строка вида
:/groups/finance.markets/"jonpgyvot.hpihbo "<gohvlljgcifx
, нужно извлечь только
/groups/finance.markets/
, заранее спасибо!
FishHook
Dmitry2020
Извините, не понял. А зачем извлекать заранее известную строку? Я и без регулярок вам результат извлечения скажу - “/groups/finance.markets/”
Dmitry2020
FishHook
Извините, не понял. А зачем извлекать заранее известную строку? Я и без регулярок вам результат извлечения скажу - “/groups/finance.markets/”
Дело в том, что после /groups/ строки меняются.
FishHook
Dmitry2020
Вот это вам надо?
 s = ':/groups/SUPER.PUPER/"jonpgyvot.hpihbo "<gohvlljgcifx'
print(s.split('/')[2])

$> python test.py
SUPER.PUPER
Dmitry2020
Попробую объснить по другому, есть html страница, в которой в свою очередь есть ссылки вида <a class=“” href=“/groups/bdmmagazine/”>ФИНАНСЫ</a> ,
строка после слова /groups/ меняется, мне нужно вытащить все строки вида /groups/бла-бла-бла, надеюсь теперь я ясно изъяснился.
FishHook
Dmitry2020
Попробую объснить по другому, есть html страница, в которой в свою очередь есть ссылки вида <a class=“” href=“/groups/bdmmagazine/”>ФИНАНСЫ</a> ,строка после слова /groups/ меняется, мне нужно вытащить все строки вида /groups/бла-бла-бла, надеюсь теперь я ясно изъяснился.
Это не регулярками делается, вам надо парсить HTML каким-нибудь подходящим инструментом типа lxml, BeautifulSoup и прочими.
Dmitry2020
Супом пробовал парсить href, но кроме этих ссылок еще много мусора.
FishHook
Dmitry2020
Супом пробовал парсить href, но кроме этих ссылок еще много мусора.

Ну что поделаешь, воровство вообще ремесло нелёгкое
py.user.next
  
>>> import re
>>> 
>>> s = """:/groups/finance.markets/"jonpgyvot.hpihbo "<gohvlljgcifx"""
>>> 
>>> pat = r':(.+?)"'
>>> 
>>> out = re.search(pat, s).group(1)
>>> out
'/groups/finance.markets/'
>>>
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB