Dmitry2020
Янв. 30, 2020 15:04:27
Привет все форумчанам! Прошу помощи по регулярке, есть строка вида
:/groups/finance.markets/"jonpgyvot.hpihbo "<gohvlljgcifx
, нужно извлечь только
, заранее спасибо!
FishHook
Янв. 30, 2020 15:16:38
Dmitry2020
Извините, не понял. А зачем извлекать заранее известную строку? Я и без регулярок вам результат извлечения скажу - “/groups/finance.markets/”
Dmitry2020
Янв. 30, 2020 15:40:30
FishHook
Извините, не понял. А зачем извлекать заранее известную строку? Я и без регулярок вам результат извлечения скажу - “/groups/finance.markets/”
Дело в том, что после /groups/ строки меняются.
Dmitry2020
Янв. 30, 2020 16:32:28
Попробую объснить по другому, есть html страница, в которой в свою очередь есть ссылки вида <a class=“” href=“/groups/bdmmagazine/”>ФИНАНСЫ</a> ,
строка после слова /groups/ меняется, мне нужно вытащить все строки вида /groups/бла-бла-бла, надеюсь теперь я ясно изъяснился.
FishHook
Янв. 30, 2020 16:37:40
Dmitry2020
Попробую объснить по другому, есть html страница, в которой в свою очередь есть ссылки вида <a class=“” href=“/groups/bdmmagazine/”>ФИНАНСЫ</a> ,строка после слова /groups/ меняется, мне нужно вытащить все строки вида /groups/бла-бла-бла, надеюсь теперь я ясно изъяснился.
Это не регулярками делается, вам надо парсить HTML каким-нибудь подходящим инструментом типа lxml, BeautifulSoup и прочими.
Dmitry2020
Янв. 30, 2020 16:43:04
Супом пробовал парсить href, но кроме этих ссылок еще много мусора.
FishHook
Янв. 30, 2020 16:57:25
Dmitry2020
Супом пробовал парсить href, но кроме этих ссылок еще много мусора.
Ну что поделаешь, воровство вообще ремесло нелёгкое