DjangoBB LoFi version

Начало » Центр помощи » Регулярные выражения

alexterrel

Ноя. 28, 2016 19:41:08

Добрый вечер. Подскажите, как с помощью регулярки разлечить ссылки вида “категория” и “статья” ?
Задача стоит в том , что надо написать 2 РВ для сайта , где есть ссылки вида “категория” и “статья” и что бы они не попадали под одно правило одновременно.
Например :
http://site.com/news/ - категория
http://site.com/digests/2.html - категория
http://site.com/sports/hockey/10.html - категория
http://site.com/sports/hockey/nhl-novyi-standart-shaib810.html - статья
http://site.com/politics/yanukovich-became-a-citizen-of-China837.html - статья
http://site.com/brief/it9.html - статья

Само РВ можете и не подсказывать/писать, было как тестовое задание на собеседование пару недель назад, но до сих пор спать нормально не могу ибо думаю как же оно решается. Просто хочу понять каким образом можно разлечить “статью” и “категорию” , за что “цепляться” при написание РВ. Спасибо.

MickeyMouse

Ноя. 28, 2016 20:38:38

Странно что категории и статьи - это файлы. Причем по слешам есть равные.
Если только то что категории имеют цифровые имена, в случае наличия файлов.

py.user.next

Ноя. 29, 2016 03:41:57

alexterrel
Подскажите, как с помощью регулярки разлечить ссылки вида “категория” и “статья” ?

Что значит “различить”? Непонятно, что нужно сделать.

ZerG

Ноя. 29, 2016 09:07:50

А простите
как мы можем знать
http://site.com/brief/it9.html статья или нет?

alexterrel

Ноя. 29, 2016 12:08:01

Вот оригинальный текс задания :
"У нас есть скрипт, который обходит сайт site.ua в поисках новостей, статьи имеют ссылки вида http://site.ua/category/subcategory/article12345.html , также имеются страницы разделов вида http://site.ua/category/25.html . category, subcategory, article и числа в сcылке - произвольные, subcategory может отсутствовать. Необходимо составить 2 регулярных выражения для этого сайта, соответствующих каждому из типов страниц (одну для разделов, вторую для статей), чтобы ни одна страница не попадала одновременно под оба правила. "

ZerG

Ноя. 29, 2016 12:39:36

Ваша задача называется как
А…ть! Дайте две!

py.user.next

Ноя. 29, 2016 14:23:47

  
>>> import re
>>> 
>>> text = """
... 
... http://site.com/news/
... http://site.com/digests/2.html
... http://site.com/sports/hockey/10.html
... http://site.com/sports/hockey/nhl-novyi-standart-shaib810.html
... http://site.com/politics/yanukovich-became-a-citizen-of-China837.html
... http://site.com/brief/it9.html
... 
... http://site.com/news/
... http://site.com/digests/2.html
... http://site.com/sports/hockey/10.html
... http://site.com/sports/hockey/nhl-novyi-standart-shaib810.html
... http://site.com/politics/yanukovich-became-a-citizen-of-China837.html
... http://site.com/brief/it9.html
... 
... """
>>> 
>>> pat_article = r'^http://site\.com/.*/[^\d/]+\d+\.html$'
>>> pat_category = r'^http://site\.com/.*/(?:\d+\.html)?$'
>>> 
>>> articles = re.findall(pat_article, text, re.MULTILINE)
>>> categories = re.findall(pat_category, text, re.MULTILINE)
>>> 
>>> articles
['http://site.com/sports/hockey/nhl-novyi-standart-shaib810.html', 'http://site.com/politics/yanukovich-became-a-citizen-of-China837.html', 'http://site.com/brief/it9.html', 'http://site.com/sports/hockey/nhl-novyi-standart-shaib810.html', 'http://site.com/politics/yanukovich-became-a-citizen-of-China837.html', 'http://site.com/brief/it9.html']
>>> 
>>> categories
['http://site.com/news/', 'http://site.com/digests/2.html', 'http://site.com/sports/hockey/10.html', 'http://site.com/news/', 'http://site.com/digests/2.html', 'http://site.com/sports/hockey/10.html']
>>>