DjangoBB LoFi version

Начало » Python для новичков » xpath + регулярки

gelius

Окт. 18, 2014 17:09:18

Собираю ссылки на javascript расположенные на сторонних деменах:

lst = html.xpath(
'//script'
'[substring(@src, string-length(@src) - 2) = ".js"]'
'/@src'
)

Нужно не собирать скрипты расположенные на указанных доменах.
Допустим если скрипт расположен на domain1.com или domain2.com, ссылку на него парсить не нужно. На любых других нужно.

py.user.next

Окт. 18, 2014 22:26:23

Вот ты их выбери, а потом фильтруй.

>>> import urllib.parse
>>> 
>>> s = 'http://www.domain.com/a/b/c/d.e.f.js'
>>> urllib.parse.urlsplit(s).netloc
'www.domain.com'
>>>