Python-сообщество

gelius · Окт. 18, 2014 17:09:18

Собираю ссылки на javascript расположенные на сторонних деменах:

lst = html.xpath(
'//script'
'[substring(@src, string-length(@src) - 2) = ".js"]'
'/@src'
)

Нужно не собирать скрипты расположенные на указанных доменах.
Допустим если скрипт расположен на domain1.com или domain2.com, ссылку на него парсить не нужно. На любых других нужно.

py.user.next · Окт. 18, 2014 22:26:23

Вот ты их выбери, а потом фильтруй.

>>> import urllib.parse
>>> 
>>> s = 'http://www.domain.com/a/b/c/d.e.f.js'
>>> urllib.parse.urlsplit(s).netloc
'www.domain.com'
>>>

Отредактировано py.user.next (Окт. 18, 2014 22:29:39)

Python-сообщество

Уведомления

#1 Окт. 18, 2014 17:09:18

xpath + регулярки

#2 Окт. 18, 2014 22:26:23

xpath + регулярки

Board footer