Уведомления

Группа в Telegram: @pythonsu

#1 Окт. 18, 2014 17:09:18

gelius
Зарегистрирован: 2013-03-18
Сообщения: 132
Репутация: +  0  -
Профиль   Отправить e-mail  

xpath + регулярки

Собираю ссылки на javascript расположенные на сторонних деменах:

lst = html.xpath(
'//script'
'[substring(@src, string-length(@src) - 2) = ".js"]'
'/@src'
)
Нужно не собирать скрипты расположенные на указанных доменах.
Допустим если скрипт расположен на domain1.com или domain2.com, ссылку на него парсить не нужно. На любых других нужно.

Офлайн

#2 Окт. 18, 2014 22:26:23

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 10016
Репутация: +  857  -
Профиль   Отправить e-mail  

xpath + регулярки

Вот ты их выбери, а потом фильтруй.

>>> import urllib.parse
>>> 
>>> s = 'http://www.domain.com/a/b/c/d.e.f.js'
>>> urllib.parse.urlsplit(s).netloc
'www.domain.com'
>>>



Отредактировано py.user.next (Окт. 18, 2014 22:29:39)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version