Найти - Пользователи
Полная версия: xpath + регулярки
Начало » Python для новичков » xpath + регулярки
1
gelius
Собираю ссылки на javascript расположенные на сторонних деменах:
lst = html.xpath(
'//script'
'[substring(@src, string-length(@src) - 2) = ".js"]'
'/@src'
)
Нужно не собирать скрипты расположенные на указанных доменах.
Допустим если скрипт расположен на domain1.com или domain2.com, ссылку на него парсить не нужно. На любых других нужно.
py.user.next
Вот ты их выбери, а потом фильтруй.

>>> import urllib.parse
>>> 
>>> s = 'http://www.domain.com/a/b/c/d.e.f.js'
>>> urllib.parse.urlsplit(s).netloc
'www.domain.com'
>>>
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB