Python-сообщество

gelius · Ноя. 24, 2013 20:38:24

Собираю ссылки.
При такой записи:

        urls = lxml.html.fromstring(s)
        urls = urls.xpath('//a[not(re:match(@href, "(banned1|banned2)")) and starts-with(@href, "/") or starts-with(@href, ref) ]/@href', namespaces={"re": "http://exslt.org/regular-expressions"})

не отрабатывают заблокированные слова.
Так:

        urls = lxml.html.fromstring(s)
        urls = urls.xpath('//a[not(re:match(@href, "(banned1|banned2)"))  ]/@href', namespaces={"re": "http://exslt.org/regular-expressions"})

отрабатывают.
Но мне нужны только ссылки с домена в переменной “ref”

bw · Ноя. 24, 2013 20:51:09

x and (y or z)

p.s. В “href” не обязательно должны быть домены, абсолютные или относительные пути (а ещё может быть “//example.com/…”). Так что лучше использовать вторую регулярку и `urlparse.urljoin` и/или `urlparse.urlsplit` в цикле.

..bw

Отредактировано bw (Ноя. 24, 2013 20:56:20)

malya · Ноя. 25, 2013 08:48:41

or starts-with(@href, ref) ]/@href'

а здесь у Вас случаем не ошибка?

or starts-with(@href, "ref") ]/@href'

Отредактировано malya (Ноя. 25, 2013 08:49:21)

lorien · Ноя. 25, 2013 11:52:23

А есть ли смысл пихать эту сложную логику в XPATH? Я бы циклом пробежался по всем ссылкам и отфильтровал бы потом питоном нужные ссылки.

Python-сообщество

Уведомления

#1 Ноя. 24, 2013 20:38:24

помогите с xpath

#2 Ноя. 24, 2013 20:51:09

помогите с xpath

#3 Ноя. 25, 2013 08:48:41

помогите с xpath

#4 Ноя. 25, 2013 11:52:23

помогите с xpath

Board footer