DjangoBB LoFi version

Начало » Python для новичков » помогите с xpath

gelius

Ноя. 24, 2013 20:38:24

Собираю ссылки.
При такой записи:

        urls = lxml.html.fromstring(s)
        urls = urls.xpath('//a[not(re:match(@href, "(banned1|banned2)")) and starts-with(@href, "/") or starts-with(@href, ref) ]/@href', namespaces={"re": "http://exslt.org/regular-expressions"})

не отрабатывают заблокированные слова.
Так:

        urls = lxml.html.fromstring(s)
        urls = urls.xpath('//a[not(re:match(@href, "(banned1|banned2)"))  ]/@href', namespaces={"re": "http://exslt.org/regular-expressions"})

отрабатывают.
Но мне нужны только ссылки с домена в переменной “ref”

Ноя. 24, 2013 20:51:09

x and (y or z)

p.s. В “href” не обязательно должны быть домены, абсолютные или относительные пути (а ещё может быть “//example.com/…”). Так что лучше использовать вторую регулярку и `urlparse.urljoin` и/или `urlparse.urlsplit` в цикле.

..bw

malya

Ноя. 25, 2013 08:48:41

or starts-with(@href, ref) ]/@href'

а здесь у Вас случаем не ошибка?

or starts-with(@href, "ref") ]/@href'

lorien

Ноя. 25, 2013 11:52:23

А есть ли смысл пихать эту сложную логику в XPATH? Я бы циклом пробежался по всем ссылкам и отфильтровал бы потом питоном нужные ссылки.