← Сtrl

s0rg · Март 17, 2012 16:32:06

from http import cookies, client
from urllib.parse import urlencode, urlsplit, urljoin
from lxml.html import document_fromstring


class SimpleBrowser(object):
    def __init__(self, headers=None, timeout=10):
        self._cookies = cookies.SimpleCookie()
        self._headers = headers if (headers is not None) \
                                else [('User-Agent', 'SimpleBrowser/0.1')]
        self._headers.append(('Connection', 'close'))
        self._host = None
        self._conn = None
        self._timeout = timeout

    def __ensure_connection(self, host, scheme):
        if self._host == host:
            return

        if self._conn is not None:
            self._conn.close()

        self._host = host

        if scheme == 'http':
            self._conn = client.HTTPConnection(host, timeout=self._timeout)
        elif scheme == 'https':
            self._conn = client.HTTPSConnection(host, timeout=self._timeout)
        else:
            raise ValueError('Unknown scheme: %s' % scheme)

    def __prepare_url(self, url):
        parsed = urlsplit(url, scheme='http')
        host = parsed.netloc if parsed.netloc else self._host
        self.__ensure_connection(host, parsed.scheme)
        return '%s?%s' % (parsed.path, parsed.query)

    def close(self):
        if self._conn is not None:
            self._conn.close()
            self._conn = None
        self._host = None

    def add_header(self, name, value):
        self._headers.append((name, value))

    def add_cookie(self, name, value):
        self._cookies[name] = value

    def request(self, req, url, data=None):
        if isinstance(data, dict):
            data = urlencode(data)

        loc = self.__prepare_url(url)
        self._conn.putrequest(req, loc)
        for header in self._headers:
            self._conn.putheader(*header)
        cookies = self._cookies.output(attrs=[], header='')
        if cookies:
            self._conn.putheader('Cookie', cookies.strip())
        self._conn.endheaders(data)

        resp = self._conn.getresponse()
        resp_headers = dict(resp.getheaders())
        resp_body = resp.read()
        self._conn.close()
        if 'Set-Cookie' in resp_headers:
            self._cookies.load(resp_headers['Set-Cookie'])
        if 'Set-Cookie2' in resp_headers:
            self._cookies.load(resp_headers['Set-Cookie2'])

        if resp.status == client.OK:
            return (client.OK, document_fromstring(resp_body))
        elif resp.status in (client.MOVED_PERMANENTLY, client.FOUND):
            return self.request(req, resp_headers['Location'], data)
        else:
            return (resp.status, resp.reason)

    def get(self, url):
        return self.request('GET', url)

    def post(self, url, data):
        return self.request('POST', url, data)


if __name__ == '__main__':
    sb = SimpleBrowser()
    res, doc = sb.get('http://pogoda.yandex.ru/moscow/')
    if res == client.OK:
        for div in doc.cssselect("div.b-forecast__tday"):
            print(div.text)

Как-то так ) Код не идеальный - я не тестировал post но для яндекса работает.

P.S. То, что первоначальный код сработал для 2.x но при этом не работал в 3.x ‘виновата’ именно версия:
http://docs.python.org/release/3.2/library/urllib.request.html
According to the letter of RFC 2616, 301 and 302 responses to POST requests must not be automatically redirected without confirmation by the user. In reality, browsers do allow automatic redirection of these responses, changing the POST to a GET, and urllib reproduces this behaviour.

bollustrado · Март 17, 2012 19:29:03

Большое спасибо

s0rg · Март 17, 2012 23:18:54

Немного причесал и выложил на github: https://github.com/s0rg/simplebrowser
Может кому понадобится.
Теперь одинаково работает и с 2.x и c 3.x ветками + наличие lxml не обязательно.

Spectral · Март 18, 2012 00:07:17

s0rg
Немного причесал и выложил на github: https://github.com/s0rg/simplebrowser
Может кому понадобится.
Теперь одинаково работает и с 2.x и c 3.x ветками + наличие lxml не обязательно.

Обязательно пригодится!
Все нужные строки для приложения на Питоне, ползущего в Интернет :)

SHDW · Июль 30, 2012 10:47:07

Опишу свою проблему:
есть python 3.2 x64, lxml-2.3.4
требуется запарсить сайт
пробовал

try:
    from lxml import etree
    import urllib.request as rqc
except ImportError:
    print("import faled")
url = "http://www.plm-forum.ru/forum/viewforum.php?f=133"
f = rqc.urlopen(url)
data = f.read()
lt = etree.parse(data)
print("EOL")

в основном ругается

&bull

( возможно и на другие будет ругаться но первым встречается именно bull)
можно ли как-то обойти эту ошибку.
Задача стоит в том чтобы получить все ссылки href со страницы.
заранее спасибо

reclosedev · Июль 30, 2012 11:02:54

Для HTML лучше использовать lxml.html вместо etree.

import lxml.html
...
lt = lxml.html.fromstring(data)

А если особых требований к скачиванию нет (куки, хедеры), можно даже так:

lt = lxml.html.parse("http://www.plm-forum.ru/forum/viewforum.php?f=133")

SHDW · Июль 30, 2012 13:08:09

ммм… спасибо.
Просто в той же документации по lxml было написано что предпочтительней использовать xml парсер для xhml.

odnochlen · Июль 30, 2012 16:14:59

xhtml != html

PooH · Июль 30, 2012 16:43:55

odnochlen
xhtml != html

Что интересно - по ссылке валидный XHTML 1.0 Strict! Надо будет завтра попробовать попарсить.

Вот здесь один из первых отарков съел лаборанта. Это был такой умный отарк, что понимал даже теорию относительности. Он разговаривал с лаборантом, а потом бросился на него и загрыз…

Python-сообщество

Уведомления

#1 Март 17, 2012 16:32:06

Проблема с lxml

#2 Март 17, 2012 19:29:03

Проблема с lxml

#3 Март 17, 2012 23:18:54

Проблема с lxml

#4 Март 18, 2012 00:07:17

Проблема с lxml

#5 Июль 30, 2012 10:47:07

Проблема с lxml

#6 Июль 30, 2012 11:02:54

Проблема с lxml

#7 Июль 30, 2012 13:08:09

Проблема с lxml

#8 Июль 30, 2012 16:14:59

Проблема с lxml

#9 Июль 30, 2012 16:43:55

Проблема с lxml

Board footer