DjangoBB LoFi version

Начало » Python для новичков » Подскажите механизм

1 2 3

funnyman

Июль 11, 2012 00:59:34

paraman как я понял нужно передать супу содержимое странички полученной в свою очередь грабом.. так вот целиком html содержимое можно передать в переменную вот так: html = g.response.body.

теперь по поводу супа.. вопрос многогранный, если проделана уже огромная работа то перекодировать конечно обломно

но! на сколько я осведомился по супу, то граб может выполнять все тоже, и даже больше, поэтому для парсинга подходит с лихвой.. В то же время если собершся переписывать, тоже плюс, так как это опыт, как в грабе так и в супе..

Честно, если бы я сейчас был на твоем месте, то меня смущал бы тот факт что я используя две такие мощные библиотеки в одном проекте, и при этом юзаю например граб не на полную мощь, а только так что бы перейти по ссылке и все.. для переходов и получения контента, вроде бы можно и встроенный urllib заюзать

odnochlen

Июль 11, 2012 02:12:29

funnyman
для переходов и получения контента, вроде бы можно и встроенный urllib заюзать

Можно, конечно, только после граба или requests делать это совсем не хочется.
А парсинг с помощью внешнего парсера занимает ровно на 1 строчку больше, чем с помошью lxml, “встроенного” в граб.

paraman

Июль 11, 2012 07:04:50

Коллеги по цеху. Ваши комментарии ценны. Я действительно написал парсер с требуемыми для меня условиями и чёрт побери очень рад тому, что смог это сделать, но как сказал уважаемый funnyman, опыт. Мне нужен опыт.
Сейчас скрипт (31 строка) выполняется:

real    0m13.333s
user    0m10.581s
sys     0m0.024s

Много это или мало?

fata1ex

Июль 11, 2012 08:39:23

paraman, много или мало по сравнению с чем? Вы считаете есть прямая зависимость между количеством строк кода и ожидаемым временем работы? Показывайте код, поможем сделать быстрее.

paraman

Июль 11, 2012 10:51:20

Мне быстрей не нужно, для новичка с двух недельным опытом работы. Это результат.

Быть может есть что почитать с примерами на тему граба?
P.s. уже изучаю http://grablib.org/docs

paraman

Июль 11, 2012 14:23:09

А почему так?

Если

from grab import Grab
s = 'http://sports.betfair.com'
g = Grab()
g.go('http://www.betfair.com/en/')
g.go('http://soccer.betfair.com/')
g.set_input('username', '***')
g.set_input('password', '***')
g.submit()
d = s+g.xpath('//div/span/a[@class="i13n-ltxt-MoreMkts"]').get('href')
g.go(d)
for d in g.xpath_list('//*[@class="home-team"]'):
    print d.text.replace('\n', '').replace('                    ', '')

Ничего не выдаёт, но если убрать заход т.е.:

from grab import Grab
s = 'http://sports.betfair.com'
g = Grab()
g.go('http://www.betfair.com/en/')
g.go('http://soccer.betfair.com/')
d = s+g.xpath('//div/span/a[@class="i13n-ltxt-MoreMkts"]').get('href')
g.go(d)
for d in g.xpath_list('//*[@class="home-team"]'):
    print d.text.replace('\n', '').replace('                    ', '')

То выдаёт список команд?

funnyman

Июль 11, 2012 21:24:09

регистрироваться там лень чтобы код проверить, а так для начала просто посмотри что меняется в html при логине и без него.. дома буду, регнусь и гляну..

paraman

Июль 12, 2012 09:11:45

funnyman
регистрироваться там лень чтобы код проверить, а так для начала просто посмотри что меняется в html при логине и без него.. дома буду, регнусь и гляну..

Спасибо. Что откликнулись. Но уже решил свою беду

А не подскажите, можно ли запись

    home1 = home.text.__str__()
    home2 = home1.replace('\n', '').replace('                    ', '')

Записать в строчку?

odnochlen

Июль 12, 2012 09:21:29

str(home.text).replace('\n', '').replace('                    ', '')

paraman

Июль 12, 2012 10:48:16

odnochlen

str(home.text).replace('\n', '').replace('                    ', '')

Ооо… да уж, учиться и набираться опыта.
А вот это сократить возможно?

    w1 = str(home.text).replace('\n', '').replace('                    ', '')
    if w1:
        w2.append(w1)