Форум сайта python.su
Привет я пытаюсь написать скрипт для парсинга инфы о фильмах используя кинопоиск и imdb. Не работает кинопоиск, а именно после захода на любую страницу почему то редиректит на главную страницу. Код предельно прост:
class Parser:
domainName = ""
def __init__(self, domainName):
self.domainName = domainName
def openURL(self, url):
req_str = 'http://www.' + self.domainName + '/' + url + '/'
print req_str
req = urllib2.Request(req_str)
req.add_header('User-Agent', 'Chrome')
f = urllib2.urlopen(req)
return f.read()
if __name__ == "__main__":
myParser = Parser('kinopoisk.ru/level/1/film')
page = myParser.openURL('300')
print page
Отредактировано (Фев. 19, 2010 13:42:05)
Офлайн
Прежде, чем задавать вопрос, следует пользоваться поиском.
Проблема уже обсуждалась
http://python.su/forum/viewtopic.php?id=4888
Офлайн
Прежде, чем задавать вопрос, следует пользоваться поиском.Вообщето нет. В той теме проблема была с ошибкой 302 и тем, что сайт редиректил сам на себя, пока питон не выводил ошибку. У меня же ошибки не выводиться - скрипт такой же как и в результате решения той темы, просто я перехожу не на страницу с каким то фильмом, а на главную.
Проблема уже обсуждалась
http://python.su/forum/viewtopic.php?id=4888
Офлайн
1. попробуйте прикрутить urllib2.HTTPRedirectHandler()
2. передавайте больше информации о браузере в заголовках, нормальный useragent, accept. посмотрите, что шлет ваш браузер в заголовках.
3. посмотрите как читает страницы mechanize, spynner.
Офлайн
sandricмдее…
Вообще-то нет. В той теме проблема была с ошибкой 302 и тем, что сайт редиректил сам на себя, пока питон не выводил ошибку. У меня же ошибки не выводиться - скрипт такой же как и в результате решения той темы, просто я перехожу не на страницу с каким то фильмом, а на главную.
Офлайн