Форум сайта python.su
Здравствуйте, я только начал изучение python. Передо мной стоит задача запарсить html по url для последующего выдергивания строк и записи их в SQL базу данных. На данный момент у меня есть следующий код:
import urllib2
request = 'http://maps.google.ru/maps/place?cid=7510474565088668412&q=%D1%8F%D0%BA%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D1%8F,+%D1%89%D0%B5%D0%BB%D0%BA%D0%BE%D0%B2%D1%81%D0%BA%D0%BE%D0%B5+%D1%88%D0%BE%D1%81%D1%81%D0%B5+68&hl=ru&ie=UTF8&ll=55.813279,37.797496&spn=0.000012,0.000021&t=m&z=16&vpsrc=0'
response = urllib2.urlopen(request)
a = response.read()
print a
print a.encode("cp1251")
Отредактировано (Дек. 4, 2011 19:34:37)
Офлайн
Спасибо за оперативность, сам разобрался на примере
myString = 'Hello there madcap !'
mySubString = myString[myString.find("there")+5:myString.find("!")]
print mySubString
Офлайн
#!/usr/bin/python
# -*- coding: cp1251 -*-
import urllib2
request = 'http://maps.google.ru/maps/place?cid=7510474565088668412&q=%D1%8F%D0%BA%D0%B8%D1%82%D0%BE%D1%80%D0%B8%D1%8F,+%D1%89%D0%B5%D0%BB%D0%BA%D0%BE%D0%B2%D1%81%D0%BA%D0%BE%D0%B5+%D1%88%D0%BE%D1%81%D1%81%D0%B5+68&hl=ru&ie=UTF8&ll=55.813279,37.797496&spn=0.000012,0.000021&t=m&z=16&vpsrc=0'
response = urllib2.urlopen(request)
htmlcontent = response.read()
comment = htmlcontent[htmlcontent.find("readonly-first-n"+2:htmlcontent.find("<")]
print comment
Офлайн
Madcap
Команда ‘print a’ выдаёт мне код странички, которая стянулась, однако русские символы пишутся кракозябрами.
a = response.read().decode('cp1251')
Madcapэто не по теме
Спасибо за оперативность, сам разобрался на примере
Офлайн
Решил использовать BeautifulSoup. Подскажите как можно реализовать следующее: пробежались по переменной, содержащей код страницы, выдернули все что находилось между тегами <span>чойтотам</span> и положили в массив.
Офлайн