Python-сообщество

FewG · Июль 12, 2011 20:53:00

Такой вопрос, тыпаюсь отпарсить хтмл страницу. Пока страница так сказать “тестовая” т.е маленькая и не изобилует кодом, всё работает, но когда начинаю парсить более-менее весомые сайты отказывается работать, мол кривые стартовые теги.

Код самого парсера:

from urllib import request
from html.parser import HTMLParser, HTMLParseError

URL = "http://mds.podfm.ru/150/"

class MDSParser(HTMLParser):
    inHeading = False
 
    def handle_starttag(self, tag, attrs):
        if tag == "h1":
            self.inHeading = True
      
    def handle_data(self, data):
        if self.inHeading:
            print (data)
 
    def handle_endtag(self, tag):
        if tag == "h1":
            self.inHeading = False


def openPage(URL):
    print("[-] Trying to open " + URL)
    try:
        quellcode = request.urlopen(URL).read()        
        print("[+] Successful") 
        
        return str(quellcode)    
    except:
        print("[-] Error while opening URL")     
   
def main():
    toParse = openPage(URL)
       
#    f = open("qc.txt".encode("utf-8"), "wb")
#    f.write(toParse)
#    f.close()
    
    podcast = MDSParser()
    try:
        podcast.feed(toParse)
        podcast.close()
    except HTMLParseError as e:
        print("[-] Error while parsing: " + str(e))

if __name__ == '__main__':
    main()

Ошибка:

malformed start tag, at line 1, column 430
А там => xb0. "\xd

Вообщем хезе. :rolleyes:

@br@c@d@br · Июль 12, 2011 22:36:45

Посмотрите на готовые парсеры, lxml например (http://lxml.de/)…

pyuser · Июль 13, 2011 13:42:11

html5lib + lxml

FewG · Июль 13, 2011 21:24:03

html5lib с 3 версией питона не работает.

Александр Кошелев · Июль 14, 2011 00:06:11

FewG
html5lib с 3 версией питона не работает.

А если найду?:-)

FewG · Июль 14, 2011 00:21:23

Александр Кошелев
А если найду?:-)

Да я и сам нашёл адаптированный клон под тройку, буду пробывать лисопед изобрести :)

Python-сообщество

Уведомления

#1 Июль 12, 2011 20:53:00

Парсер ХТМЛ

#2 Июль 12, 2011 22:36:45

Парсер ХТМЛ

#3 Июль 13, 2011 13:42:11

Парсер ХТМЛ

#4 Июль 13, 2011 21:24:03

Парсер ХТМЛ

#5 Июль 14, 2011 00:06:11

Парсер ХТМЛ

#6 Июль 14, 2011 00:21:23

Парсер ХТМЛ

Board footer