Форум сайта python.su
0
Доброго времени суток.
Вобщем нужно мне написать небольшую программку для переноса каталога сайта в базу. Все вроде бы работает, но вот при считывании появляются какие-то кракозябы, но на сайте то все норм!?
for kat in kats_from_db: pageForParse = lxml.html.document_fromstring(urlopen(kat[2]).read()) parsed_data_active = pageForParse.xpath('.//td[@class="submenuactive"]/a') parsed_data = pageForParse.xpath('.//td[@class="submenu"]/a') print "Считываются подкатегории для категории" + kat[1] for item1 in parsed_data_active: podkat.append({'kategory': kat[0], 'name': item1.text, 'href': item1.attrib['href']}) print item1.text

Отредактировано SergiK (Июнь 18, 2012 12:07:30)
Прикреплённый файлы:
111.png (2,2 KБ)
Офлайн
568
# -*- coding:utf-8 -*-
????
Офлайн
0
FishHookКонечно же есть.
# -*- coding:utf-8 -*-
????
Офлайн
0
Может это lxml так себя ведет?
Офлайн
52
SergiK, проверьте кодировку файла с кодом и документа. Неожиданностей тут не бывает.
Офлайн
0
fata1exКодировка страницы UTF-8. Страница частично испорчена, но те данные которые я оттуда беру нормальные. Т.е. браузер их нормально отображает.
SergiK, проверьте кодировку файла с кодом и документа. Неожиданностей тут не бывает.
Офлайн
0
fata1ex
попытался сделать так:
page.decode('UTF-8')
UnicodeDecodeError: ‘utf8’ codec can't decode bytes in position 324-326: invalid dataи так:
page.decode('cp1251').decode('UTF-8')
UnicodeDecodeError: ‘charmap’ codec can't decode byte 0x98 in position 10434: character maps to <undefined>
Офлайн
52
SergiK, вы бы хоть ссылку на сайт дали.
Беспорядочное втыкание decode() помогает очень редко, надо понимать, что вы делаете и зачем.
Офлайн
0
fata1exК сожалению не могу, сайт не светится в сети(
SergiK, вы бы хоть ссылку на сайт дали.
Беспорядочное втыкание decode() помогает очень редко, надо понимать, что вы делаете и зачем.
Офлайн
52
Значит проверяйте кодировки сайта и кода, как и писал выше. Посмотрите на koi8-r и другие возможные варианты кодировки сайта.
Офлайн