Найти - Пользователи
Полная версия: Не могу справится с кракозябрами
Начало » Python для новичков » Не могу справится с кракозябрами
1 2
SergiK
Доброго времени суток.
Вобщем нужно мне написать небольшую программку для переноса каталога сайта в базу. Все вроде бы работает, но вот при считывании появляются какие-то кракозябы, но на сайте то все норм!?
for kat in kats_from_db:
        pageForParse = lxml.html.document_fromstring(urlopen(kat[2]).read()) 
        parsed_data_active = pageForParse.xpath('.//td[@class="submenuactive"]/a')
        parsed_data = pageForParse.xpath('.//td[@class="submenu"]/a')
        
        print "Считываются подкатегории для категории" + kat[1]
        
        for item1 in parsed_data_active:
            podkat.append({'kategory': kat[0], 'name': item1.text, 'href': item1.attrib['href']})
            print item1.text
и вот такие артефакты вылазят


Какие мысли на эту тему имеются, я уже не знаю что думать:(
FishHook
# -*- coding:utf-8 -*-
????
SergiK
FishHook
# -*- coding:utf-8 -*-
????
Конечно же есть.
SergiK
Может это lxml так себя ведет?
fata1ex
SergiK, проверьте кодировку файла с кодом и документа. Неожиданностей тут не бывает.
SergiK
fata1ex
SergiK, проверьте кодировку файла с кодом и документа. Неожиданностей тут не бывает.
Кодировка страницы UTF-8. Страница частично испорчена, но те данные которые я оттуда беру нормальные. Т.е. браузер их нормально отображает.
SergiK
fata1ex
попытался сделать так:
page.decode('UTF-8')
получил:
UnicodeDecodeError: ‘utf8’ codec can't decode bytes in position 324-326: invalid data
и так:
page.decode('cp1251').decode('UTF-8')
и
UnicodeDecodeError: ‘charmap’ codec can't decode byte 0x98 in position 10434: character maps to <undefined>

fata1ex
SergiK, вы бы хоть ссылку на сайт дали.

Беспорядочное втыкание decode() помогает очень редко, надо понимать, что вы делаете и зачем.
SergiK
fata1ex
SergiK, вы бы хоть ссылку на сайт дали.

Беспорядочное втыкание decode() помогает очень редко, надо понимать, что вы делаете и зачем.
К сожалению не могу, сайт не светится в сети(
fata1ex
Значит проверяйте кодировки сайта и кода, как и писал выше. Посмотрите на koi8-r и другие возможные варианты кодировки сайта.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB