Форум сайта python.su
В чем прикол?
Загружаю с интернета страницу, не могу раскодировать ее
вылетает ошибка
print(str(rhtml, 'cp1251', 'ignore'))
File "\Python31\lib\encodings\cp866.py", line 19, in enc
ode
return codecs.charmap_encode(input,self.errors,encoding_map)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u2013' in position
41807: character maps to <undefined>
...
5\xe9</a><span>·</span>\n\n\t\n <a href="http://auto.mail.ru/commo
n/policy.html">\xd3\xf1\xeb\xee\xe2\xe8\xff \xe8\xf1\xef\xee\xeb\xfc\xe7\xe2
\xe0\xed\xe8\xff \xec\xe0\xf2\xe5\xf0\xe8\xe0\xeb\xee\xe2</a><span>·</spa
...
Офлайн
версия python?
Офлайн
3.1
и вообще почему такая ошибка возникает? как я понимаю баг в самом питоне, в файле кодировок cp866.py?
Отредактировано (Янв. 21, 2011 15:58:29)
Офлайн
alucardmc, почитайте для начала, как устроена работа с байтами и строками в Python 3.x. - http://diveintopython3.org/strings.html#byte-arrays
Офлайн
а rhtml точно в cp1251?
Офлайн
страница на сайте <meta http-equiv=“content-type” content=“text/html; charset=windows-1251” />
посылаю в хэдах
'Accept' : ‘text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1’,
‘Accept-Language’ : ‘ru-RU,ru;q=0.9,en;q=0.8’,
‘Accept-Charset’ : ‘windows-1251, cp1251, *;q=0.1’,
‘Accept-Encoding’ : ‘txt, *;q=0’,
Офлайн
прикол в том что он не может один символ раскодировать, как его пропустить? ‘ignore’ и ‘replace’ по моему вообще не работают
Офлайн
при чем здесь http://diveintopython3.org/strings.html#byte-arrays ? читай о чем я пишу
Офлайн
alucardmcДа, это баг в питоне. Забейте на него, такой баговый язык …
при чем здесь http://diveintopython3.org/strings.html#byte-arrays ? читай о чем я пишу
Офлайн
как поправить этот баг?
Офлайн