Уведомления

Группа в Telegram: @pythonsu

#1 Июнь 22, 2008 14:51:06

alexber220
От:
Зарегистрирован: 2007-02-03
Сообщения: 6
Репутация: +  0  -
Профиль   Отправить e-mail  

cp1251 + utf-8

Есть страницы вроде http://etuva.ru/
которые большей частью в одной кодировке но из-за невнимательности или ещё чего там появляются строки в других кодировках.
Есть парсер который перекодирует все страницы в utf8 который об такие страницы запинается.
Если кто сталкивался содскажите как если не перекодировать то хотябы избавиться от символов которые перекодировать не удаётся.



Офлайн

#2 Июнь 23, 2008 07:13:02

pythonwin
От:
Зарегистрирован: 2006-07-18
Сообщения: 1294
Репутация: +  0  -
Профиль   Отправить e-mail  

cp1251 + utf-8

посмотри chardet



Офлайн

#3 Июнь 23, 2008 15:59:07

cybergrind
От:
Зарегистрирован: 2008-01-21
Сообщения: 201
Репутация: +  0  -
Профиль   Отправить e-mail  

cp1251 + utf-8

а encode('utf-8', ‘ignore’)?



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version