DjangoBB LoFi version

Полная версия: PyQT4 + urllib = Проблемы с кодировкой

Начало » GUI » PyQT4 + urllib = Проблемы с кодировкой

akolesnikov

Июнь 2, 2010 01:31:29

Доброй ночи.
Два дня уже бьюсь над проблемой, руки опускаются, прошу помощи.

Упрощая задачу до безобразия, получаем:
1). Программа должна получить из интерфейса (pyqt4) объекта plainTextEdit кусок исходного кода страницы. Пользователь копирует этот кусок из просмотрщика исходного кода браузера (firefox).
2). Программа должна зайти на тот же URL, откуда пользователь брал данные, и найти месторасположение (string.find() например) этого куска кода.
3). Изначально кодировка страницы неизвестна.

Казалось бы, все просто. Ан нет, бесконечные проблемы с кодировками… Пробовал даже Universal Encoding Detector (http://chardet.feedparser.org/) - ни в какую. Поэтому большая просьба, скажите, что, когда, и к какой кодировке приводить.

Заранее спасибо.

igor.kaist

Июнь 2, 2010 08:44:57

Так берите кодировку страницы из мета тэгов html

akolesnikov

Июнь 2, 2010 08:52:35

Пытался.

Понимаете, дело в том, что банальное

text=plainTextEdit.toPlainText()
data=urllib.urlopen(url).read()

print text in data

выдает False на многих страницах.

Вначале такой косяк заметил за просмотрщиком кода Гугл Хрома. Попробовал Мозилой - безошибочно определял на десятках английских страниц. А с русским что-то не то.

Ладно, это проблему решу немного иначе.

Такой вопрос (уже не по теме). Знаю, в пхп есть функция получения процентной составляющей при определени схожести строк. Функции использует алгоритм Оливера. Не подскажете готовую либу на питоне, выполняющую проверку схожести строк, или описание какого-либо алгорима, выполняющего это действие?
Премного благодарен.

truporez

Июнь 2, 2010 12:40:10

по поводу похожести строк: http://code.google.com/p/pylevenshtein/

akolesnikov

Июнь 2, 2010 12:54:32

Спасибо.

Отличная быстрая библиотека.