Найти - Пользователи
Полная версия: PyQT4 + urllib = Проблемы с кодировкой
Начало » GUI » PyQT4 + urllib = Проблемы с кодировкой
1
akolesnikov
Доброй ночи.
Два дня уже бьюсь над проблемой, руки опускаются, прошу помощи.

Упрощая задачу до безобразия, получаем:
1). Программа должна получить из интерфейса (pyqt4) объекта plainTextEdit кусок исходного кода страницы. Пользователь копирует этот кусок из просмотрщика исходного кода браузера (firefox).
2). Программа должна зайти на тот же URL, откуда пользователь брал данные, и найти месторасположение (string.find() например) этого куска кода.
3). Изначально кодировка страницы неизвестна.

Казалось бы, все просто. Ан нет, бесконечные проблемы с кодировками… Пробовал даже Universal Encoding Detector (http://chardet.feedparser.org/) - ни в какую. Поэтому большая просьба, скажите, что, когда, и к какой кодировке приводить.

Заранее спасибо.
igor.kaist
Так берите кодировку страницы из мета тэгов html
akolesnikov
Пытался.

Понимаете, дело в том, что банальное
text=plainTextEdit.toPlainText()
data=urllib.urlopen(url).read()

print text in data
выдает False на многих страницах.

Вначале такой косяк заметил за просмотрщиком кода Гугл Хрома. Попробовал Мозилой - безошибочно определял на десятках английских страниц. А с русским что-то не то.

Ладно, это проблему решу немного иначе.

Такой вопрос (уже не по теме). Знаю, в пхп есть функция получения процентной составляющей при определени схожести строк. Функции использует алгоритм Оливера. Не подскажете готовую либу на питоне, выполняющую проверку схожести строк, или описание какого-либо алгорима, выполняющего это действие?
Премного благодарен.
truporez
по поводу похожести строк: http://code.google.com/p/pylevenshtein/
akolesnikov
Спасибо.

Отличная быстрая библиотека.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB