Форум сайта python.su
Доброй ночи.
Два дня уже бьюсь над проблемой, руки опускаются, прошу помощи.
Упрощая задачу до безобразия, получаем:
1). Программа должна получить из интерфейса (pyqt4) объекта plainTextEdit кусок исходного кода страницы. Пользователь копирует этот кусок из просмотрщика исходного кода браузера (firefox).
2). Программа должна зайти на тот же URL, откуда пользователь брал данные, и найти месторасположение (string.find() например) этого куска кода.
3). Изначально кодировка страницы неизвестна.
Казалось бы, все просто. Ан нет, бесконечные проблемы с кодировками… Пробовал даже Universal Encoding Detector (http://chardet.feedparser.org/) - ни в какую. Поэтому большая просьба, скажите, что, когда, и к какой кодировке приводить.
Заранее спасибо.
Офлайн
Так берите кодировку страницы из мета тэгов html
Офлайн
Пытался.
Понимаете, дело в том, что банальное
text=plainTextEdit.toPlainText()
data=urllib.urlopen(url).read()
print text in data
Офлайн
по поводу похожести строк: http://code.google.com/p/pylevenshtein/
Офлайн
Спасибо.
Отличная быстрая библиотека.
Офлайн