Уведомления

Группа в Telegram: @pythonsu
  • Начало
  • » GUI
  • » PyQT4 + urllib = Проблемы с кодировкой [RSS Feed]

#1 Июнь 2, 2010 01:31:29

akolesnikov
От:
Зарегистрирован: 2009-10-26
Сообщения: 36
Репутация: +  0  -
Профиль   Отправить e-mail  

PyQT4 + urllib = Проблемы с кодировкой

Доброй ночи.
Два дня уже бьюсь над проблемой, руки опускаются, прошу помощи.

Упрощая задачу до безобразия, получаем:
1). Программа должна получить из интерфейса (pyqt4) объекта plainTextEdit кусок исходного кода страницы. Пользователь копирует этот кусок из просмотрщика исходного кода браузера (firefox).
2). Программа должна зайти на тот же URL, откуда пользователь брал данные, и найти месторасположение (string.find() например) этого куска кода.
3). Изначально кодировка страницы неизвестна.

Казалось бы, все просто. Ан нет, бесконечные проблемы с кодировками… Пробовал даже Universal Encoding Detector (http://chardet.feedparser.org/) - ни в какую. Поэтому большая просьба, скажите, что, когда, и к какой кодировке приводить.

Заранее спасибо.



Офлайн

#2 Июнь 2, 2010 08:44:57

igor.kaist
От:
Зарегистрирован: 2007-11-12
Сообщения: 1879
Репутация: +  3  -
Профиль   Отправить e-mail  

PyQT4 + urllib = Проблемы с кодировкой

Так берите кодировку страницы из мета тэгов html



Офлайн

#3 Июнь 2, 2010 08:52:35

akolesnikov
От:
Зарегистрирован: 2009-10-26
Сообщения: 36
Репутация: +  0  -
Профиль   Отправить e-mail  

PyQT4 + urllib = Проблемы с кодировкой

Пытался.

Понимаете, дело в том, что банальное

text=plainTextEdit.toPlainText()
data=urllib.urlopen(url).read()

print text in data
выдает False на многих страницах.

Вначале такой косяк заметил за просмотрщиком кода Гугл Хрома. Попробовал Мозилой - безошибочно определял на десятках английских страниц. А с русским что-то не то.

Ладно, это проблему решу немного иначе.

Такой вопрос (уже не по теме). Знаю, в пхп есть функция получения процентной составляющей при определени схожести строк. Функции использует алгоритм Оливера. Не подскажете готовую либу на питоне, выполняющую проверку схожести строк, или описание какого-либо алгорима, выполняющего это действие?
Премного благодарен.



Офлайн

#4 Июнь 2, 2010 12:40:10

truporez
От:
Зарегистрирован: 2009-05-08
Сообщения: 266
Репутация: +  6  -
Профиль   Адрес электронной почты  

PyQT4 + urllib = Проблемы с кодировкой

по поводу похожести строк: http://code.google.com/p/pylevenshtein/



Офлайн

#5 Июнь 2, 2010 12:54:32

akolesnikov
От:
Зарегистрирован: 2009-10-26
Сообщения: 36
Репутация: +  0  -
Профиль   Отправить e-mail  

PyQT4 + urllib = Проблемы с кодировкой

Спасибо.

Отличная быстрая библиотека.



Офлайн

  • Начало
  • » GUI
  • » PyQT4 + urllib = Проблемы с кодировкой[RSS Feed]

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version