Форум сайта python.su
Очень надеюсь я правильно выбрал рубрику и кто-то откликнется на мой призыв о помощи).
Дело такое: есть программа под названием SMParser написанная на Python. Ее задача - парсить Яндекс.Весна (рефераты). Но она косячит. Постоянно выкидает в лог такой текст ошибки:
Exception in thread Parser:
Traceback (most recent call last):
File “threading.pyc”, line 486, in __bootstrap_inner
File “threading.pyc”, line 446, in run
File “modules\parser.pyc”, line 146, in parse
File “modules\parser.pyc”, line 128, in worker
File “modules\parser.pyc”, line 83, in fwriter
File “modules\syno.pyc”, line 72, in syntext
File “modules\syno.pyc”, line 64, in tounicode
File “encodings\cp1251.pyc”, line 15, in decode
UnicodeDecodeError: ‘charmap’ codec can't decode byte 0x98 in position 897: character maps to <undefined>
Сам я не программер, так что исправить это не могу. Я стал разбираться потихоньку ища ответ в сети. В результате я понял, что проблема скорее всего где-то в кодировке и ее нужно сменить. Я и Python себе установил и начал в нем ковыряться, но результата пока нет. Когда я пробую открыть прогу через Python, он говорит, что кодировка с1251 не корректна и нуждается в исправлении на UTF-8, но исправить не может. Я так понимаю, что это из-за того, что все файлы внутри ехе-шника в формате .рус (то есть скомпилированы для лучшего машинного понимания), а Python редактирует только файлы .py. Саму проблему я понимаю так: текст, который прога парсит с яндекса идет в кодировке UTF-8. Прога декодирует этот текст согласно параметрам, установленным в charmap. Когда прога в процессе парса натыкается на символ 0х98, она декодирует его согласно таблице кодировки c1251, а там это <undefined> - не определено. А если б она брала значения из таблицы UTF-8 - все было б ок.
Я понимаю, что задач, которые исполняет этот SMParser, можно достичь и другими путями, но фишка как раз в том, что нужно, что б именно эта прога заработала.
Буду премного благодарен за любою помощь.
Офлайн
http://www.seomazzi.ru/kontakty Молчит?
Офлайн
К сожалению - да.
Он давно эту прогу выпустил и походу уже забил на этот проект.
Отредактировано Cortez (Июнь 13, 2013 09:44:18)
Офлайн