py.user.next
я╗┐ в первой строке - это \xfe\xff
http://ru.wikipedia.org/wiki/UTF-8
там пишут, что программы в windows могут сохранять bom, хоть там и utf-8
скачай notepad++, он понимает кодировки
потому что то, что ты сохранил, содержит лишние символы
кракозябры - это текст в utf-8, раскодированный в cp866 (кодировка консоли)
Я давно использую notepad++.
py.user.next
вместо print line сделай print line.decode('cp866')
(на лине проверил)
Сделал, все равно выводит крокозябры и какую то ошибку:
я╗┐(2007|2008|2009|09|2010|2011|2012);GOD;2010|2011|2012
(╨╗╨╡╤В╨╛|╨╛╤Б╨╡╨╜╤М|╨╖╨╕╨╝╨░|╨▓╨╡╤Б╨╜╨░);SEZON;╨╛╤Б╨╡╨╜╤М|╨╖╨╕╨╝╨░
(╨╕╨╜╤В╨╡╤А╨╜╨╡╤В ╨╝╨░╨│╨░╨╖╨╕╨╜|╨╕╨╜╤В╨╡╤А╨╜╨╡╤В-╨╝╨░╨│╨░╨╖╨╕╨╜|╨╝╨░╨│╨░╨╖╨╕╨╜)
;MAGAZIN;╨╕╨╜╤В╨╡╤А╨╜╨╡╤В ╨╝╨░╨│╨░╨╖╨╕╨╜|╨╕╨╜╤В╨╡╤А╨╜╨╡╤В-╨╝╨░╨│╨░╨╖╨╕╨╜|╨╝╨░╨│╨
░╨╖╨╕╨╜
Traceback (most recent call last):
File “C:\Python26\Scripts\Words classification\equiv.py”, line 44, in <module>
out_lst = repl_group(text, rules_lst)
IndexError: list index out of range
C:\Python26\Scripts\Words classification>
Можно ли работать с текстовыми файлами в cp-1251 кодировке для реализации данной задачи?