DjangoBB LoFi version

AleksSR

Ноя. 29, 2011 14:06:53

py.user.next
в 12 сообщении содержимое файлов

Это я понял, файлы указаны, ошибка выдается с указанными файлами.

py.user.next

Ноя. 29, 2011 22:01:00

def load_rules(ifname):
    rules_lst = []
    with open(ifname) as f:
        for line in f:
            print line
            continue

вставь две строки и вывод сюда

AleksSR

Ноя. 30, 2011 08:09:16

py.user.next

def load_rules(ifname):
    rules_lst = []
    with open(ifname) as f:
        for line in f:
            print line
            continue

вставь две строки и вывод сюда

Вставил две строки.

Выводится список и после него вот такой ответ:
Traceback (most recent call last):
File “C:\Python26\Scripts\Words classification\equiv.py”, line 44, in <module>

out_lst = repl_group(text, rules_lst)
IndexError: list index out of range

C:\Python26\Scripts\Words classification>

py.user.next

Ноя. 30, 2011 10:16:46

AleksSR
Выводится список и после него вот такой ответ

какой список ?

AleksSR

Ноя. 30, 2011 11:49:49

py.user.next
AleksSR
Выводится список и после него вот такой ответ
какой список ?

Список слов из крокозябр(слова исходные в cp1251 кодировке).

py.user.next

Ноя. 30, 2011 22:24:50

не надо его описывать словами
скопируй его сюда в точности
если неточно показывает, сделай скриншот

py.user.next

Дек. 1, 2011 10:28:47

ну, какая-то лажа, не относящаяся к 12 сообщению
открой 12 сообщение, сделай два файла: файл с правилами rules.txt, файл с фразой file.txt
и запиши в файлы именно то, что там написано

и сохрани файлы в utf-8 (используй notepad++)

AleksSR

Дек. 2, 2011 09:09:29

Сделал, вот вывод:

я╗┐(2007|2008|2009|09|2010|2011|2012);GOD;2010|2011|2012

(╨╗╨╡╤В╨╛|╨╛╤Б╨╡╨╜╤М|╨╖╨╕╨╝╨░|╨▓╨╡╤Б╨╜╨░);SEZON;╨╛╤Б╨╡╨╜╤М|╨╖╨╕╨╝╨░

(╨╕╨╜╤В╨╡╤А╨╜╨╡╤В ╨╝╨░╨│╨░╨╖╨╕╨╜|╨╕╨╜╤В╨╡╤А╨╜╨╡╤В-╨╝╨░╨│╨░╨╖╨╕╨╜|╨╝╨░╨│╨░╨╖╨╕╨╜)
;MAGAZIN;╨╕╨╜╤В╨╡╤А╨╜╨╡╤В ╨╝╨░╨│╨░╨╖╨╕╨╜|╨╕╨╜╤В╨╡╤А╨╜╨╡╤В-╨╝╨░╨│╨░╨╖╨╕╨╜|╨╝╨░╨│╨
░╨╖╨╕╨╜
Traceback (most recent call last):
File “C:\Python26\Scripts\Words classification\equiv.py”, line 44, in <module>

out_lst = repl_group(text, rules_lst)
IndexError: list index out of range

C:\Python26\Scripts\Words classification>

py.user.next
ну, какая-то лажа, не относящаяся к 12 сообщению
открой 12 сообщение, сделай два файла: файл с правилами rules.txt, файл с фразой file.txt
и запиши в файлы именно то, что там написано

и сохрани файлы в utf-8 (используй notepad++)

py.user.next

Дек. 2, 2011 12:21:36

я╗┐ в первой строке - это \xfe\xff
http://ru.wikipedia.org/wiki/UTF-8
там пишут, что программы в windows могут сохранять bom, хоть там и utf-8
скачай notepad++, он понимает кодировки
потому что то, что ты сохранил, содержит лишние символы
кракозябры - это текст в utf-8, раскодированный в cp866 (кодировка консоли)

>>> s = '(&#9576;&#9557;&#9576;&#9564;&#9572;В&#9576;&#9569;&#9572;А&#9576;&#9564;&#9576;&#9569;&#9572;В &#9576;&#9565;&#9576;&#9617;&#9576;&#9474;&#9576;&#9617;&#9576;&#9558;&#9576;&#9557;&#9576;&#9564;|&#9576;&#9557;&#9576;&#9564;&#9572;В&#9576;&#9569;&#9572;А&#9576;&#9564;&#9576;&#9569;&#9572;В-&#9576;&#9565;&#9576;&#9617;&#9576;&#9474;&#9576;&#9617;&#9576;&#9558;&#9576;&#9557;&#9576;&#9564;|&#9576;&#9565;&#9576;&#9617;&#9576;&#9474;&#9576;&#9617;&#9576;&#9558;&#9576;&#9557;&#9576;&#9564;)'
>>> s.encode('cp866').decode('utf-8')
'(интернет магазин|интернет-магазин|магазин)'
>>>

это в третьем питоне

>>> s = u'(&#9576;&#9557;&#9576;&#9564;&#9572;В&#9576;&#9569;&#9572;А&#9576;&#9564;&#9576;&#9569;&#9572;В &#9576;&#9565;&#9576;&#9617;&#9576;&#9474;&#9576;&#9617;&#9576;&#9558;&#9576;&#9557;&#9576;&#9564;|&#9576;&#9557;&#9576;&#9564;&#9572;В&#9576;&#9569;&#9572;А&#9576;&#9564;&#9576;&#9569;&#9572;В-&#9576;&#9565;&#9576;&#9617;&#9576;&#9474;&#9576;&#9617;&#9576;&#9558;&#9576;&#9557;&#9576;&#9564;|&#9576;&#9565;&#9576;&#9617;&#9576;&#9474;&#9576;&#9617;&#9576;&#9558;&#9576;&#9557;&#9576;&#9564;)'
>>> s.encode('cp866').decode('utf-8')
u'(\u0438\u043d\u0442\u0435\u0440\u043d\u0435\u0442 \u043c\u0430\u0433\u0430\u0437\u0438\u043d|\u0438\u043d\u0442\u0435\u0440\u043d\u0435\u0442-\u043c\u0430\u0433\u0430\u0437\u0438\u043d|\u043c\u0430\u0433\u0430\u0437\u0438\u043d)'
>>> print s.encode('cp866').decode('utf-8')
(интернет магазин|интернет-магазин|магазин)
>>>

это во втором питоне

чтобы сразу выводить по-русски, нужно, вроде бы, сначала раскодировать в cp866, тогда при выводе он будет кодировать обратно
вместо print line сделай print line.decode('cp866')
(на лине проверил)

AleksSR

Дек. 5, 2011 09:22:17

py.user.next
я╗┐ в первой строке - это \xfe\xff
http://ru.wikipedia.org/wiki/UTF-8
там пишут, что программы в windows могут сохранять bom, хоть там и utf-8
скачай notepad++, он понимает кодировки
потому что то, что ты сохранил, содержит лишние символы
кракозябры - это текст в utf-8, раскодированный в cp866 (кодировка консоли)

Я давно использую notepad++.

py.user.next
вместо print line сделай print line.decode('cp866')
(на лине проверил)

Сделал, все равно выводит крокозябры и какую то ошибку:

я╗┐(2007|2008|2009|09|2010|2011|2012);GOD;2010|2011|2012

(╨╗╨╡╤В╨╛|╨╛╤Б╨╡╨╜╤М|╨╖╨╕╨╝╨░|╨▓╨╡╤Б╨╜╨░);SEZON;╨╛╤Б╨╡╨╜╤М|╨╖╨╕╨╝╨░

(╨╕╨╜╤В╨╡╤А╨╜╨╡╤В ╨╝╨░╨│╨░╨╖╨╕╨╜|╨╕╨╜╤В╨╡╤А╨╜╨╡╤В-╨╝╨░╨│╨░╨╖╨╕╨╜|╨╝╨░╨│╨░╨╖╨╕╨╜)
;MAGAZIN;╨╕╨╜╤В╨╡╤А╨╜╨╡╤В ╨╝╨░╨│╨░╨╖╨╕╨╜|╨╕╨╜╤В╨╡╤А╨╜╨╡╤В-╨╝╨░╨│╨░╨╖╨╕╨╜|╨╝╨░╨│╨
░╨╖╨╕╨╜
Traceback (most recent call last):
File “C:\Python26\Scripts\Words classification\equiv.py”, line 44, in <module>

out_lst = repl_group(text, rules_lst)
IndexError: list index out of range

C:\Python26\Scripts\Words classification>

Можно ли работать с текстовыми файлами в cp-1251 кодировке для реализации данной задачи?