python file.py in.txt
в файле in.txt находятся русские символы ( кирилица) и английские символы
мне необходимо обработать их с помощью регулярных выражений.
я знаком с тем что в питоне 2.7 еще не было юникода и надо ВСЕ перевести в него ( и регулярку, и сам текст). Поэтому мне нужно понять, где у меня ошибка при переводе в юникод.
ниже текст скрипта file.py
#coding: utf-8 # load modules import re import sys #import codecs # read file, write file a = open(sys.argv[1],"r") s = a.readline() s = unicode(s, 'utf8') regexp = re.compile(u"[а-яА-ЯёЁa-zA-Z0-9]", flags=re.I + re.U) tt = re.findall(regexp, s) num = len(tt) c=0 b = open('/home/mimino/pyliyt.txt', 'w') while c < num: h=(tt[c]+':') h=h.strip() h=h.encode('utf8') b.writelines((h)+'\n') c+=1 # close files try: a.close() b.close() finally: print "all done"
ошибка выдается следующая
File "file.py", line 13 regexp = re.compile(u"[▒-▒▒-߸▒a-zA-Z0-9]",flags=re.I + re.U) SyntaxError: (unicode error) 'utf8' codec can't decode byte 0xe0 in position 0: unexpected end of data