после нескольких запусков заметил что конвертация из utf-8 слетает,
при конвертации из utf-8 в cp1251 файлов вот такого содержания:
почему?
Ї®зҐ¬г?
зачто!?
например в этом скрипте:
fr = open("test1.txt", "rb")
s = fr.read(1000)
fr.close()
s = s.decode("utf-8") # в этой строке встает и выдает: UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-2: invalid data
s = s.encode("cp1251")
fw = open("test2.txt", "wb")
fw.write(s)
fw.close()
понятно что в файле именно 3 строчка в utf-8 а все остальное просто набор ненужных нам символов,
а функции decode получается (в случае с utf-8) надо подавать именно определенный набор символов тогда она будет отбратывать его нормально,
можно былобы конечно определить этот набор допустимых символов для utf-8, затем найти начало каждой строки/символа в этой строке,
затем найти конец строки с допустимым набором символов, затем вырезать её из исходной строки, перевести в нужную кодировку и потом то что получилось вернуть на место, - и тогда это будет самый бессмыссленный и беспощадный велосипеД, и я думаю это не вариант.
и я практически уверен что есть какаянить адекватная ф-я для обработки таких случаев, но гугл её скрывает, если кто знает подскажите