doza_and
То слово добавляется и про него вы говорите как что удлиняется потом комментарий появляется, который вы непонятно зачем исследуете.
Дело в том, что у словаря достаточно сложная структура. Есть специальный файл для окончаний, есть для основ, есть индекс, который склеивает номера основ во фразы, и есть файл (самый большой), по которому строится словарная статья. Я сейчас на последнем этапе (построение статьи), остальное я более-менее успешно распарсил. Структура файлов, на самом деле, несложная. Там действительно слова кодируются байт-в-байт, без шифрования, кодировка windows-1251 (да, программа старая, появилась еще в 90-х, если не раньше). При добавлении термина изменяются несколько бинарников подряд, при добавлении комментария - только 1 (отвечающий за словарную статью), поэтому изменения легче отследить. Бинарник, отвечающий за словарную статью, является исключением - там не windows-1251. На данный момент точно известно, что в нем хранятся номера статей и комментарии. Что еще - не знаю.
doza_and
Найти способ кодирования (отображение данных в циферки). Сравнить с таблицами кодировок, которых туча.
Там примерно такое:
b'\x32' -> ‘Э’, b'\x33' -> ‘Ю’, b'\x34' -> ‘Я’. Такой кодировки я не знаю.
Но меня другое смущает. Повторяющиеся символы (как в числе 2020 или в слове awwwwful, или просто 13 нулей или знаков доллара) кодируются
разными байтами. Как такое может быть? Кроме того, если я вручную поменяю, например, b'\xa5\xa9\xb1\xb5' (2020) на b'\xa5\xa5\xa5\xa5', словарь мне покажет “2,&”, а если - на b'\xb5\xb5\xb5\xb5', то “B<60”.
UPD.
Сегмент, в котором (наряду с другой информацией) кодируется 0:
b'\xfcqo\x7fx\x87\x8e\x98\x94\x9f93(946KITs\xa3\x88\xb2\xbc'
Сегмент, в котором кодируется 1:
b'\xfcqo\x7fx\x87\x8e\x98\x94\x9f93(946KITs\xa4\x88\xb2\xbc'
Сегмент, в котором кодируется 0000:
b'\xfcqo\x7fx\x87\x8e\x98\x94\x9f93(946KITs\xa3\xa9\xaf\xb5\x9a\xc4\xce'
Сегмент, в котором кодируется 2020:
b'\xfcqo\x7fx\x87\x8e\x98\x94\x9f93(946KITs\xa5\xa9\xb1\xb5\x9a\xc4\xce'
Сегмент, в котором кодируется 2021:
b'\xfcqo\x7fx\x87\x8e\x98\x94\x9f93(946KITs\xa5\xa9\xb1\xb6\x9a\xc4\xce'