DjangoBB LoFi version

Начало » Python для новичков » архивирование текста

Genabox

Фев. 10, 2023 03:30:11

есть текст примером такой

маша каша ела масло каша каша каша каша масло маша маша каша

тоесть слова вопторяются но имеют последовательность
какие есть алгоритмы что бы сделать примерно так маша12 каша334 ела14 тоесть сжать текст максимально что бы потом понять выражение

маша каша ела масло каша каша каша каша масло маша маша каша

или в каком то другом виде

py.user.next

Фев. 10, 2023 04:32:20

Это алгоритм RLE
wiki. RLE

Genabox

Фев. 10, 2023 13:18:58

спасибо
успех сзатия 1.2 раза - бессмыслено
нужно свой думать
потому что PLE символьный а у меня очень повторяющиеся длинные слова
как то подсчитать их повторение и вывести с заменой как пирамида абракадабра

py.user.next

Фев. 10, 2023 23:43:38

Genabox
потому что PLE символьный а у меня очень повторяющиеся длинные слова

Слова можно считать символами. Можешь в начале записать отображение слов на символы или короткие группы символов. А потом закодированные слова по RLE превратить в символы из этого отображения.

Например

маша каша ела масло каша каша каша каша масло маша маша каша

отображение {
    маша -> a1
    каша -> а2
    ела -> a3
    масло -> а4
}
a1a2a3a4a2_4a4a1_2a2

Genabox

Фев. 11, 2023 19:25:58

a1a2a3a4a2_4a4a1_2a2

я это и имел ввиду
понятно что длинные слова можно запистаь как a1 или b0
есть еще варианты кроме RLE ?
потому что 1.2 результат можно даже и не братся

Genabox

Фев. 11, 2023 21:43:06

аа дошло

b0+b0+b0 =c0