Всем доброго дня!
У меня возникла задача создания n-gram'ного частотного словаря по коллекции текстов. На вход будет подаваться текстовый файл содержащий текстовую коллекцию, на выходе нужно получить отсортированный по убыванию частоты n-gram'ы(би, три или четыре грамы) частотный словарь.
Если есть у кого-то подобный скрипт и им не жалко поделиться - буду благодарен.
На форуме нашел тему http://python.su/forum/topic/14465/ . Мои небольшие знания python не позволяют мне понять способны ли те скрипты выполнять нужную мне задачу. Если не сложно подскажите могут ли те скрипты решить мою задачу? Если да, то за помощь в запуске скриптов(можно через Team Viewer) готов материально отблагодарить.