Привет, друзья!
Встала передо мной следующая задача.
Есть относительно короткая строка (чаще всего не больше 50 символов). С большой долей вероятности она состоит в основном не из осмысленных слов, а из мешанины разных символов, не несущих никакой смысловой нагрузки. При этом среди мешанины могут попадаться нормальные слова. Слова могут содержать опечатки.
Задача: выловить из текста все слова, похожие на нормальные, соответственно исправляя опечатки (возможно, генерируя при этом несколько возможных вариантов).
Соответственно, для этого нужен словарь… И каким-то образом искать слова из словаря по этому тексту, да ещё и нечётко, чтобы обнаруживать слова с опечатками. Но и хорошо бы, чтобы процесс поиска не затягивался, производительность важна. ))
Не выходит ничего толкового придумать, и нагуглить ничего тематического тоже не выходит. Помогите, плз? :)
PS: возможно, есть уже какие-то готовые средства для таких целей? быть может, под пайтон? :)