Основное:
- Получение списка: “слово, вес слова”. (поиск ключевых слов)
- Нахождение ключевых словосочетаний.
- Математическое представление текста (в виде точки/вектора).
- Работа с полученным представлением. (сравнение текстов между собой - нахождение коэффициента подобия и т.п.)
Интересна ли данная тематика кому-нибудь еще? Стоит ли выкладывать исходники, писать статьи?