Для задания потребуется достаточно большой русский текст в UTF-8. Программа должна прочитать текст и выполнить следующие операции:
- (5 баллов) найти в тексте все пары слов “PR + X”, где PR — любой русский предлог длиной не больше двух букв, а X — любое слово, и выписать их в другой файл. Между словом и предлогом в тексте не должно быть знаков препинания. Программа должна работать со всеми предлогами, а не с одним произвольным!
- (8 баллов) для каждого предлога из предыдущего пункта создать отдельный html-файл с таблицей; таблица должна содержать список всех словоформ, найденных справа от этого предлога, отсортированный по длине словоформы (сначала самые длинные): каждое слово на отдельной строке. Название предлога должно быть в заголовке страницы (title).
- (10 баллов) для каждого предлога составить список из 10 слов, наиболее часто встречающихся справа от этого предлога. Распечатать пары предлогов, у которых эти списки совпадают как минимум на 50%.