Форум сайта python.su
PEHDOM
pamperz666 давайте для начала определимся с некоторыми вопросами..1. Вам это нужно для? - учеба; препод задал ДЗ/курсовая/дипломная/еtс и тогда нужно писать все самому - рабочий проект; антиматфильтр для чятика/форума/ХЗ еще чего.. тогда можно воспользоваться сторонней библиотекой.Например https://pymorphy2.readthedocs.io/en/latest/ или вот http://www.aot.ru/history.html . Конечно же они не идеальны но думаю более чем подойдут и сделают за нас процентов 80-90 работы.Или готовое решение уже допилить под себя. типа такого https://pypi.python.org/pypi/matcensor/1.0.3 Очень все просто и примитивненько, там даже re используется для только для замены, а так чистый пайтон, Хотя мне оно не нравиться, уж больно все реализовано “в лоб”, можно сделать лучше, но для “заготовки” вполне подойдет.- опять же если для дела, то к чему вы будете это прикручивать? Для многих фреймоврков уже есть готовые решения, или заготовки под них.2. насколько критично быстродействие?
Офлайн
pamperz666Вы английские, французские и немецкие ругательства будете искать? В словарях русского языка порядка 150000 слов ну максимум порядок накинуть на разные формы. Откуда 8 миллионов? Это еще на порядок больше.
7/8 миллионов слов
Офлайн
pamperz666“ага сказали мужики” правильно ли я понимаю что вам не нужно искать любой мат, в том числе и завуалированый в любой строке?
1) В общем, это проект (словарь ошибок и неологизмов, входящий в более крупный проект “Пограничный русский язык”)
pamperz666Накидать простенькую процедуру которая будет принимать на вход слово и искать по корню с помощью re или банального in вообще не проблема. Проблема в том чтобы составить грамотный алгоритм. А чтобы это сделать нужно понимать все условия. У вас пока общие слова, котороые вызывают больше вопросов чем дают ответов.
поиск по корням: ругательства, мат
[code python][/code]
Офлайн
собсна там работы больше для лингвиста чем для программиста…
смотрите в аттаче, у меня заняло больше времени чтобы продумать несколько шаблонов чем написать код самого модуля.
ну естественно оно ловит не все слова,потому как там мало шаблонов, вам нужно будет самому придумать и добавить шаблоны для поиска.
чутка теории https://habrahabr.ru/post/101232/
ЗЫ писалось “на коленке” потому многие вещи сырые и нету “защиты от дурака”
[code python][/code]
Отредактировано PEHDOM (Фев. 13, 2018 16:22:17)
Прикреплённый файлы: find_word.7z (15,7 KБ)
Офлайн