Форум сайта python.su
Нужно придумать код, который бы по корням матершиных слов и всяких нехороших ругательств отлавливал слова и искоренял их) К примеру слова с корнями “пох”, “нах”, “пид”. И хотелось бы ещё спросить, как можно слова искорененные закинуть в какой-нибудь отдельный списочек?)
Буду очень благодарен если поможете)
Прикреплённый файлы: Slova.txt (27,6 KБ)
Офлайн
Давайте мы вас научим в как в начале текста вставить 18+. Это проще будет, да и текст не испортите.
Офлайн
doza_andааа блин( это как-то нарушает правила форума? Сорян) Давайте))
Давайте мы вас научим в как в начале текста вставить 18+. Это проще будет, да и текст не испортите.
Офлайн
pamperz666Формально да. Но я тоже не вставил улыбочку… думал и так очевидно что это шутка. Просто считаю задачу цензурирования текста, тем более автоматического, архивредной. Хочет человек писать матом, пускай пишет. Такова жизнь, нечего это прятать. Будет плохо писать его не будут читать и забанят.
то как-то нарушает правила форума?
Отредактировано doza_and (Янв. 21, 2018 23:09:24)
Офлайн
pamperz666Если подходить банально через re или find, то вашу выборку будут попадать такие слова как "похожий“, ”находка“ или ”аспид“..
К примеру слова с корнями “пох”, “нах”, “пид”
[code python][/code]
Отредактировано PEHDOM (Янв. 22, 2018 17:12:40)
Офлайн
Короче используй машинное обучение, так вернее будет.
Офлайн
Вот тебе короткий список ругательных слов: регистрация, модерация, банизация )
Офлайн
Vladimirv
Первое предупреждение за флуд/оффтоп
Офлайн
PEHDOM
Офлайн
pamperz666 давайте для начала определимся с некоторыми вопросами..
1. Вам это нужно для?
- учеба; препод задал ДЗ/курсовая/дипломная/еtс и тогда нужно писать все самому
- рабочий проект; антиматфильтр для чятика/форума/ХЗ еще чего.. тогда можно воспользоваться сторонней библиотекой.
Например https://pymorphy2.readthedocs.io/en/latest/ или вот http://www.aot.ru/history.html . Конечно же они не идеальны но думаю более чем подойдут и сделают за нас процентов 80-90 работы.
Или готовое решение уже допилить под себя. типа такого https://pypi.python.org/pypi/matcensor/1.0.3 Очень все просто и примитивненько, там даже re используется для только для замены, а так чистый пайтон, Хотя мне оно не нравиться, уж больно все реализовано “в лоб”, можно сделать лучше, но для “заготовки” вполне подойдет.
- опять же если для дела, то к чему вы будете это прикручивать? Для многих фреймоврков уже есть готовые решения, или заготовки под них.
2. насколько критично быстродействие?
pamperz666На самом деле вам нужно искать другие слова потом что “нах” и “пох” это не корни.
типа все слова с корнями нах, пох, кроме слов (и список не матерных слов)
[code python][/code]
Отредактировано PEHDOM (Фев. 8, 2018 15:44:34)
Офлайн