Уведомления

Группа в Telegram: @pythonsu

#1 Янв. 21, 2018 18:20:27

pamperz666
Зарегистрирован: 2017-10-31
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Помощь с поиском мата и ругательств в списке слов))

Нужно придумать код, который бы по корням матершиных слов и всяких нехороших ругательств отлавливал слова и искоренял их) К примеру слова с корнями “пох”, “нах”, “пид”. И хотелось бы ещё спросить, как можно слова искорененные закинуть в какой-нибудь отдельный списочек?)
Буду очень благодарен если поможете)

Прикреплённый файлы:
attachment Slova.txt (27,6 KБ)

Офлайн

#2 Янв. 21, 2018 18:23:23

doza_and
От:
Зарегистрирован: 2010-08-15
Сообщения: 4138
Репутация: +  252  -
Профиль   Отправить e-mail  

Помощь с поиском мата и ругательств в списке слов))

Давайте мы вас научим в как в начале текста вставить 18+. Это проще будет, да и текст не испортите.



Офлайн

#3 Янв. 21, 2018 19:56:59

pamperz666
Зарегистрирован: 2017-10-31
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Помощь с поиском мата и ругательств в списке слов))

doza_and
Давайте мы вас научим в как в начале текста вставить 18+. Это проще будет, да и текст не испортите.
ааа блин( это как-то нарушает правила форума? Сорян) Давайте))

Офлайн

#4 Янв. 21, 2018 23:08:45

doza_and
От:
Зарегистрирован: 2010-08-15
Сообщения: 4138
Репутация: +  252  -
Профиль   Отправить e-mail  

Помощь с поиском мата и ругательств в списке слов))

pamperz666
то как-то нарушает правила форума?
Формально да. Но я тоже не вставил улыбочку… думал и так очевидно что это шутка. Просто считаю задачу цензурирования текста, тем более автоматического, архивредной. Хочет человек писать матом, пускай пишет. Такова жизнь, нечего это прятать. Будет плохо писать его не будут читать и забанят.



Отредактировано doza_and (Янв. 21, 2018 23:09:24)

Офлайн

#5 Янв. 22, 2018 17:09:55

PEHDOM
Зарегистрирован: 2016-11-28
Сообщения: 2196
Репутация: +  294  -
Профиль   Отправить e-mail  

Помощь с поиском мата и ругательств в списке слов))

pamperz666
К примеру слова с корнями “пох”, “нах”, “пид”
Если подходить банально через re или find, то вашу выборку будут попадать такие слова как "похожий“, ”находка“ или ”аспид“..
Конечно можно потом постоянно мониторить такие слова и вносить их в список ”exclude“. Но вы уверены что сможете их найти среди миллионов на**й или по**й?
Иначе вам нужно сложный семантический анализ, для выделения в слове корней, префиксов, суффиксов и окончаний, и только тогда по корню определять. Задача далеко не тривиальная, и до сих пор не решена до конца ведущими вендорами словарей и переводчиков, и они не спешат делиться исходниками, а вы ”Нужно придумать код“.

Я конечно не знаю полностью условий задачи, но для начала можно банально составить список слов которые однозначно попадают под бан(со всеми падежами и окончаниями), и по ним уже фильтровать разделяя слова по пробелам. Это будет достаточно быстро, и несложно. И решит проблему хотябы непрыкрытого мата.

Но хитрые юзвери достаточно быстро поймут что можно написать ”л_о_х“, или ”пи дар". Но такие финты пропустит и семантический анализатор.




==============================
Помещайте код в теги:
[code python][/code]
Бериегите свое и чужое время.

Отредактировано PEHDOM (Янв. 22, 2018 17:12:40)

Офлайн

#6 Янв. 22, 2018 17:54:49

Rodegast
От: Пятигорск
Зарегистрирован: 2007-12-28
Сообщения: 2679
Репутация: +  182  -
Профиль   Отправить e-mail  

Помощь с поиском мата и ругательств в списке слов))

Короче используй машинное обучение, так вернее будет.



С дураками и сектантами не спорю, истину не ищу.
Ели кому-то правда не нравится, то заранее извиняюсь.

Офлайн

#7 Фев. 1, 2018 23:06:51

Vladimirv
Зарегистрирован: 2013-03-22
Сообщения: 108
Репутация: +  7  -
Профиль   Отправить e-mail  

Помощь с поиском мата и ругательств в списке слов))

Вот тебе короткий список ругательных слов: регистрация, модерация, банизация )

Офлайн

#8 Фев. 2, 2018 07:48:08

JOHN_16
От: Россия, Петропавловск-Камчатск
Зарегистрирован: 2010-03-22
Сообщения: 3292
Репутация: +  221  -
Профиль   Отправить e-mail  

Помощь с поиском мата и ругательств в списке слов))

Vladimirv
Первое предупреждение за флуд/оффтоп



_________________________________________________________________________________
полезный блог о python john16blog.blogspot.com

Офлайн

#9 Фев. 8, 2018 12:50:17

pamperz666
Зарегистрирован: 2017-10-31
Сообщения: 13
Репутация: +  0  -
Профиль   Отправить e-mail  

Помощь с поиском мата и ругательств в списке слов))

PEHDOM

Хмммм и-то верно, а что если действительно просто банально подойти через регулярные выражения, пускай даже в алгоритм войдут и не матерные словечки типа "похожий“, ”находка“ или ”аспид“, а уже дальше сам буду вычленять из получившегося списка все не матерные слова и запихивать их куда-нибудь или как-нибудь их в коде запишу вручную (типа все слова с корнями нах, пох, кроме слов (и список не матерных слов) .
Поможете написать код поиска поиска слов с корнями ”нах“, ”пох"?)

Офлайн

#10 Фев. 8, 2018 15:42:57

PEHDOM
Зарегистрирован: 2016-11-28
Сообщения: 2196
Репутация: +  294  -
Профиль   Отправить e-mail  

Помощь с поиском мата и ругательств в списке слов))

pamperz666 давайте для начала определимся с некоторыми вопросами..

1. Вам это нужно для?
- учеба; препод задал ДЗ/курсовая/дипломная/еtс и тогда нужно писать все самому
- рабочий проект; антиматфильтр для чятика/форума/ХЗ еще чего.. тогда можно воспользоваться сторонней библиотекой.
Например https://pymorphy2.readthedocs.io/en/latest/ или вот http://www.aot.ru/history.html . Конечно же они не идеальны но думаю более чем подойдут и сделают за нас процентов 80-90 работы.
Или готовое решение уже допилить под себя. типа такого https://pypi.python.org/pypi/matcensor/1.0.3 Очень все просто и примитивненько, там даже re используется для только для замены, а так чистый пайтон, Хотя мне оно не нравиться, уж больно все реализовано “в лоб”, можно сделать лучше, но для “заготовки” вполне подойдет.
- опять же если для дела, то к чему вы будете это прикручивать? Для многих фреймоврков уже есть готовые решения, или заготовки под них.
2. насколько критично быстродействие?

pamperz666
типа все слова с корнями нах, пох, кроме слов (и список не матерных слов)
На самом деле вам нужно искать другие слова потом что “нах” и “пох” это не корни.
немного теории https://habrahabr.ru/post/101232/



==============================
Помещайте код в теги:
[code python][/code]
Бериегите свое и чужое время.

Отредактировано PEHDOM (Фев. 8, 2018 15:44:34)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version