Уведомления

Группа в Telegram: @pythonsu

#1 Сен. 1, 2022 13:38:22

DmtSt
Зарегистрирован: 2022-09-01
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг

Всем привет. Столкнулся с такой проблемой: не знаю как реализовать парсер по ключевому слову.
То есть, мне нужно, чтобы с сообщества вк парсер проходился по записям, находил нужное мне слово, и копировал ссылку на эту запись. Дело в чем : я не представляю как это реализовать. Стоит ли каждое слово вносить в список, а потом из этого списка брать слова по порядку и сравнивать с ключевым. Но это очень сложная и крупная система получится. Ребят, подскажите как сделать проще)

Офлайн

#2 Сен. 1, 2022 16:28:43

AD0DE412
Зарегистрирован: 2019-05-12
Сообщения: 1130
Репутация: +  44  -
Профиль   Отправить e-mail  

Парсинг

а производные слова?
например ход -> ходили, ходит, ходить итд
и это еще не считая близкие

и в других языках тоже или что то похожее
короче смотрите в сторону nlp



1. пжлст, форматируйте код, это в панели создания сообщений, выделите код и нажмите что то вроде
2. чтобы вставить изображение залейте его куда нибудь (например), нажмите и вставьте ссылку на его url

есчщо

Отредактировано AD0DE412 (Сен. 1, 2022 16:31:13)

Офлайн

#3 Сен. 1, 2022 22:42:07

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9874
Репутация: +  854  -
Профиль   Отправить e-mail  

Парсинг

DmtSt
мне нужно, чтобы с сообщества вк парсер проходился по записям, находил нужное мне слово, и копировал ссылку на эту запись
DmtSt
Стоит ли каждое слово вносить в список, а потом из этого списка брать слова по порядку и сравнивать с ключевым.
1. Открываешь файл для результатов.
2. Проходишь по записям по очереди:
2.1. Находишься очередную запись, она становится текущей записью.
2.2. Запоминаешь ссылку текущей записи.
2.3. Берёшь текст текущей записи.
2.4. В тексте текущей записи ищешь слово:
2.4.1. Удаляешь пунктуацию из текста.
2.4.2. Разделяешь текст на слова.
2.4.3. Нормализуешь слова в списке слов.
2.4.3.1. Для каждого слова в списке:
2.4.3.1.1. Если слово - аббревиатура, оставляешь его неизменным.
2.4.3.1.2. Если слово содержит цифры, удаляешь цифры.
2.4.3.1.3. Если слово начинается с большой буквы, уменьшаешь большую букву.
2.4.3.2. Удаляешь пустые слова из списка.
2.4.4. Ищешь слово среди нормализованных слов в списке.
2.4.4.1. Если слово есть, запоминаешь, что слово найдено.
2.5. Если слово найдено, запомненную ссылку на запись пишешь в файл результатов.
2.6. Перейти к пункту 2.
3. Закрываешь файл для результатов.
4. Пишешь количество найденных и сохранённых ссылок на экран.



Отредактировано py.user.next (Сен. 1, 2022 22:45:17)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version