Найти - Пользователи
Полная версия: Парсинг
Начало » Python для новичков » Парсинг
1
DmtSt
Всем привет. Столкнулся с такой проблемой: не знаю как реализовать парсер по ключевому слову.
То есть, мне нужно, чтобы с сообщества вк парсер проходился по записям, находил нужное мне слово, и копировал ссылку на эту запись. Дело в чем : я не представляю как это реализовать. Стоит ли каждое слово вносить в список, а потом из этого списка брать слова по порядку и сравнивать с ключевым. Но это очень сложная и крупная система получится. Ребят, подскажите как сделать проще)
AD0DE412
а производные слова?
например ход -> ходили, ходит, ходить итд
и это еще не считая близкие

и в других языках тоже или что то похожее
короче смотрите в сторону nlp
py.user.next
DmtSt
мне нужно, чтобы с сообщества вк парсер проходился по записям, находил нужное мне слово, и копировал ссылку на эту запись
DmtSt
Стоит ли каждое слово вносить в список, а потом из этого списка брать слова по порядку и сравнивать с ключевым.
1. Открываешь файл для результатов.
2. Проходишь по записям по очереди:
2.1. Находишься очередную запись, она становится текущей записью.
2.2. Запоминаешь ссылку текущей записи.
2.3. Берёшь текст текущей записи.
2.4. В тексте текущей записи ищешь слово:
2.4.1. Удаляешь пунктуацию из текста.
2.4.2. Разделяешь текст на слова.
2.4.3. Нормализуешь слова в списке слов.
2.4.3.1. Для каждого слова в списке:
2.4.3.1.1. Если слово - аббревиатура, оставляешь его неизменным.
2.4.3.1.2. Если слово содержит цифры, удаляешь цифры.
2.4.3.1.3. Если слово начинается с большой буквы, уменьшаешь большую букву.
2.4.3.2. Удаляешь пустые слова из списка.
2.4.4. Ищешь слово среди нормализованных слов в списке.
2.4.4.1. Если слово есть, запоминаешь, что слово найдено.
2.5. Если слово найдено, запомненную ссылку на запись пишешь в файл результатов.
2.6. Перейти к пункту 2.
3. Закрываешь файл для результатов.
4. Пишешь количество найденных и сохранённых ссылок на экран.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB