Уведомления

Группа в Telegram: @pythonsu

#1 Янв. 14, 2021 06:12:58

isd2020
Зарегистрирован: 2021-01-05
Сообщения: 5
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите с задачей для Web поиска

Добрый день, такая задача:

Нужно определить встречается ли определенное слово, заданное пользователей на заданной странице (Пусть будет bbc.com).

Если есть - ответ Да и количесво раз, если нет - Нет

Будет здорово если кто-нибудь поделится примером скрипта.

Спасибо.

Офлайн

#2 Янв. 14, 2021 13:46:26

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9715
Репутация: +  842  -
Профиль   Отправить e-mail  

Помогите с задачей для Web поиска

Надо скачать с сайта текст и в скачанном тексте искать слово. Скачать текст с сайта не всегда просто, потому что бывает, что текст догружается браузером, который загружает скрипты с сайта, которые при выполнении и заполняют окно браузера текстом.

А когда текст есть, можно анализировать его дальше.

Посчитать в нём количество вхождений можно примитивно

  
>>> 'abcdefabcghi'.count('abc')
2
>>>
Слова он не будет обнаруживать как единицы.

Посчитать в нём количество вхождений можно более точно
  
>>> import re
>>> 
>>> re.findall(r'\babc\b', 'abcdef abc ghiabc hij abc jkl')
['abc', 'abc']
>>> len(re.findall(r'\babc\b', 'abcdef abc ghiabc hij abc jkl'))
2
>>>
Тут он определяет именно слова, а не просто вхождения.

Можно и ещё умнее посчитать слова, но для этого надо разложить текст на лексемы с помощью алгоритма.

isd2020
Пусть будет bbc.com
Все сайты разные. Где-то можно напрямую текст скачать, а где-то надо загружать текст оттуда, откуда загружают его скрипты сайта, а где-то и это не поможет и надо ещё больше погружаться в процесс загрузки, эмулировать браузер.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version