Python-сообщество

Stovxc06 · Март 3, 2021 16:04:45

Итак вообщем, сам парсер работает, но заказчик потребовал сделать поиск по контенту сайта. Но тк сайт на румынском языке, там есть такая вещь как диакритики. И если сделать запрос без них, выйдет ошибка.

 from bs4 import BeautifulSoup
import requests
list_of_links = ['https://anrceti.md/directors', ]
list_for_diacritics = ['Ă', 'ă', 'î', 'Î', 'â', 'Â', 'ș', 'Ș', 'ț', 'Ț']
link = "http://balti.md/primaria/aparatul-primariei/"
search_word = input('Întroduceți numele sau prenumele: ').capitalize()
r = requests.get(link)
soup = BeautifulSoup(r.content)
soup = soup.get_text()
answer = None
data = str(soup).split()
if search_word in data:
    dictOfWords = {i: data[i] for i in range(0, len(data))}
    for name1, name2 in dictOfWords.items():  # for name, age in dictionary.iteritems():  (for Python 2.x)
        if name2 == search_word:
            print(str(name1) + ' ' + search_word + "  " + link)
            print(name1 + 1)
            print(search_word + " " + dictOfWords[name1 + 1] + "  " + link)
            print(dictOfWords[name1 - 1] + " " + search_word + "  " + link)
else:
    answer = 'sorry'
    print(answer) 
[/code]

Вот сам код, ещё скриншоты с ошибкой. Помогите, буду очень рад.
https://imgur.com/a/FhMShOQ , сама ошибка, сравните с 1-ым скриншотом

Отредактировано Stovxc06 (Март 3, 2021 16:14:58)

Прикреплённый файлы:
219291921929129192.png (34,1 KБ)

Rodegast · Март 3, 2021 18:59:05

В r.content заменяй все диакритики на соответствующие буквы, тоже делай и с текстом запроса.

С дураками и сектантами не спорю, истину не ищу.
Ели кому-то правда не нравится, то заранее извиняюсь.

xam1816 · Март 3, 2021 22:06:01

Stovxc06
сама ошибка, сравните с 1-ым скриншотом

парсер нужно указать

 soup = BeautifulSoup(r.content, 'html.parser')

Отредактировано xam1816 (Март 3, 2021 22:08:11)

Python-сообщество

Уведомления

#1 Март 3, 2021 16:04:45

Помогите с парсером.

#2 Март 3, 2021 18:59:05

Помогите с парсером.

#3 Март 3, 2021 22:06:01

Помогите с парсером.

Board footer