Форум сайта python.su
У меня возникла проблема при открытии сайтов, содержащих в названии русские символы. Например:
from urllib.request import urlopen
from bs4 import BeautifulSoup as bs
html = urlopen('https://text.ru/synonym/сегодня')
bsObj = bs(html.read())
print(bsObj)
Подскажите пожалуйста, как можно решить эту проблему?
Офлайн
>>> import urllib.request >>> import urllib.parse >>> import re >>> >>> url = 'https://text.ru/synonym/сегодня' >>> >>> encurl = re.sub(r'[а-яА-ЯёЁ]+', ... lambda mo: urllib.parse.quote(mo.group()), ... url) >>> >>> data = urllib.request.urlopen(encurl) >>> text = data.read()[:100] >>> text b'<!DOCTYPE html>\r\n<html lang="ru" xmlns="http://www.w3.org/1999/xhtml">\r\n <head prefix="og: http:/' >>>
Офлайн