jbn238
подсказать каким способом скачать этот файл в Python
>>> import urllib.request
>>>
>>> url = 'https://www.minorleaguesplits.com/tennisabstract/cgi-bin/frags/EliseMertens.js'
>>>
>>> headers = {
... 'User-Agent': 'Firefox'
... }
>>>
>>> req = urllib.request.Request(url=url, headers=headers)
>>>
>>> with urllib.request.urlopen(req) as data:
... text = data.read().decode('utf-8')
...
>>> text[:100]
'var player_frag = `<p><h1 id="recent-results-h">Recent Results <span style="font-si'
>>>
jbn238
и после преобразовать в html
Сохрани этот файл на диск просто и удаляй из него лишнее, заменяй в нём символы разные, чтобы эти данные стали валидным HTML-кодом. Когда сделаешь для файла на диске, тогда и объединишь эти два кода - код скачивания и код преобразования в HTML-данные.
Пример очистки строки и достраивания её до HTML-кода
>>> import re
>>>
>>> text = """var player_frag = `<p><h1 id="recent-results-h"> ... </h1>"""
>>>
>>> textnew1 = re.sub(r'^var[^`]*`', r'', text)
>>> textnew2 = re.sub(r'^<([^>]+)>.*$', r'\g<0></\1>', textnew1)
>>>
>>> out = textnew2
>>>
>>> text
'var player_frag = `<p><h1 id="recent-results-h"> ... </h1>'
>>> textnew1
'<p><h1 id="recent-results-h"> ... </h1>'
>>> textnew2
'<p><h1 id="recent-results-h"> ... </h1></p>'
>>>
>>> out
'<p><h1 id="recent-results-h"> ... </h1></p>'
>>>
Вообще, это не всё так просто. Если повезёт, там будет целый HTML-код в переменной player_frag. Но может и не повезти, что чаще всего бывает, и надо будет как-то анализировать это содержимое и как-то достраивать его, иначе BeautifulSoup его не воспримет в сломанном виде. Может быть, ты и вообще не будешь использовать разбор HTML-кода, а сразу станешь текст отыскивать в тегах.