В питоне и BS новичек. Долго гуглил, но не нашел, как решить проблему (может не в ту сторону гуглил)
Задача:
Разбить текст посредством BS по произвольному тэгу. Например в коде страницы есть такой кусок:
<option value="6">Ассам</option><option value="7">Кения</option><option value="8">Руанда</option><option value="9">Цейлон</option>
Между словами пробелов, или переводов строк нет. В результате разбора текста посредством кода:
resp = BeautifulSoup(open(p, encoding='utf-8')) resp.body.text
Получаю склеенные слова:
“АссамКенияРуандаЦейлонПрефектура”
Вопрос: Как разлеплять подобные вещи, при условии, что:
1) Вместо “option” тэг может быть абсолютно любой (на что хватает фантазии вэбмастера), и каждый раз вычислять что это за тэг не вариант вообще
2) Разделять по заглавным буквам так же не вариант, ибо далеко не факт, что на другой странице слепленные слова будут написаны тоже с заглавных
Удаляем комментарии: