При парсинге страницы имеем такую архитектуру:
<article> <h2>text</h2> <p>text</p> <p><img src="pics.jpg"></p> <h2>text</h2> <p>text <ul> <li> text </li> text <li> text </li> </ul> </p> <h2>text</h2> <p>text</p> </article>
дерево типичный статейник. нужно собрать в кучу все текстовые кусочки, чтобы не только <p> были, но и <h2>, и <ul>+<li>, и желательно <img>.
пока цикл выглядит так
article_tags = soup.find_all('p') article = '' for tag in article_tags: try: if tag.find('img') is not None: article += str(tag.find('img')) + '\n' article += tag.text + '\n' except Exception as e: continue
но сюда не попадают <h2> и <ul>+<li>. и еще присутствуют иногда дубли кусков текста.