Python-сообщество

mdf · Июнь 9, 2022 13:12:52

Добрый день!
Парсю HTML страничку и приехал к такой проблеме
Как правильно забрать стоимость (для примера в первом блоке 13 900 000 ₸) она сидит тектом в тэге “P”, но в этм тэге то появляются прочие теги типа div span p.
Кусок кода:

  price = rd.find('p', class_='results-price').text.strip()

Вот если делаю так, то оно само собой собирается с мусором которые иногда есть а иногда его нет (

Образец куска HTML который обрабатывается:

 <p class="results-price"><div class='info'>Срочно!</div>13 900 000 ₸<span class="append-price"></span> <span class="price-per-meter">/ 408 824 ₸ за м<sup>2</sup></span> </p>
<p class="results-price">16 100 000 ₸<span class="price-per-meter">/ 408 824 ₸ за м<sup>2</sup></span> </p>

Отредактировано mdf (Июнь 9, 2022 13:15:28)

mdf · Июнь 9, 2022 13:36:26

Правильно ли будет - текст во всех тегах с известними классами, а затем исключать этот текст из основного. Или как то иначе можно сделать ?

py.user.next · Июнь 9, 2022 14:18:34

Надо удалить лишние теги сначала.
https://beautiful-soup-4.readthedocs.io/en/latest/#extract
https://beautiful-soup-4.readthedocs.io/en/latest/#unwrap

  
>>> import bs4
>>> 
>>> text = """<p class="results-price"><div class='info'>Срочно!</div>13 900 000 ₸<span class="append-price"></span> <span class="price-per-meter">/ 408 824 ₸ за м<sup>2</sup></span> </p>"""
>>> soup = bs4.BeautifulSoup(text, 'html.parser')
>>> 
>>> node = soup.find('div', class_='info')
>>> if node:
...     node.extract()
... 
<div class="info">Срочно!</div>
>>> node = soup.find('span', class_='append-price')
>>> if node:
...     node.extract()
... 
<span class="append-price"></span>
>>> node = soup.find('p', class_='results-price')
>>> if node:
...     node.unwrap()
... 
<p class="results-price"></p>
>>> soup
13 900 000 ₸ <span class="price-per-meter">/ 408 824 ₸ за м<sup>2</sup></span> 
>>> 
>>> text = """<p class="results-price">16 100 000 ₸<span class="price-per-meter">/ 408 824 ₸ за м<sup>2</sup></span> </p>"""
>>> soup = bs4.BeautifulSoup(text, 'html.parser')
>>> 
>>> 
>>> node = soup.find('div', class_='info')
>>> if node:
...     node.extract()
... 
>>> node = soup.find('span', class_='append-price')
>>> if node:
...     node.extract()
... 
>>> node = soup.find('p', class_='results-price')
>>> if node:
...     node.unwrap()
... 
<p class="results-price"></p>
>>> soup
16 100 000 ₸<span class="price-per-meter">/ 408 824 ₸ за м<sup>2</sup></span> 
>>>

mdf · Июнь 10, 2022 05:16:29

py.user.next
>>> node = soup.find('p', class_='results-price')
>>> if node:
… node.unwrap()

Спасибо

Python-сообщество

Уведомления

#1 Июнь 9, 2022 13:12:52

Пирсинг HTML не могу забрать текст из тэга

#2 Июнь 9, 2022 13:36:26

Пирсинг HTML не могу забрать текст из тэга

#3 Июнь 9, 2022 14:18:34

Пирсинг HTML не могу забрать текст из тэга

#4 Июнь 10, 2022 05:16:29

Пирсинг HTML не могу забрать текст из тэга

Board footer