Найти - Пользователи
Полная версия: сделать выборку
Начало » Data Mining » сделать выборку
1
zlodiak
помогите пожалуйста сделать выборку. где-то в середине html-страницы есть такой код:
<table align="center" cellspacing="0" cellpadding="0" border="0" id="single-stone"></table>
<table width="100%"></table>
<br>
<div style="padding:0px 10px; text-align:left;
margin-top:-20px;
">
	<br>
	<div>
		<strong>Гранит Мансуровский     </strong> продается в готовых изделиях, а также слэбах.
		Сейчас <strong>Мансуровский</strong> есть в наличии на складе
	</div>
	<br>
	
	<p></p><h2>Название</h2>Мансуровский.<p></p><p></p><h2>Цвет</h2>Однородный серо-зеленый цвет с редкими темно-серыми или черными включениями (жилы и пятна), часто предлагают как белый гранит, т.к. он является самым светлым из гранитов РФиСНГ.<p></p><p></p><h2>Месторождение</h2>Урал<p></p><p></p><h2>Зернистость/Структура</h2>Мелкозернистый,вструктуре присутствует магний.<p></p><p></p><h2>Особенности</h2><!--Принеправильноммо нтажеилиприконтактесводойначинаетсяестественнаяреакция- ржавление.Соблюдаявсеусловиямонтажа,ипользуясьуслугамипрофессионалов,можноизбежатьнежелательнойкоррозии.--> Один из самых популярных камней в России,его любят за однородность цвета,доступность и в наличии, и в цене.<p></p><p> </p><h2>Сфера применения</h2>Широко используется в дорожном строительстве(бордюры,брусчатка),для мощения площадей,набережных,метро. <p></p><p></p><h2>Условия доставки/Сроки</h2>Всегда есть в наличии в необработанном и термообработанном виде, минимальные сроки на любые изделия из данного камня.<p></p><h2>Физико-механические характеристики гранита Мансуровский</h2><table width="50%" cellspacing="0" cellpadding="0" border="0"><tbody><tr><td></td></tr><tr><td>объемный вес,кг/м3</td><td>2710</td></tr><tr><td>водопоглощение,%</td><td>0,48</td></tr><tr><td>класс радиоактивности</td><td>1 класс</td></tr><tr><td>истираемость,г/см2</td><td>0,40</td></tr><tr><td>морозостойкость,циклов</td><td>100</td></tr><tr><td>предел прочности при сжатии,кг/см2(МПа)</td><td>169</td></tr></tbody></table>
</div>

мне из него нужно вытащить текст:
		<strong>Гранит Мансуровский     </strong> продается в готовых изделиях, а также слэбах.
		Сейчас <strong>Мансуровский</strong> есть в наличии на складе

при этом тегов strong может и не быть.

вот моя неудачная попытка:
            description = doc.xpath('//table[@id="single-stone"]/following-sibling::div/div/@content')
            print(description)

можно извлекать через xpath, можно через cssselect или любым другим способом
terabayt
el = doc.xpath("//table[@id='single-stone']/following-sibling::div/div")[0]
print(el.text_content())
zlodiak
terabayt
спасибо. а нельзя ли выбирать не только текст, но текст с тегами?..
terabayt
zlodiak
а нельзя ли выбирать не только текст, но текст с тегами?..
el = doc.xpath("//table[@id='single-stone']/following-sibling::div/div")[0]
print(tostring(el))
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB