Уведомления

Группа в Telegram: @pythonsu

#1 Фев. 6, 2012 01:28:57

zipmeat
От:
Зарегистрирован: 2010-12-11
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

BeautifulSoup удаление элементов

имеется примерно такой структуры веб-страница

<tbody>
<tr>111</tr>
<tr>111</tr>
<tr><td class="myColor">Text</td></tr>
<tr>222</tr>
<tr>222</tr>
<tr>222</tr>
</tbody>
мне нужно спарсить данные из <tr>111</tr>, с <tr>222</tr> не надо. спарсить их все без проблем, у них структура одинаковая, но все не нужны. количество и тех и других варьируется. единственное, что разделяет их это например <tr><td class=“myColor”>Text</td></tr>.

всяко пытаюсь удалить нижние <tr>222</tr>, не выходит:
soup.find('td',attrs={'class':'myColor'}).findAllNext('tr').extract()
удалить одно поле получается:
soup.find('td',attrs={'class':'myColor'}).findNext('tr').extract()
с for пробовал, не получилось.
не знаю где подвох. может есть ещё способ считать только до нужной мне записи.



Офлайн

#2 Фев. 6, 2012 03:43:32

dartNNN
От:
Зарегистрирован: 2009-12-08
Сообщения: 199
Репутация: +  0  -
Профиль   Отправить e-mail  

BeautifulSoup удаление элементов

С BeautifulSoup не работал, ИМХО вырезал бы регуляркой, а потом уже парсил бы.



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version