Уведомления

Группа в Telegram: @pythonsu

#1 Апрель 6, 2015 02:49:22

semen
Зарегистрирован: 2013-03-31
Сообщения: 3
Репутация: +  0  -
Профиль   Отправить e-mail  

Помогите извлечь отдельные части текста и заменить html-теги на свои

Дано, пишу парсер на grab:

Текст в html-коде страницы:

<div class=“inner” id=“msg_3218830”><div class=“quoteheader”><div class=“topslice_quote”><a href="http://www.forum.ru/forum/index.php/topic,129548.msg3218815.html#msg3218815“>Цитата: Nikitos_B от <strong>Сегодня</strong> в 01:04:06</a></div></div><blockquote class=”bbc_standard_quote“>Сразу скажу-в микроконтроллерах не силен <img src=”http://www.forum/forum/Smileys/kolobok/angry.gif“ alt=”&gt;&#58;&#40;“ title=”Angry“ class=”smiley“ /><br />&nbsp;И нужно ли, главное? <img src=”http://www.astronomy.ru/forum/Smileys/kolobok/smiley.gif“ alt=”&#58;&#41;“ title=”Smiley“ class=”smiley“ /><br /></blockquote><div class=”quotefooter“><div class=”botslice_quote“></div></div>Не нужно.</div>

1. Нужно извлечь отдельно <blockquote class=”bbc_standard_quote“>Сразу скажу-в микроконтроллерах не силен <img src=”http://www.forum.ru/forum/Smileys/kolobok/angry.gif“ alt=”&gt;&#58;&#40;“ title=”Angry“ class=”smiley“ /><br />&nbsp;И нужно ли, главное? <img src=”http://www.forum.ru/forum/Smileys/kolobok/smiley.gif“ alt=”&#58;&#41;“ title=”Smiley“ class=”smiley“ /><br /></blockquote>

2. И отдельно извлечь: </div>Не нужно.</div>

3. Лишний код удалить и произвести замену кода в извлеченных частях:
<blockquote class=”bbc_standard_quote“> на quote
</blockquote> на /quote
<img src=” на img
“ alt=” на /img

4. В итоге должно получится так:
quoteСразу скажу-в микроконтроллерах не силен
imghttp://www.forum.ru/forum/Smileys/kolobok/angry.gif/imgИ нужно ли, главное? imghttp://www.forum.ru/forum/Smileys/kolobok/smiley.gif/img/quote
Не нужно.

Подскажите пожалуйста, как это сделать грамотно, потому что у меня пока получается только так:

“Сразу скажу-в микроконтроллерах не силенИ нужно ли, главное?”

Тобишь голый текст получается без вставки/замены своего текста(тегов).

Отредактировано semen (Апрель 6, 2015 02:50:41)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version