Задача состоит в следующем: Есть почтовое сообщение; из него нужно вывести только текст тела без html тегов.
Мой код:
from BeautifulSoup import BeautifulSoup
import re
doc = open("/home/adv/python/spam", "r")
txt = doc.read().decode("koi8-r")
soup = BeautifulSoup(txt)
for text in soup.body.findAll(text=True):
if text != "\n":
print text.rstrip().encode("utf8")
doc.close()
Текст почтового сообщения:
Content-Type: text/html; charset=koi8-r
Content-Transfer-Encoding: 8bit
<HTML><HEAD><TITLE></TITLE>
</HEAD>
<BODY>
<table width="800" border="3" align="center" cellpadding="20" bordercolor="#000066">
<tr>
<td bgcolor="#000079"><table width="760" cellspacing="0">
<tr>
<td><p><font color="#FFFFFF" face="Arial Black">еЧТПЧЙДЕОЙЕ 2009 ЖЙОБМ(16 НБС).<br>
рТЕДМБЗБЕН ВЙМЕФЩ ОБ ЖЙОБМШОЩК ЛПОГЕТФ<br>
ЛПОЛХТУБ "еЧТПЧЙДЕОЙЕ 2009".<br>
<br>
</font></p>
</td>
</tr>
<tr>
<td><p align="center"><font color="#F2F5FD"><strong><font color="#D7EBFF" size="7" face="Verdana, Arial, Helvetica, sans-serif">Eurovision</font><font face="Verdana, Arial, Helvetica, sans-serif"> <font color="#D7EBFF" size="7">2009</font><br>
<font color="#0000CC" size="5">SONG CONTEST</font></font></strong></font></p>
<p></p></td>
</tr>
<tr>
<td><p><font color="#FFFFFF" face="Arial Black">уФПЙНПУФШ ВЙМЕФПЧ ПФ 4000 ТХВ.<br>
дПУФБЧЛБ ВЕУРМБФОБС.</font></p>
<p><font color="#FFFFFF" face="Arial Black">у ХЧБЦЕОЙЕН,<br>
ЛПММЕЛФЙЧ "лПНРМЕЛУ - ВЙМЕФ"</font></p>
<p><font color="#FFFFFF" face="Arial Black">фЕМ. (495) 542-1-3-1-2</font></p></td>
</tr>
</table></td>
</tr>
</table>
</BODY></HTML>
п╣п╖п╒п÷п╖п≥п■п∙п·п≥п∙ 2009 п√п≥п·п▒п°(16 п²п▒п║).
я─п╒п∙п■п°п▒п≈п▒п∙п² п▓п≥п°п∙п╓п╘ п·п▒ п√п≥п·п▒п°п╗п·п╘п п⌡п÷п·п⌠п∙п╒п╓
п⌡п÷п·п⌡п╔п╒пёп▒ "п╣п╖п╒п÷п╖п≥п■п∙п·п≥п∙ 2009".
Eurovision
2009
SONG CONTEST
я┐п╓п÷п≥п²п÷пёп╓п╗ п▓п≥п°п∙п╓п÷п╖ п÷п╓ 4000 п╒п╔п▓.
п╢п÷пёп╓п▒п╖п⌡п▒ п▓п∙пёп═п°п▒п╓п·п▒п║.
я┐ п╔п╖п▒п╕п∙п·п≥п∙п²,
п⌡п÷п°п°п∙п⌡п╓п≥п╖ "п╩п÷п²п═п°п∙п⌡пё - п▓п≥п°п∙п╓"
я└п∙п°. (495) 542-1-3-1-2
Помогите, ткните пальцем, где тут я ошибся???