Найти - Пользователи
Полная версия: Парсинг
Начало » Python для новичков » Парсинг
1 2
XdenisX
Хотел бы распарсить файл который создает thunderbird при приеме сообщений, т.е. выцепить оттуда непосредственно тело сообщения.
Но пока не могу сообразить как. Вот фаргмент файла:

–SBD.Boundary.605592468

Content-Type: application/x-zip-compressed; name=“SBMmessage.sbd”

Content-Disposition: attachment; filename=“300224010715200_001453.sbd”

Content-Transfer-Encoding: base64



MjAwOS0xIC0xNCAyIDo1OAlMRU5HCS0zLjIgIAk5OSAgCTk0Ny40ICAJOTQ3LjYgIAk5ODMuMCAg

CTEuNCAgICAJMyAgICAgCTkuNCAgIAkxNDEgIAkxMy41NTIJDQoNCg==

–SBD.Boundary.605592468–
Ferroman
Ну и от нас вы чего ждёте?
XdenisX
Ferroman
Ну и от нас вы чего ждёте?
Подсказки как выделить этот кусок)

MjAwOS0xIC0xNCAyIDo1OAlMRU5HCS0zLjIgIAk5OSAgCTk0Ny40ICAJOTQ3LjYgIAk5ODMuMCAg

CTEuNCAgICAJMyAgICAgCTkuNCAgIAkxNDEgIAkxMy41NTIJDQoNCg
XdenisX
lorien
Ну файл наверное имеет какой-то формат и возможно парсер этого формата есть в стандартной python библиотеке. Нужно определиться, чтто за формат у файла.
формально файл не имеет расширения и является текстовым.
w0id
Вообще есть email (http://docs.python.org/library/email) для парсинга email-сообщений.
UsCr
Парсеры-мой конёк.
Пожалуйста:
f = open('filepath')
data = f.readlines().split('\n')
text = data[5]+data[6]
В переменной text ваше содержимое. С праздничком.
XdenisX
UsCr
Парсеры-мой конёк.
Пожалуйста:
f = open('filepath')
data = f.readlines().split('\n')
text = data[5]+data[6]
В переменной text ваше содержимое. С праздничком.
Спасибо, но выдает такую ошибку:

AttributeError: 'list' object has no attribute 'split'
XdenisX
w0id
Вообще есть email (http://docs.python.org/library/email) для парсинга email-сообщений.
Есть, но он тут не отрабатывает.
содержимое

payload = m.get_payload(decode=True)
выдает None
UsCr
XdenisX
Спасибо, но выдает такую ошибку:
А, ну да. Split не нужен.
o7412369815963
>>> print 'MjAwOS0xIC0xNCAyIDo1OAlMRU5HCS0zLjIgIAk5OSAgCTk0Ny40ICAJOTQ3LjYgIAk5ODMuMCAgCTEuNCAgICAJMyAgICAgCTkuNCAgIAkxNDEgIAkxMy41NTIJDQoNCg=='.decode('base64')
2009-1 -14 2 :58 LENG -3.2 99 947.4 947.6 983.0 1.4 3 9.4 141 13.552
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB