DjangoBB LoFi version

Полная версия: Парсинг html с помощью lxml парсера

Начало » Python для новичков » Парсинг html с помощью lxml парсера

_nemo_

Янв. 3, 2017 16:49:02

Программа получилась такая:

 from lxml import etree
# str name_html_file Имя HTML файла
# bool adm_mode = True Режим системного администрирования, выводится на экран только файл
# bool adm_mode = False Пользовательский режим, выводится на экран только переменные
# str tag_parser Тэг поиска в HTML файле, для text label должен быть '//a'
# str begin_reader Контрольная строка, с которой начинается запись массива. В массив не включается
# str end_reader Контрольная строка, которой заканчивается запись массива. В массив не включается
name_html_file = 'test4.html'
adm_mode = False
tag_parser = '//a'  # тэг для поиска, в данном случае <a>
print(name_html_file)
parser = etree.HTMLParser(remove_blank_text=True) # Задаем параметры парсера
page = etree.parse(name_html_file, parser) # Считываем файл в переменную page
if adm_mode == True:
    print('doc.encoding:    ' + page.docinfo.encoding)
    print(etree.tostring(page.getroot(),pretty_print=True,method='html',encoding='unicode')) # Распечатываем переменную page
if adm_mode == False:
    ft = etree.XPath(tag_parser)
    st = []
    for t in ft(page):
        if t.text != None:
            if t.text != ' ':
                if t.text.find('\t') == -1:
                    t.text = t.text.replace('\r','')
                    t.text = t.text.replace('\n','')
                    t.text = t.text.replace('  ',' ')
                    t.text = t.text.replace('  ',' ')
                    t.text = t.text.strip()
                    st.append(t.text)
    print(st)

Ищет тэги <a> в html.
Проблема вот в чем: некоторые файлы не удается отпарсить, несмотря на кодировку
исходников ‘utf-8’. Таких файлов немного, точнее один попался из нескольких десятков.
Выдает вот такие кракозябры:
'Ð\x9fÐµÑ\x80ÐµÐ¹Ñ\x82Ð¸ Ðº Ñ\x81Ð¾Ð´ÐµÑ\x80Ð¶Ð¸Ð¼Ð¾Ð¼Ñ\x83'

Вопрос: почему некоторые файлы в кодировке ‘utf-8’ читаются нормально, а некоторые нет?

FishHook

Янв. 3, 2017 18:00:42

А пути случайно не в кириллице? В винде есть известная проблема с чтением файлов, если в адресе файла есть национальные символы.

_nemo_

Янв. 3, 2017 18:30:27

FishHook
'''
А пути случайно не в кириллице? В винде есть известная проблема с чтением файлов, если в адресе файла есть национальные символы.
'''
Путей нет вообще, для тестовой отладке все в одной пвпке без путей, программа видит
файл и парсит его, но на выходе иногда кракозябры, но как правило все нормально.
Я логику понять не могу. Почему файлы в одной и той- же кодировке то читает, то не читает.
Полтергейст прямо какой- то…

_nemo_

Янв. 3, 2017 18:35:51

FishHook

При чем, что характерно, latin-1 читает всегда нормально
Вот пример:
Ð\x9fÑ\x80Ð¾ÐµÐºÑ\x86Ð¸Ñ\x8f Ð¿Ð¾Ð²ÐµÑ\x80Ñ\x85Ð½Ð¾Ñ\x81Ñ\x82Ð¸ 4 Ð¾Ñ\x81Ð¸ - Ð½Ð¾Ñ\x80Ð¼Ð°Ð»Ñ\x8c Ðº STL Ð¼Ð¾Ð´ÐµÐ»Ð¸', 'Ð\x9eÐ¿Ñ\x83Ð±Ð»Ð¸ÐºÐ¾Ð²Ð°Ð½Ð¾

STL прочиталось нормально…

FishHook

Янв. 3, 2017 18:56:10

_nemo_
Путей нет вообще

У вас может быть кириллица в путях к стрипту, например, в имени пользователя, винда на этом месте (ну или питон в винде) тупит, когда получает доступ к файлу c:\users\вася иванов\питон\test, поэтому не нужно создавать таких путей, когда вы работаете с питоном в винде (да и вообще не нужно).

FishHook

Янв. 3, 2017 19:00:32

И, кстати, а такая версия питона?
И вот здесь вместо юникода попробуйте указать вашу кодировку

 print(etree.tostring(page.getroot(),pretty_print=True,method='html',encoding='utf-8'))

_nemo_

Янв. 3, 2017 19:25:12

FishHook

'''
У вас может быть кириллица в путях к стрипту
'''
пути нормальные, без кириллицы

'''
encoding='utf-8'
'''
пробовал уже, не помогает

_nemo_

Янв. 3, 2017 19:28:57

Проблемы только с эти файлом

_nemo_

Янв. 3, 2017 19:30:32

версия питона 3.4

_nemo_

Янв. 3, 2017 23:16:32

Разобрался.
В том файле, который не парсился, не закрыт тэг head, соответтвенно не считывалась
metadata с кодировкой файла.