DjangoBB LoFi version

Начало » Python для новичков » Парсер по тексту

Razor

Окт. 21, 2012 22:45:09

Здраствуйте, уважаемые форумчане. Недавно пытался написать простой текст, который бы вырезал из файла номера страниц и колонтикулы (очевидно, остались от сканирования), но возникли проблемы. Долго думал, как организовать работу (я новичек) и получилось нечто эдакое - через списки:

# -*- coding: utf-8 -*-
# Список исключений
list_ex = []
for num_ex in range(13, 20): list_ex.append(repr(num_ex) + "")
print list_ex
# Файловый список
input_file = open('read1.txt', 'r')
list_text = []
for line in input_file: list_text.append(line.rstrip())
print list_text
# Очистка от номера страницы
list_clear = []
for words in list_text:
    if words not in list_ex != True:
        list_clear.append(words)
print list_clear
# Вывод в файл
output_file = open('clear_text.txt', 'w')
for clear_words in list_clear: output_file.write(clear_words.strip() + '\n')

Все бы хорошо: парсит строку - если только номер - удаляет, но бывает, что номер страницы сдвинут. Вот и возникли вопросы:
1) Как достать с файла номера страниц (просто представьте отсканированную книгу и поймете)
2) Как удалить двойной Enter в тексте методами Питона?

Были пару размышлений:
1) Пропарсить страницу побуквенно.
2) Вшить вот такой код, дабы из побуквенного не удалил ничего лишнего (оставит весь текст без цифр ведь):

list_clear = []
for words in list_text:
    if words not in list_ex[0] != True:
        list_clear.append(words)
        list_ex.pop(0)
    else:
    	num_text = list_text.count(words)
    	num_ex = list_ex.count(num_text) + 1
    	list_ex.pop(:num_ex)

s0rg

Окт. 21, 2012 23:52:17

import re

is_numeric_re = re.compile('\d+')

with open('text_to_clear.txt') as fd:
    lines = map(str.strip, fd)
    dest = []
    skip_next = False

    total = len(lines) - 1
    for idx, ln in enumerate(lines):
        if skip_next:
            skip_next = False
            continue
        if ln and is_numeric_re.match(ln) is None:
            dest.append(ln)
        elif (idx < total) and lines[idx + 1]:
            dest.append(ln)
        else:
            skip_next = True
    print '\n'.join(dest)

py.user.next

Окт. 22, 2012 01:23:02

s0rg

lines = map(str.strip, fd)

все отступы будут удалены

Razor
2) Как удалить двойной Enter в тексте методами Питона?

удалить или сжать до одного переноса ?

Razor
Были пару размышлений:
1) Пропарсить страницу побуквенно.

есть re.sub(), за два прохода можно сделать и то, и другое

s0rg

Окт. 22, 2012 01:25:26

py.user.next
все отступы будут удалены

Точно )