Найти - Пользователи
Полная версия: Моя первая программа. Нужна критика.
Начало » Python для новичков » Моя первая программа. Нужна критика.
1 2
baloo
Ну вот, состряпал первую программу. Обработка текстового файла, дублирующиеся записи в базах данных разных страховых компаний. Поскольку эту сводку делает госслужба, ничего умнее, чем почти нетипизированный текстовый файл, предложить не могут.
Нужно было успеть до 30-го декабря. Поэтому амбициозный проект с предварительным выводом данных в красивый цветной грид уперся в долгое ковыряние с wx… В конце концов программа свернулась до маленького файлика )))
Задача: обработать записи с выявлением
Номера полиса
Даты страхования
ФИО
Даты рождения

Сравнение даты страхования в нашей компании и в чужой. Если в чужой дата более свежая - то эта дата становится датой остановки страхования у нас. (Dismissed) Если у нас дата больше - пропускаем блок.
Потом найденный данные загоняются в SQL-скрипт, который запускается и “чистит базу”.
Вот пример файла для обработки:
WIN         32010  МСК 
======================================================================
(33001) Г11/0161066 26.01.2003 - 01.04.2008 Абакумова Мария Тимофеевна 05.03.1980 2
07236 ЛЕВОКУКУЕВСКОЕ,ЛУГОВАЯ 11/ -
07236 6 МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ СТАВРОПОЛЬСКОГО КРАЯ
(32010) 59-1184-004599 25.10.2007 - 31.12.2007 Абакумова Мария Тимофеевна 05.03.1980 1
07236 С. ЛЕВОКУЕВСКОЕ, УЛ. КОМАРОВА, Д. 1 КВ. 1
07402 1184 ОАО СТАВРОПОЛЬЭНЕРГО ФИЛИАЛ ЗАПАДНЫЕ ЭЛЕКТРИЧЕСКИЕ СЕТИ
======================================================================
(33001) 15/031513593534 10.10.2007 - 01.04.2008 Абдурахманов Шамиль Эльдарович 04.05.1966 2
07421 КРАЙ СТАВРОПОЛЬСКИЙ, Р-Н МИНЕРАЛОВОДСКИЙ, С КАНГЛЫ
07421 6 МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ СТАВРОПОЛЬСКОГО КРАЯ
(32010) 32-3094-000001 20.07.2006 - 31.12.2007 Абдурахманов Шамиль Эльдарович 04.05.1966 1
07239 С.КАНГЛЫ, М.ДЖАМИЛЯ
07412 3094 ООО ПМК ИНОЗЕМЦЕВСКАЯ-1
======================================================================
(32010) 33-0218-000345 30.11.2007 - 31.12.2007 Абрамов Валерий Георгиевич 28.05.1959 1
07248 ПРЕДГОРНЫЙ Р-Н, С.БЛАГОДАРНОЕ, УЛ. ЛЕНИНА, Д. 52
07427 218 ПЯТИГОРСКИЙ ЗАВОД ОАО
(32011) 5.030567 18.04.2005 - 01.04.2008 Абрамов Валерий Георгиевич 28.05.1959 2
07248 С НОВОБЛАГОДАРНОЕ ЛЕНИНАБАДСКАЯ 52
07248 7000 МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ
======================================================================
...и т д. Адреса и имена, понятно, левые.
вот сам Python-файл:
# -*- coding: cp1251 -*-
#from wxPython._wx import false
import re
#import datetime
import time

##example = "(32010) 25/012504398888 24.10.2008 - 31.12.2008 Аветисян Ромелла Леонидовна 13.04.1982 1" ##Персона
#Регулярное выражение - не путать скобки с escape-бэкслэш и скобки обособления группы
#Совпадение персона (застрахованный)
log_per = r"\((\d{5})\)\s+(\S+)\s+(\d{2}.\d{2}.\d{4})[-\s]+(\d{2}.\d{2}.\d{4})[\s]+([-а-я,А-Я]+)\s+([-а-я,А-Я]+)\s+([-а-я,А-Я]*)\s+(\d{2}.\d{2}.\d{4}).+$"
#Совпадение строка-разделитель дублей
log_flag = r"^.+===========.+$"


ln=0 ##Номер строки (будем пересчитывать строки в файле)
is_r=False ##Есть ли наша контора в группе
i=0 ##Счетчик дублирующихся записей в группе

for line in open("32010.txt"):
ln = ln + 1
pr = re.findall(log_per, line) ##Проверяем - строка это застрахованный?

if len(pr)>0: ##Если это застрахованный
i = i+1 ##Строка дублирования
if pr[0][0] == "32010": ##Если это НАШ застрахованный
pr_r = pr ##Строка РОСНО
is_r = True ##РОСНО есть в этой группе
r_id = time.strptime(pr[0][2], "%d.%m.%Y") ##Дата страхования в нашей конторе
#print(pr[0][0], r_id)

else:
a_id = time.strptime(pr[0][2], "%d.%m.%Y") ##Дата страхования чужая
sa_id = pr[0][2]
#print(pr[0][0], a_id)
if ((i > 1) and (is_r == True)): ##Если не первый в группе и мы уже найдены
if (a_id > r_id): ##Если чужая дата выгоднее - больше
r_fail = True ##Тогда failure!!!
else:
r_fail = False

pr = re.findall(log_flag, line) ##Проверяем - не закончилась ли группа
if len(pr)>0: ##Если группа закончилась
##Считаем итоги, еще не обнулили
if ((i > 1) and (is_r == True)):
if (r_fail == True):
print("UPDATE INSURED SET DISMISSED = '%s' WHERE FAM = '%s' AND IM = '%s' AND OT = '%s' AND DR = '%s' AND DISMISSED IS NULL;") % (sa_id, pr_r[0][4], pr_r[0][5], pr_r[0][6], pr_r[0][7])
i = 0 ##Обнуляем счетчики дублирования
is_r = False ##Обнуляем флаг нашей конторы
Я понимаю, что написано на Delphi, с использованием Питоновских слов. Наверняка есть какие-нибудь способы или записать циклы проще или логические if-else.
Кстати, изначально флагом конца группы являлась не строка “==============…”, а отслеживалась смена фамилии-имени отчества:
if fio != pr[0][4]: ##То-есть, речь пошла о другом человеке 
fio = pr[0][4] ##Запоминаем этого человека, обнуляем счетчик дублей, обнуляем наш флаг (есть ли мы, т.е. 32010, в этой группе и т.д.)
Так вот: почему-то условие неравенства соблюдалось даже тогда, когда ФИО были равны… Странно.
bw
А какой вопрос :-) ?

..bw
pythonwin
baloo, опиши, пожалуйста, в чем проблема или тебе нужно чтобы мы оценили программу?
И пожалуйста, сформулируй заголовок темы более осмыслено и с привязкой к самомой теме
PooH
к подобным задачам мне больше нравится немного другой подход, удобнее понимать логику и модифицировать, вот на скорую руку накропал вашу задачу(если правильно ее понял из исходников ;))
# -*- coding: cp1251 -*-
import re
import time

RE_RECORD = re.compile(r"\((\d{5})\)\s+(\S+)\s+(\d{2}.\d{2}.\d{4})[-\s]+(\d{2}.\d{2}.\d{4})\s(\S+)\s+(\S+)\s+(\S+)\s+(\d{2}.\d{2}.\d{4})")

def iter_records(stream):
'''итератор по записям попадающим под маску
возврашает code, (f.i.o), insurance date, birth date'''
for s in stream:
mt = RE_RECORD.match(s)
if mt:
yield mt.group(1), (mt.group(5), mt.group(6), mt.group(7)), \
time.strptime(mt.group(4), "%d.%m.%Y"), mt.group(8)

def iter_group(stream):
'''итератор по групам записей о персоне
возвращает (f.i.o), ls, birth_date
где ls список дат страхования в формате (код конторы, дата окончания страхования)'''
last, ls = None, []
for code, fio, insurance, birth in stream:
if last and last != fio:
yield fio, ls, birth
ls = [(code, insurance)]
else:
ls.append((code, insurance))
last = fio
yield fio, ls, birth

def select_date(ls):
'''возвращает дату для коррекции записи или None если коррекция не нужна
'''
our = [x[1] for x in ls if x[0] == '32010']
our = (our and our[0]) or None
alien = [x[1] for x in ls if x[0] != '32010' and x[1] > our]
if alien:
return max(alien)

for fio, ls, birth in iter_group(iter_records(open("32010.txt"))):
dt = select_date(ls)
if dt:
print """UPDATE INSURED
SET DISMISSED = '%s'
WHERE FAM = '%s' AND IM = '%s' AND OT = '%s' AND DR = '%s'
AND DISMISSED IS NULL;""" % (time.strftime("%d.%m.%Y", dt), fio[0], fio[1], fio[2], birth)
т.есть: iter_records - фильтрует файл, его выход уходит в iter_group, который группирует данные по персоне, и остается только проити по всем персонам и проверить дату select_date
pythonwin
PooH +1 задачу и +1 за телепатию
Ferroman
PooH
Отлично, только тестов не хватает :)
baloo
Задачу решил - это отлично. Единственное, что можно посоветовать - не пиши монолитный код. Старайся его разбивать на структуры мельче, тогда сопровождать код намного легче. Пример PooH отличная иллюстрация.
А то вдруг формат изначальных данных немного изменится.
И ещё одно - в регэкспах лучше делать именованные группы, и потом по именам их вызывать. Код легче читать, и меньше шансов запутаться с цифрами индексов.
baloo
Спасибо, вариант Pooh'a рассмотрю сегодня обязательно. Вопрос состоял в том, что я хотел критики и тыканья носом. Поскольку я Дельфи-прогр. и, вполне понятно, что все прелести Pythona мог профукать.
ZAN
Хм. В таком случае - писать исполняемый код на уровне модуля - не хорошо. Намного лучше определить функцию parse, которую будешь вызывать в из консольного (или не консольного =) ) приложения.
Ferroman
И ещё одно - в регэкспах лучше делать именованные группы, и потом по именам их вызывать
Кроме того, регулярное выражение можно логически разбить на подстроки (re.compile с флагом re.VERBOSE)
Как я понимаю, информация, заключенная в разделительные полосы - это единица информации о клиенте:
====================================
...
====================================
Если это так, то обработку лучше всего свести к итерациям по объектам-записям, где вся необходимая информация будет занесена в соответствующие атрибуты.
baloo
Кстати, имею небольшой вопрос по рег. выражениям. Пытался за один раз выхватывать не только основные данные о клиенте, но и адрес (след строка после клиента), и страхователя (третья строка).
Делал строку regexp c включением знака конца строки и начала новой. Не работает. Дошло, что мы должны перебирать не line, а рассматривать текст целиком. не подскажете, как это оформить?

2ZAN: да, эти линии - разделители групп двойников.
Ed
Для работы за пределами строки используйте флаг MULTILINE.
Вот, например:
In [1]: import re
In [2]: line = 'line1.1 1\ncontinue: 2.1'
In [3]: re.findall('^line(.+) (.+)\n^continue: (.+)', line, re.MULTILINE)
Out[3]: [('1.1', '1', '2.1')]
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB