код в архиве, папка “наработка”, но могу для простоты дела выложить и сюда.
streets=[
"2-я Артемовская",
"3-й Путевой",
"50-летия Октября",
"60-летия Октября",
"Абрикосовый",
"Авиационная",
"Авроры",
"Автобусная",
"Автобусный",
"Автономная",
"Автономный",
"Адмиральская",
"Адмиральский",
"Айвазовского",
"Аксенова",
"Албанский",
"Алеутская",
"Алеутский",
"Алтайская",
"Амурская",
"Амурский",
"Ангарская",
"Антенная",
"Армавирская",
"Арсеньева",
"Артемовская",
"Архангельская",
"Аэродромная",
"Байкальская",
"Байкальский",
"Балашовская",
"Балтийская",
"Барабинская",
"Бассейный",
"Батарейный",
"Батуевская Ветка",
"Батумская",
"Белинского",
"Беломорская",
"Белорусская",
"Бийская",
"Бикинская",
"Благодатный",
"Блюхера",
"Богачева",
"Богородская",
"Бойко-Павлова",
"Б.-Павлова",
"Больничная",
"Большая",
"Большой Аэродром",
"Бондаря",
"Братский",
"Брестская",
"Бробиджанская",
"Бурейская",
"Ватутина",
"Вахова",
"Верхнеудинская",
"Весенняя",
"Владивостокская",
"Владивостокское",
"Войкова",
"Вологодская",
"Волочаевская",
"Волочаевский городок",
"Волховская",
"Воровского",
"Воронежская",
"Воронежское",
"Ворошилова",
"Восточное",
"Восточный Семафор",
"Вострецова",
"Выборгская",
"Вяземская",
"Гагарина",
"Гайдара",
"Гамарника",
"Гаражный",
"Гвардейская",
"Геодезическая",
"Георгиевская",
"Герасимова",
"Герцена",
"Глинная",
"Гоголя",
"Горького",
"Госпитальный",
"Гражданский",
"Даниловского",
"Данчука",
"Даурская",
"Двойная",
"Дежнева",
"Демократический",
"Демьяна Бедного",
"Д. Бедного",
"Джамбула",
"Дзержинского",
"Дзержинского",
"Дикопольцева",
"Доватора",
"Донская",
"Донской",
"Дончука",
"Доступный",
"Дьяченко",
"Железнякова",
"Жданова",
"Жуковского",
"Забайкальская",
"Забайкальский",
"Запарина",
"Заречная",
"Засыпной",
"Зеленая",
"Зеленоборский",
"Знаменщикова",
"Зои Космодемьянской",
"Ивановский",
"Известковая",
"Изумрудная",
"Ильича",
"Индустриальная",
"Индустриальный",
"Инский",
"Иркутская",
"Иртышская",
"Иртышский",
"Истомина",
"Кабельная",
"Кавалерийский",
"Кавказская",
"Кадровый",
"Казанская",
"Казарменный",
"Казачья Гора",
"Калараша",
"Калинина",
"Калининская",
"Камышовый",
"Карельский",
"Карла Маркса",
"К. Маркса",
"Картографический",
"Каширская",
"Каширский",
"Ким Ю Чена",
"Кирова",
"Кирпичная",
"Кирпичный",
"Клубная",
"Клубный",
"Комсомольская",
"Кооперативная",
"Корабельная",
"Королева",
"Космическая",
"Костромская",
"Костромской",
"Кочнева",
"Красина",
"Красноармейская",
"Краснодарская",
"Краснодарский",
"Краснознаменная",
"Краснореченская",
"Краснореченский",
"Краснофлотская",
"Красный Яр",
"Криворожская",
"Крымская",
"Кубанская",
"Кубяка",
"Куйбышева",
"Кустарный",
"Кутузова",
"Ладожская",
"Ладожский",
"Лазо",
"Лейтенанта Шмидта",
"Ленина",
"Ленинградская",
"Ленинградский",
"Ленская",
"Лермонтова",
"Листопадная",
"Литовский",
"Локомотивная",
"Локомотивный",
"Ломоносова",
"Луговая",
"Льва Толстого",
"Л. Толстого",
"Магаданская",
"Магистральный",
"Майская",
"Малиновского",
"Мариинская",
"Марсовая",
"Матвеевское",
"Мате Залки",
"М. Залки",
"Матросский",
"Машинистов",
"Маяковского",
"Мельничная",
"Менделеева",
"Металлистов",
"квартал Мира",
"Мирная",
"Молдавский",
"Молодежная",
"Монтажная",
"Монтажный",
"Морская",
"Московская",
"Мостовая",
"Муравьева-Амурского",
"Мухина",
"Набережная",
"Нагишкина",
"Нагорная",
"Надеждинская",
"Народная",
"Невская",
"Некрасова",
"Нефтяная",
"Нефтяной",
"Новая",
"Нововыборгская",
"Облачный",
"Оборонная",
"Оборская",
"Океанская",
"Окружная",
"Октябрьская",
"Олега Кошевого",
"О. Кошевого",
"Орджоникидзе",
"Осенняя",
"Островского",
"Павла Морозова",
"П. Морозова",
"Павленко",
"Павловича",
"Панфиловцев",
"Панькова",
"Парка Мира",
"Партизанская",
"Первомайская",
"Первостроителей",
"Перекопская",
"Пермская",
"Перспективная",
"Петра Комарова",
"Печерская",
"Пилотов",
"Пионерская",
"Планерная",
"Победы",
"Пограничный",
"Покуса",
"Полины Осипенко",
"Полоцкий",
"Полярная",
"Попова",
"Портовая",
"Постышева",
"Почтовая",
"Приамурская",
"Пригородная",
"Приисковая",
"Приморская",
"Прогрессивная",
"Производственная",
"Производственный",
"Пролетарская",
"Промывочная",
"Промышленная",
"Промышленный",
"Проточная",
"Профессора Даниловского",
"Пугачева",
"Путевая",
"Пушкина",
"Рабочая",
"Рабочий Городок",
"Радищева",
"Рекордная",
"Ремесленная",
"Ремесленный",
"Репина",
"Республиканская",
"Рокоссовского",
"Руднева",
"Садовая",
"Салтыкова-Щедрина",
"Санаторная",
"Санитарная",
"Санитарный",
"Саратовская",
"Саратовский",
"Свердлова",
"Светлая",
"Световая",
"Свирская",
"Свободный",
"Связная",
"Севастопольский",
"Сергеевская",
"Серышева",
"Сибирская",
"Сигнальная",
"Сидоренко",
"Синельникова",
"Слободская",
"Служебная",
"Соборная",
"Советская",
"Совхозная",
"Сормовский",
"Союзная",
"Спортивный",
"Станционная",
"Станционный",
"Степной",
"Степная",
"Стрелочный",
"Стрельникова",
"Строительная",
"Студенческий",
"Суворова",
"Сунгарийская",
"Сысоева",
"Ташкентская",
"Тимирязева",
"Тихоокеанская",
"Топографический",
"Тополево",
"Трамвайная",
"Трамвайный",
"Трехгорная",
"Трубный",
"Трудовая",
"Трудовой",
"Тургенева",
"Турнирный",
"Тюменский",
"Уборевича",
"Узловая",
"Украинский",
"Ульчский",
"Ульяновская",
"Уральская",
"Ургальская",
"Урицкого",
"Уссурийская",
"Уссурийский",
"Ухтомского",
"Фабричный",
"Федеративная",
"Федоровское",
"Флегонтова",
"Фоломеева",
"Фрунзе",
"Фурманова",
"Хабаровская",
"Хабаровский",
"Халтурина",
"Ханкайская",
"Холмогорская",
"Хорышева",
"Хрустальный",
"Целинная",
"Центральная",
"Черепичный",
"Чернореченская",
"Чернореченское",
"Черняховского",
"Чехова",
"Чкалова",
"Шабадина",
"Шатова",
"Шатурский",
"Шевченко",
"Шевчука",
"Шелеста",
"Шеронова",
"Шефская",
"Шимановская",
"Шимановского",
"Школьная",
"Шкотова",
"Шмаковская",
"Шмаковский",
"Шмидта",
"Энергетик",
"Энтузиастов",
"Юбилейная",
"Юнгов",
"Юности",
"Яровая",
"Ярославская",
"Ясная",
"Ясный",
"Яшина",
"ДОС"]
regions=[
"Центр",
"Южный",
"Северный",
"Приамурский",
"Краснореченское",
"Хор",
"Ракитное",
"Сергеевка",
"Пригород",
"Солнечный",
"Осиновая Речка",
"Некрасовка",
"Корфовский",
"Восточное",
"Бычиха",
"Заозерное",
"Благодатное",
"Галкино",
"Хабаровск-2",
"Мирное",
"Ильинка",
"Переяславка",
"Красная Речка",
"Березовка",
"Калинка"
]
import re
import os, zipfile
def getPhone(str):
res = re.findall("(\d{1}-\d+-\d+-\d+-\d+)|(\d+-\d+-\d+)|(\d+-\d+)", str)
for x in res[0]:
if(x!=''):
return x
def getRooms(str):
res = re.findall("\d-комн", str)
if len(res)>0:
return res[0]
else:
return ""
def getSize(str):
res = re.findall("\d+ кв. м.", str)
if(len(res) == 0):
return ""
else :
return re.findall("\d+", res[0])[0]
def getType(str):
res = re.findall("(кирп\\.)|(стал\\.)|(пан\\.)|(хрущ\\.)", str)
if(len(res)!=0):
for x in res[0]:
if( x != ''):
return x
return ""
def getPrice(str):
res = re.findall("([0-9]* тыс\\.)|(\d{3,10}\\.)", str)
if(len(res) != 0):
if(res[0][0] != ''):
res = res[0][0]
count = re.findall("(\d+)", res)[0]
count+="000"
return count
else:
res = res[0][1]
count = re.findall("(\d+)", res)[0]
return count
else:
return ""
pathToArchive = './3_2009.zip'
zipArchive = zipfile.ZipFile(pathToArchive, 'r')
infile=zipArchive.open('data/'+'nedv10.txt', 'r')
text=infile.readlines()
i=0;
for string in text:
outfile = open("out"+".csv", "a")
i+=1
st=""
reg=st
for x in streets:
if string.find(x)>-1:
st=x
break
for x in regions:
if string.find(x)>-1:
reg=x
break
outfile.write(str(i)+"\t"+st+"\t"+reg+"\t"+getRooms(string)+"\t"+getType(string)+"\t"+getSize(string)+"\t\n")
outfile.close()
print(i)