Ctrl →

Seganapa · Июль 18, 2014 08:42:50

Всем привет!
Понадобилось в большом файле удалить повторяющиеся строки.
Нагуглил такой код:

#! /usr/bin/env python
input = open('in.txt', 'r')
output = open('out.txt', 'w')
linesarray = input.readlines()
input.close()
seen = []
for i in range(len(linesarray)):
    if seen.count(linesarray[i]) == 0:
        seen.append(linesarray[i])
        output.write(linesarray[i])
 output.close()

Работает вроде бы правильно, но не могу вьехать КАК? Где тут проверка?

  if seen.count(linesarray[i]) == 0:

Но как она работает? В чем хитрость?

—————————————————————–
Изучаю и параллельно использую Python 2.7

Singularity · Июль 18, 2014 08:57:22

Seganapa
ты не знаешь что делает count?

Seganapa · Июль 18, 2014 09:03:08

Я знаю что делает count, но как это помогает сравнить строки? По количеству символов что ли?

—————————————————————–
Изучаю и параллельно использую Python 2.7

FishHook · Июль 18, 2014 09:41:44

Seganapa
Я знаю что делает count, но как это помогает сравнить строки? По количеству символов что ли?

Ты же в список строки добавляешь, поэтому count возвращает количество строк в списке.

Это плохой алгоритм.

Seganapa · Июль 18, 2014 10:10:48

Ну я так и подумал. Т.е. Если так получится что в двух строках будут разные слова но одинаковое количество символов, то строки будут считаться одинаковыми. Я прав? Подтвердите мои подозрения ))

В таком случае этот алгоритм мне не подходит. Как правильно сделать?

—————————————————————–
Изучаю и параллельно использую Python 2.7

Hyyudu · Июль 18, 2014 10:21:06

А вы код проверили, прежде чем клеймить? На мой взгляд, он совершеннно правильный

  if seen.count(linesarray[i]) == 0: # в списке seen нет строки linesarray[i]

Вы не перепутали count с len?

Отредактировано Hyyudu (Июль 18, 2014 10:22:11)

py.user.next · Июль 18, 2014 10:22:31

Seganapa
Как правильно сделать?

Добавлять во множество хеши строк.

ilnur · Июль 18, 2014 10:37:41

а так не лучше?

#! /usr/bin/env python
input = open('in.txt', 'r')
output = open('out.txt', 'w')
linesarray = input.readlines()
input.close()
seen = []
for line in linesarray:
    if line not in seen:
        seen.append(line)    
 output.writelines(seen)

обо мне

Seganapa · Июль 18, 2014 10:48:32

Теперь все стало понятно! Спасибо всем огромное!!!

—————————————————————–
Изучаю и параллельно использую Python 2.7

FishHook · Июль 18, 2014 12:05:46

Честно говоря, идея сравнения строк мне не нравится. Что если попробовать хранить строки в словаре с ключом - хеш строки?

Python-сообщество

Уведомления

#1 Июль 18, 2014 08:42:50

Удалить дубликаты строк

#2 Июль 18, 2014 08:57:22

Удалить дубликаты строк

#3 Июль 18, 2014 09:03:08

Удалить дубликаты строк

#4 Июль 18, 2014 09:41:44

Удалить дубликаты строк

#5 Июль 18, 2014 10:10:48

Удалить дубликаты строк

#6 Июль 18, 2014 10:21:06

Удалить дубликаты строк

#7 Июль 18, 2014 10:22:31

Удалить дубликаты строк

#8 Июль 18, 2014 10:37:41

Удалить дубликаты строк

#9 Июль 18, 2014 10:48:32

Удалить дубликаты строк

#10 Июль 18, 2014 12:05:46

Удалить дубликаты строк

Board footer