← Сtrl

Shaman · Июль 18, 2014 12:59:01

FishHook
Что если попробовать хранить строки в словаре с ключом - хеш строки?

Что это даст кроме затрат на вычисление хешей?

py.user.next · Июль 18, 2014 14:41:45

>>> import hashlib
>>> 
>>> def gethash(s):
...     return hashlib.md5(s.encode('utf-8')).hexdigest()
... 
>>> text = """
... aa aa
... bb bb
... cc cc
... aa aa
... bb bb
... bb bb
... cc cc
... cc cc
... cc cc
... """
>>> 
>>> hst = set()
>>> out = []
>>> 
>>> for i in text.splitlines():
...     h = gethash(i)
...     if h not in hst:
...         hst.add(h)
...         out.append(i)
... 
>>> out
['', 'aa aa', 'bb bb', 'cc cc']
>>>

Отредактировано py.user.next (Июль 18, 2014 14:43:47)

FishHook · Июль 18, 2014 17:06:23

Shaman
Что это даст кроме затрат на вычисление хешей?

А зачем их вычислять еще раз?

file ="""Мама мыла раму
Мама мыла раму
Мама мыла Раму
Мама мыла Рому
Шла Саша по шоссе
Шла Саша по шоссе"""
unic = {hash(l): l for l in file.split("\n")}
print (unic)

FishHook · Июль 18, 2014 17:08:02

FishHook
Что это даст кроме затрат на вычисление хешей?

Хеш вычисляется только один раз, а извлекается по нему очень быстро и без затратно.
Сравнивать строки в цикле - гораздо накладнее.

Shaman · Июль 18, 2014 21:44:52

Высокая вероятность нарваться на коллизию.
Для ускорения можно ограничится заменой типа контейнера просмотренных со списка на множество и модифицировать алгоритм, если удаляются только серии повторений.

FishHook · Июль 18, 2014 22:04:31

Shaman
Высокая вероятность нарваться на коллизию.

Чо????

py.user.next · Июль 19, 2014 00:52:31

FishHook
Чо???

help(hash)

hash(...)
    hash(object) -> integer
    
    Return a hash value for the object.  Two objects with the same value have
    the same hash value.  The reverse is not necessarily true, but likely.

Если у двух объектов один хеш, из этого не следует, что у них одинаковое содержимое. Встроенный хеш слишком короткий для анализа большого числа разных строк.

FishHook

unic = {hash(l): l for l in file.split("\n")}

Хеши нужны, чтобы не хранить встретившиеся строки (для экономии памяти). Строка может занимать много байт, а хеш - всегда фиксированное небольшое количество.

FishHook
Хеш вычисляется только один раз, а извлекается по нему очень быстро и без затратно.

А зачем там словарь? Подойдёт просто set(fin). Просто строк могут быть миллионы и все разные, да и порядок сохранить не мешало бы. Потому set() не подходит.

Python-сообщество

Уведомления

#1 Июль 18, 2014 12:59:01

Удалить дубликаты строк

#2 Июль 18, 2014 14:41:45

Удалить дубликаты строк

#3 Июль 18, 2014 17:06:23

Удалить дубликаты строк

#4 Июль 18, 2014 17:08:02

Удалить дубликаты строк

#5 Июль 18, 2014 21:44:52

Удалить дубликаты строк

#6 Июль 18, 2014 22:04:31

Удалить дубликаты строк

#7 Июль 19, 2014 00:52:31

Удалить дубликаты строк

Board footer