Уведомления

Группа в Telegram: @pythonsu

#1 Май 22, 2017 17:55:53

alexander4
Зарегистрирован: 2017-01-17
Сообщения: 22
Репутация: +  0  -
Профиль   Отправить e-mail  

Pandas найти дубликаты

Как с найти дубликаты в dataframe по определенному столбцу? Метод, который я нашёл находит дубликаты, но первое упоминание не считается дубликатом, а мне нужно получить все записи.

Офлайн

#2 Май 22, 2017 20:59:51

noob_saibot
Зарегистрирован: 2013-09-11
Сообщения: 495
Репутация: +  20  -
Профиль   Отправить e-mail  

Pandas найти дубликаты

 import pandas as pd
df = pd.DataFrame([[1, 2], [3, 4], [5, 6], [1, 4], [8, 2], [2, 1], [1, 2]], columns=['a', 'b'])
for col in df.columns:
    print(col, list(zip(df[col], df.duplicated(subset=col, keep=False).values)))
    print(df[col][df.duplicated(keep=False, subset=col) == True])

keep=False

Офлайн

#3 Май 23, 2017 17:57:35

alexander4
Зарегистрирован: 2017-01-17
Сообщения: 22
Репутация: +  0  -
Профиль   Отправить e-mail  

Pandas найти дубликаты

noob_saibot
спасибо, работает)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version