Форум сайта python.su
дата фрейм (df):
| id | sum | ------------ | 1 | 123 | | 2 | 548 | | 3 | 999 |
max=df.agg({'sum':'max'}).collect()[0][0] #теперь перебором... for i in df.collect(): if i[0]==max: print(i[0])
Отредактировано pe1601@mail.ru (Ноя. 16, 2022 18:57:11)
Офлайн
pe1601@mail.ruТак почитайте про датафреймы, все расписано
очевидно что это дно(, но как сделать правильно?
max_sum = df.loc[df['sum'] == df['sum'].max()] print(max_sum['id'].values[0])
Офлайн
метод .loc? но это для библиотеки Pandas… а без нее можно обойтись?
Отредактировано pe1601@mail.ru (Ноя. 16, 2022 21:21:55)
Офлайн
Плохо когда в гугле банят
https://stackoverflow.com/questions/33224740/best-way-to-get-the-max-value-in-a-spark-dataframe-column
Ведь тут ответы на ваш вопрос всеми методами включая sql диалект
А тут даже с картинкам
https://linuxhint.com/max-pyspark/
Офлайн
точно, спасибо!
Офлайн