Уведомления

Группа в Telegram: @pythonsu

#1 Ноя. 9, 2022 17:34:17

pe1601@mail.ru
Зарегистрирован: 2022-11-09
Сообщения: 20
Репутация: +  -1  -
Профиль   Адрес электронной почты  

анализ датасета с помощью pyspark

приветствую
есть dataset (далее ds), с данными по кинопрокату (названия фильмов, жанр, год выхода, сборы, посещаемость и т.д. в csv).
Надо вычислить метрику: “Самый популярный фильм по жанру в каждом году” (курсовая работа)
Сделать это надо необходимо в apache spark (pyspark), настроил все в Colab…
Мой подход (вполне индусский):
1. получаем список “годов выходов на экран” (ось Х)
2. получаем список жанров (ось Y)
3. берем цикл по Х, внутри него цикл по Y и сравнение “в лоб”: если год выхода фильма = Х, жанр = Y, в результате получим список фильмов, берем из него самый популярный и готово.
Очевидно что такой подход неприемлем… как его можно оптимизировать инструментами pyspark?

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version