Форум сайта python.su
приветствую
есть dataset (далее ds), с данными по кинопрокату (названия фильмов, жанр, год выхода, сборы, посещаемость и т.д. в csv).
Надо вычислить метрику: “Самый популярный фильм по жанру в каждом году” (курсовая работа)
Сделать это надо необходимо в apache spark (pyspark), настроил все в Colab…
Мой подход (вполне индусский):
1. получаем список “годов выходов на экран” (ось Х)
2. получаем список жанров (ось Y)
3. берем цикл по Х, внутри него цикл по Y и сравнение “в лоб”: если год выхода фильма = Х, жанр = Y, в результате получим список фильмов, берем из него самый популярный и готово.
Очевидно что такой подход неприемлем… как его можно оптимизировать инструментами pyspark?
Офлайн