DjangoBB LoFi version

Полная версия: загрузка в pySpark из csv

Начало » Data Mining » загрузка в pySpark из csv

pe1601@mail.ru

Ноя. 10, 2022 12:08:23

приветствую
фрагмент csv:
…,“/{”“name”“: ”“Ingenious Film Partners”“, ”“id”“: 289}, {”“name”“: ”“Twentieth Century Fox Film Corporation”“, ”“id”“: 306}, {”“name”“: ”“Dune Entertainment”“, ”“id”“: 444}, {”“name”“: ”“Lightstorm Entertainment”“, ”“id”“: 574}/”,….
при импорте в xls загружается в один столбец (как и должно быть)
но при загрузке в pySpasrk:
sc = SparkSession.builder\
.master("local“)\
.appName('M1')\
.getOrCreate()
df = sc.read.csv('sample_data/ds1.csv')

загружается в 4 столбца, что НЕ верно..

”/“ в начале и конце блока это я поставил, на самом деле квадр.скобки, но тогда в топике не отображается содержимое…
возможно есть тонкие настройки метода .read.csv(), или необходимо обрабатывать файл csv до/после загрузки?

получается что метод .read.csv игнорирует квадр.скобки и рассматривает содержимое как отдельные блоки {…}

ZerG

Ноя. 10, 2022 13:16:59

Не спамь
https://python.su/forum/topic/42150/

pe1601@mail.ru

Ноя. 10, 2022 13:51:50

время поджимает(