Уведомления

Группа в Telegram: @pythonsu

#1 Ноя. 10, 2022 12:08:23

pe1601@mail.ru
Зарегистрирован: 2022-11-09
Сообщения: 20
Репутация: +  -1  -
Профиль   Адрес электронной почты  

загрузка в pySpark из csv

приветствую
фрагмент csv:
…,“/{”“name”“: ”“Ingenious Film Partners”“, ”“id”“: 289}, {”“name”“: ”“Twentieth Century Fox Film Corporation”“, ”“id”“: 306}, {”“name”“: ”“Dune Entertainment”“, ”“id”“: 444}, {”“name”“: ”“Lightstorm Entertainment”“, ”“id”“: 574}/”,….
при импорте в xls загружается в один столбец (как и должно быть)
но при загрузке в pySpasrk:
sc = SparkSession.builder\
.master("local“)\
.appName('M1')\
.getOrCreate()
df = sc.read.csv('sample_data/ds1.csv')

загружается в 4 столбца, что НЕ верно..

”/“ в начале и конце блока это я поставил, на самом деле квадр.скобки, но тогда в топике не отображается содержимое…
возможно есть тонкие настройки метода .read.csv(), или необходимо обрабатывать файл csv до/после загрузки?

получается что метод .read.csv игнорирует квадр.скобки и рассматривает содержимое как отдельные блоки {…}

Отредактировано pe1601@mail.ru (Ноя. 10, 2022 12:09:59)

Офлайн

#2 Ноя. 10, 2022 13:16:59

ZerG
Зарегистрирован: 2012-04-05
Сообщения: 2583
Репутация: +  60  -
Профиль   Отправить e-mail  

загрузка в pySpark из csv

Не спамь
https://python.su/forum/topic/42150/



Влодение рускай арфаграфией - это как владение кунг-фу: настаящие мастира не преминяют ево бес ниабхадимости

Офлайн

#3 Ноя. 10, 2022 13:51:50

pe1601@mail.ru
Зарегистрирован: 2022-11-09
Сообщения: 20
Репутация: +  -1  -
Профиль   Адрес электронной почты  

загрузка в pySpark из csv

время поджимает(

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version