Найти - Пользователи
Полная версия: загрузка в pySpark из csv
Начало » Data Mining » загрузка в pySpark из csv
1
pe1601@mail.ru
приветствую
фрагмент csv:
…,“/{”“name”“: ”“Ingenious Film Partners”“, ”“id”“: 289}, {”“name”“: ”“Twentieth Century Fox Film Corporation”“, ”“id”“: 306}, {”“name”“: ”“Dune Entertainment”“, ”“id”“: 444}, {”“name”“: ”“Lightstorm Entertainment”“, ”“id”“: 574}/”,….
при импорте в xls загружается в один столбец (как и должно быть)
но при загрузке в pySpasrk:
sc = SparkSession.builder\
.master("local“)\
.appName('M1')\
.getOrCreate()
df = sc.read.csv('sample_data/ds1.csv')

загружается в 4 столбца, что НЕ верно..

”/“ в начале и конце блока это я поставил, на самом деле квадр.скобки, но тогда в топике не отображается содержимое…
возможно есть тонкие настройки метода .read.csv(), или необходимо обрабатывать файл csv до/после загрузки?

получается что метод .read.csv игнорирует квадр.скобки и рассматривает содержимое как отдельные блоки {…}
ZerG
Не спамь
https://python.su/forum/topic/42150/
pe1601@mail.ru
время поджимает(
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB