Вопросы по теме 'apache-spark-sql'

Является ли запрос к Spark DataFrame на основе CSV быстрее, чем запрос на основе Parquet?
Мне нужно загрузить CSV-файл из HDFS с помощью Spark в DataFrame . Мне было интересно, есть ли улучшение «производительности» (скорость запроса) от DataFrame, поддерживаемого файлом CSV, по сравнению с одним, поддерживаемым файлом parquet? Обычно...
4272 просмотров

Преобразование эпохи строки в метку времени строки в Scala
У меня есть столбец ORDER_DATE с отметкой времени эпохи в строке. Как я могу преобразовать этот столбец со строкой типа str = "1536309236032" , которая является временем в эпохе, в строку с форматом: 2018-09-07T14:03:56.032Z в Scala? В...
2911 просмотров

Как преобразовать список Unicode, содержащийся в столбце pyspark фрейма данных, в список с плавающей запятой?
Я создал фрейм данных, как показано import ast from pyspark.sql.functions import udf values = [(u'['2','4','713',10),(u'['12','245']',20),(u'['101','12']',30)] df = sqlContext.createDataFrame(values,['list','A']) df.show()...
606 просмотров

Преобразование py4j.java_gateway.JavaObject в pyspark StructType
Я вызываю функцию из библиотеки scala, как показано ниже, для преобразования схемы avro в sqlschema. schema = avroschema jvm_gateway = spark_context._gateway.jvm sqlSchema =...
220 просмотров