Публикации по тегам apache-spark [apache-spark, scala, bzip2, pyspark, parquet]

Вопросы по теме 'apache-spark'

Каков эффективный способ обновления значения внутри RDD Spark?

Я пишу программу, связанную с графами, в Scala с Spark . Набор данных имеет 4 миллиона узлов и 4 миллиона ребер (вы можете рассматривать это как дерево), но каждый раз ( Iteration ) я редактирую только его часть, а именно поддерево, укорененное в...

11993 просмотров

apache-spark scala

12.01.2024

Библиотека hadoop bz2 в задании Spark дает сбой при работе на нескольких ядрах

В настоящее время у меня проблема со Spark и чтением файлов bz2. Я использую Spark 1.2.0 (предварительно созданный для Hadoop 2.4, но в настоящее время файлы читаются только локально). Для тестирования есть ~1500 файлов, каждый файл размером около...

2582 просмотров

apache-spark bzip2

05.01.2024

Spark: определение адреса драйвера из задачи

В целях отладки я хочу отправить сообщение из задачи искры (работающей в исполнителе) на машину драйвера. В документах утверждается, что spark.driver.host содержит эту информацию, но я не знаю как получить к нему доступ из рабочего (или из...

1159 просмотров

apache-spark pyspark

14.01.2024

Является ли запрос к Spark DataFrame на основе CSV быстрее, чем запрос на основе Parquet?

Мне нужно загрузить CSV-файл из HDFS с помощью Spark в DataFrame . Мне было интересно, есть ли улучшение «производительности» (скорость запроса) от DataFrame, поддерживаемого файлом CSV, по сравнению с одним, поддерживаемым файлом parquet? Обычно...

4272 просмотров

parquet apache-spark apache-spark-sql spark-dataframe

06.12.2023

Pyspark udf возвращает один столбец в определениях условий, принимая несколько столбцов в качестве входных данных

Я использую искру 2.1 и использую pyscripting Постановка проблемы: есть сценарий, в котором необходимо передать несколько столбцов в качестве входных данных и вернуть один столбец в качестве выходных данных. Ниже приведен мой входной фрейм данных...

1898 просмотров

python apache-spark pyspark

12.01.2024

Ошибка получения данных из Hbase 1.1 с использованием Phoenix 4.x с Python 2.x

Я новичок в Phoenix, HBase и Python и пишу небольшой POC, используя Pyspark, чтобы получить некоторую базовую информацию из HBase DB с помощью Phoenix. Вот мой фрагмент кода. query = 'select count(PK) from A_Model.TableA' jdbc_url =...

328 просмотров

python apache-spark pyspark phoenix

14.11.2023

Преобразование эпохи строки в метку времени строки в Scala

У меня есть столбец ORDER_DATE с отметкой времени эпохи в строке. Как я могу преобразовать этот столбец со строкой типа str = "1536309236032" , которая является временем в эпохе, в строку с форматом: 2018-09-07T14:03:56.032Z в Scala? В...

2911 просмотров

apache-spark apache-spark-sql scala datetime epoch

26.12.2023

Как преобразовать список Unicode, содержащийся в столбце pyspark фрейма данных, в список с плавающей запятой?

Я создал фрейм данных, как показано import ast from pyspark.sql.functions import udf values = [(u'['2','4','713',10),(u'['12','245']',20),(u'['101','12']',30)] df = sqlContext.createDataFrame(values,['list','A']) df.show()...

606 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

20.10.2023

как разделить строку с разделителем с неэкранированным символом разделителя

Я хочу разделить строку с разделителем (ex:|). Здесь моя проблема заключается в том, что строка содержит escape-символы. Как мне нужно удалить разделитель внутри символа побега. Данные выглядят так:...

55 просмотров

apache-spark scala

22.11.2023

Запуск пользовательского класса Java в PySpark на EMR

Я пытаюсь использовать пакет Cerner Bunsen для обработки FHIR в PySpark на AWS EMR, в частности класс Bundles и его методы. Я создаю сеанс Spark с помощью API Apache Livy, def create_spark_session(master_dns, kind, jars): # 8998 is the port...

248 просмотров

apache-spark pyspark amazon-emr livy

27.11.2023

Как именно сервер Nagios взаимодействует с удаленными узлами, то есть какой протокол он использует в настройках агента и без агента?

Я установил Nagios Core и NCPA на Mac. Реализовано несколько проверок с помощью настраиваемых плагинов, чтобы понять, как его использовать. Я пытаюсь понять следующее: Протокол, который сервер Nagios фактически использует для связи с агентом...

654 просмотров

apache-spark monitoring pagerduty nagios

09.01.2024

Преобразование py4j.java_gateway.JavaObject в pyspark StructType

Я вызываю функцию из библиотеки scala, как показано ниже, для преобразования схемы avro в sqlschema. schema = avroschema jvm_gateway = spark_context._gateway.jvm sqlSchema =...

220 просмотров

apache-spark pyspark apache-spark-sql pyspark-dataframes

29.11.2023

Вопросы по теме 'apache-spark'

Похожие вопросы