Вопросы по теме 'apache-spark'

Каков эффективный способ обновления значения внутри RDD Spark?
Я пишу программу, связанную с графами, в Scala с Spark . Набор данных имеет 4 миллиона узлов и 4 миллиона ребер (вы можете рассматривать это как дерево), но каждый раз ( Iteration ) я редактирую только его часть, а именно поддерево, укорененное в...
11993 просмотров
schedule 12.01.2024

Библиотека hadoop bz2 в задании Spark дает сбой при работе на нескольких ядрах
В настоящее время у меня проблема со Spark и чтением файлов bz2. Я использую Spark 1.2.0 (предварительно созданный для Hadoop 2.4, но в настоящее время файлы читаются только локально). Для тестирования есть ~1500 файлов, каждый файл размером около...
2582 просмотров
schedule 05.01.2024

Spark: определение адреса драйвера из задачи
В целях отладки я хочу отправить сообщение из задачи искры (работающей в исполнителе) на машину драйвера. В документах утверждается, что spark.driver.host содержит эту информацию, но я не знаю как получить к нему доступ из рабочего (или из...
1159 просмотров
schedule 14.01.2024

Является ли запрос к Spark DataFrame на основе CSV быстрее, чем запрос на основе Parquet?
Мне нужно загрузить CSV-файл из HDFS с помощью Spark в DataFrame . Мне было интересно, есть ли улучшение «производительности» (скорость запроса) от DataFrame, поддерживаемого файлом CSV, по сравнению с одним, поддерживаемым файлом parquet? Обычно...
4272 просмотров

Pyspark udf возвращает один столбец в определениях условий, принимая несколько столбцов в качестве входных данных
Я использую искру 2.1 и использую pyscripting Постановка проблемы: есть сценарий, в котором необходимо передать несколько столбцов в качестве входных данных и вернуть один столбец в качестве выходных данных. Ниже приведен мой входной фрейм данных...
1898 просмотров
schedule 12.01.2024

Ошибка получения данных из Hbase 1.1 с использованием Phoenix 4.x с Python 2.x
Я новичок в Phoenix, HBase и Python и пишу небольшой POC, используя Pyspark, чтобы получить некоторую базовую информацию из HBase DB с помощью Phoenix. Вот мой фрагмент кода. query = 'select count(PK) from A_Model.TableA' jdbc_url =...
328 просмотров
schedule 14.11.2023

Преобразование эпохи строки в метку времени строки в Scala
У меня есть столбец ORDER_DATE с отметкой времени эпохи в строке. Как я могу преобразовать этот столбец со строкой типа str = "1536309236032" , которая является временем в эпохе, в строку с форматом: 2018-09-07T14:03:56.032Z в Scala? В...
2911 просмотров

Как преобразовать список Unicode, содержащийся в столбце pyspark фрейма данных, в список с плавающей запятой?
Я создал фрейм данных, как показано import ast from pyspark.sql.functions import udf values = [(u'['2','4','713',10),(u'['12','245']',20),(u'['101','12']',30)] df = sqlContext.createDataFrame(values,['list','A']) df.show()...
606 просмотров

как разделить строку с разделителем с неэкранированным символом разделителя
Я хочу разделить строку с разделителем (ex:|). Здесь моя проблема заключается в том, что строка содержит escape-символы. Как мне нужно удалить разделитель внутри символа побега. Данные выглядят так:...
55 просмотров
schedule 22.11.2023

Запуск пользовательского класса Java в PySpark на EMR
Я пытаюсь использовать пакет Cerner Bunsen для обработки FHIR в PySpark на AWS EMR, в частности класс Bundles и его методы. Я создаю сеанс Spark с помощью API Apache Livy, def create_spark_session(master_dns, kind, jars): # 8998 is the port...
248 просмотров
schedule 27.11.2023

Как именно сервер Nagios взаимодействует с удаленными узлами, то есть какой протокол он использует в настройках агента и без агента?
Я установил Nagios Core и NCPA на Mac. Реализовано несколько проверок с помощью настраиваемых плагинов, чтобы понять, как его использовать. Я пытаюсь понять следующее: Протокол, который сервер Nagios фактически использует для связи с агентом...
654 просмотров
schedule 09.01.2024

Преобразование py4j.java_gateway.JavaObject в pyspark StructType
Я вызываю функцию из библиотеки scala, как показано ниже, для преобразования схемы avro в sqlschema. schema = avroschema jvm_gateway = spark_context._gateway.jvm sqlSchema =...
220 просмотров