Вопросы по теме 'apache-spark'
Каков эффективный способ обновления значения внутри RDD Spark?
Я пишу программу, связанную с графами, в Scala с Spark . Набор данных имеет 4 миллиона узлов и 4 миллиона ребер (вы можете рассматривать это как дерево), но каждый раз ( Iteration ) я редактирую только его часть, а именно поддерево, укорененное в...
11993 просмотров
schedule
12.01.2024
Библиотека hadoop bz2 в задании Spark дает сбой при работе на нескольких ядрах
В настоящее время у меня проблема со Spark и чтением файлов bz2. Я использую Spark 1.2.0 (предварительно созданный для Hadoop 2.4, но в настоящее время файлы читаются только локально). Для тестирования есть ~1500 файлов, каждый файл размером около...
2582 просмотров
schedule
05.01.2024
Spark: определение адреса драйвера из задачи
В целях отладки я хочу отправить сообщение из задачи искры (работающей в исполнителе) на машину драйвера. В документах утверждается, что spark.driver.host содержит эту информацию, но я не знаю как получить к нему доступ из рабочего (или из...
1159 просмотров
schedule
14.01.2024
Является ли запрос к Spark DataFrame на основе CSV быстрее, чем запрос на основе Parquet?
Мне нужно загрузить CSV-файл из HDFS с помощью Spark в DataFrame . Мне было интересно, есть ли улучшение «производительности» (скорость запроса) от DataFrame, поддерживаемого файлом CSV, по сравнению с одним, поддерживаемым файлом parquet?
Обычно...
4272 просмотров
schedule
06.12.2023
Pyspark udf возвращает один столбец в определениях условий, принимая несколько столбцов в качестве входных данных
Я использую искру 2.1 и использую pyscripting
Постановка проблемы: есть сценарий, в котором необходимо передать несколько столбцов в качестве входных данных и вернуть один столбец в качестве выходных данных. Ниже приведен мой входной фрейм данных...
1898 просмотров
schedule
12.01.2024
Ошибка получения данных из Hbase 1.1 с использованием Phoenix 4.x с Python 2.x
Я новичок в Phoenix, HBase и Python и пишу небольшой POC, используя Pyspark, чтобы получить некоторую базовую информацию из HBase DB с помощью Phoenix.
Вот мой фрагмент кода.
query = 'select count(PK) from A_Model.TableA'
jdbc_url =...
328 просмотров
schedule
14.11.2023
Преобразование эпохи строки в метку времени строки в Scala
У меня есть столбец ORDER_DATE с отметкой времени эпохи в строке. Как я могу преобразовать этот столбец со строкой типа str = "1536309236032" , которая является временем в эпохе, в строку с форматом: 2018-09-07T14:03:56.032Z в Scala?
В...
2911 просмотров
schedule
26.12.2023
Как преобразовать список Unicode, содержащийся в столбце pyspark фрейма данных, в список с плавающей запятой?
Я создал фрейм данных, как показано
import ast
from pyspark.sql.functions import udf
values = [(u'['2','4','713',10),(u'['12','245']',20),(u'['101','12']',30)]
df = sqlContext.createDataFrame(values,['list','A'])
df.show()...
606 просмотров
schedule
20.10.2023
как разделить строку с разделителем с неэкранированным символом разделителя
Я хочу разделить строку с разделителем (ex:|). Здесь моя проблема заключается в том, что строка содержит escape-символы. Как мне нужно удалить разделитель внутри символа побега.
Данные выглядят так:...
55 просмотров
schedule
22.11.2023
Запуск пользовательского класса Java в PySpark на EMR
Я пытаюсь использовать пакет Cerner Bunsen для обработки FHIR в PySpark на AWS EMR, в частности класс Bundles и его методы. Я создаю сеанс Spark с помощью API Apache Livy,
def create_spark_session(master_dns, kind, jars):
# 8998 is the port...
248 просмотров
schedule
27.11.2023
Как именно сервер Nagios взаимодействует с удаленными узлами, то есть какой протокол он использует в настройках агента и без агента?
Я установил Nagios Core и NCPA на Mac. Реализовано несколько проверок с помощью настраиваемых плагинов, чтобы понять, как его использовать. Я пытаюсь понять следующее:
Протокол, который сервер Nagios фактически использует для связи с агентом...
654 просмотров
schedule
09.01.2024
Преобразование py4j.java_gateway.JavaObject в pyspark StructType
Я вызываю функцию из библиотеки scala, как показано ниже, для преобразования схемы avro в sqlschema.
schema = avroschema
jvm_gateway = spark_context._gateway.jvm
sqlSchema =...
220 просмотров
schedule
29.11.2023