MaxCompute账单用量明细分析

如果您想了解费用的分布情况并避免在使用MaxCompute产品时费用超出预期,您可以通过获取MaxCompute账单并进行分析,为资源使用率最大化及降低成本提供有效支撑。本文为您介绍如何通过用量明细表分析MaxCompute的费用分布情况。背景信息 ...

产品计费

本文为您介绍EMR Serverless Spark的资源估算策略、计费项、计算方式,以及支持地域的费用单价等信息。CU CU是EMR Serverless Spark工作空间计算能力的基本单位,其用量按分钟累计。CU的单价取决于EMR Serverless Spark工作空间所配置的CPU...

竞价实例

当您希望以较低的成本执行Spark作业(包括Spark SQL作业和Spark Jar作业)时,可以为Job型资源组开启竞价实例功能。开启竞价实例功能后,集群会尝试使用闲置(更低价)的Spark Executor资源执行Spark作业。本文主要介绍什么是竞价实例,...

AliyunEMRServerlessSparkDeveloperAccess

emr-serverless-spark:CancelJobRun","emr-serverless-spark:CancelRun","emr-serverless-spark:Check*","emr-serverless-spark:CommitTask","emr-serverless-spark:CreateArtifact","emr-serverless-spark:CreateCatalog","emr-...

RAM用户授权

spark:CancelRun","emr-serverless-spark:Check*","emr-serverless-spark:CommitTask","emr-serverless-spark:CreateArtifact","emr-serverless-spark:CreateCatalog","emr-serverless-spark:CreateCategory","emr-serverless-spark:...

Spark

本文通过以下方面为您介绍Spark:Scala(%spark)PySpark(%spark.pyspark)SparkR(%spark.r)SQL(%spark.sql)配置Spark 第三方依赖 内置教程 Scala(%spark)以%spark 开头的就是Scala代码的段落(Paragraph)。因为Zeppelin已经为您...

使用Spark Operator运行Spark作业

Apache Spark是一种专门用于大规模数据处理的计算引擎,广泛应用于数据分析和机器学习等场景。Spark Operator提供了一种在Kubernetes集群中自动化部署Spark作业和管理其生命周期的能力。本文介绍如何在ACK集群中使用Spark Operator运行...

提交Spark作业

emr-spark-ack-n 集群对应的namespace spark-submit \-name spark-pi-submit \-deploy-mode cluster \-class org.apache.spark.examples.SparkPi \ local:/opt/spark/examples/spark-examples.jar \ 1000 Client模式示例 spark-sql命令方式...

Spark

原因:内表热数据默认存储在Worker节点上,而Spark离线读取数据时,会从 OSS 中读取,此时 OSS 中没有内表热数据,会导致Spark SQL执行失败。解决方法:在查询内表热数据前,使用XIHE引擎执行以下SQL修改配置参数,然后手动BUILD表。BUILD...

设置全局Spark参数

您可参考 Spark官方文档 自定义全局Spark参数,并配置全局Spark参数的优先级是否高于指定模块内(数据开发、数据分析、运维中心)的SPARK参数。本文为您介绍如何设置全局Spark参数。背景信息 Apache Spark是用于进行大规模数据分析的引擎。...

Spark-2.x示例

cd$SPARK_HOME bin/spark-submit-master yarn-cluster-jars/path/to/odps-spark-datasource_2.11-3.3.8-public.jar \/path/to/MaxCompute-Spark/spark-2.x/src/main/python/spark_sql.py PySpark写OSS示例(Python)代码示例 spark_oss.py ...

Spark计算引擎

Apache Spark是一个通用的开源的分布式处理系统,通常用于大数据工作负载。Spark既支持使用SQL,又支持编写多种语言的DataFrame代码,兼具易用性和灵活性。Spark通用化的引擎能力可以同时提供SQL、批处理、流处理、机器学习和图计算的能力...

Spark-1.x示例

core_${scala.binary.version}/artifactId version${spark.version}/version scope provided/scope/dependency dependency groupId org.apache.spark/groupId artifactId spark-sql_${scala.binary.version}/artifactId version${spark....

Spark应用配置参数说明

云原生数据仓库 AnalyticDB MySQL 版(AnalyticDB for MySQL)Spark配置参数跟开源Spark中的配置参数基本一致。本文介绍 AnalyticDB for MySQL 与开源Spark用法不一致的配置参数。使用说明 Spark应用配置参数用于配置和调整Spark应用程序的...

Application开发

在 EMR Serverless Spark 页面,单击左侧导航栏中的 数据开发。新建任务。在 开发目录 页签下,单击 新建。在弹出的对话框中,输入 名称,根据实际需求在Application中选择类型,然后单击 确定。在右上角选择队列。添加队列的具体操作,请...

Airflow调度Spark

您可以通过 AnalyticDB for MySQL Spark Airflow Operator、Spark-Submit命令行工具来实现Airflow调度Spark任务。本文介绍如何通过Airflow调度 AnalyticDB for MySQL Spark作业。注意事项 AnalyticDB for MySQL Spark支持的配置参数,请...

Spark服务异常排查及处理

spark-org.apache.spark.deploy.history.HistoryServer*.out Spark Thrift Server:spark-thrift-server.log 和 spark-spark-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2*.out Spark History Server 出现节点磁盘写满,检查...

通过Spark Distribution SQL Engine开发Spark SQL作业

当您需要实时分析数据或通过JDBC协议开发Spark SQL作业时,可以通过 云原生数据仓库 AnalyticDB MySQL 版 的Spark Distribution SQL Engine开发Spark SQL作业。通过Spark Distribution SQL Engine可以更方便地利用SQL分析、处理和查询数据...

SPARK指标

SPARK指标包含以下部分:SPARK-ThriftServer SPARK-HistoryServer SPARK-ThriftServer 参数 指标 描述 JVM Max Heap Memory spark_thrift_driver_jvm_heap_max JVM最大可用堆内存。单位:Byte。JVM Committed Heap Memory spark_thrift_...

MaxCompute Spark节点

Spark on MaxCompute作业可通过Local模式、Cluster模式执行,此外,您也可在DataWorks中运行Spark on MaxCompute离线作业(Cluster模式),以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现Spark on MaxCompute作业的...

使用Spark History Server查看Spark作业信息

取值:oss:/Bucket name/spark/spark-events(OSS路径)hdfs:/namenode:port/spark/spark-events(HDFS路径)file:/tmp/spark/spark-events(本地路径)oss:/Bucket name/spark/spark-events 示例场景:在Spark作业中配置OSS日志记录 以下...

Spark Connector

Spark的 conf 目录下创建 spark-defaults.conf 文件:cd$SPARK_HOME/conf vim spark-defaults.conf 文件内容示例如下:#在spark-defaults.conf配置账号 spark.hadoop.odps.project.name=doc_test spark.hadoop.odps.access.id=L*spark....

Spark3使用JDK 11

配置文件 配置项 配置值 spark-env.sh spark_java_home/usr/lib/jvm/java-11 spark-defaults.conf spark.yarn.appMasterEnv.JAVA_HOME/usr/lib/jvm/java-11 spark.driverEnv.JAVA_HOME/usr/lib/jvm/java-11 spark.executorEnv.JAVA_HOME/...

搭建Windows开发环境

MaxCompute提供了面向Spark1.x、Spark2.x和Spark3.x发布包,下载路径如下(本文采用Spark-2.4.5):Spark-1.6.3:适用于Spark1.x应用的开发。Spark-2.3.0:适用于Spark2.x应用的开发。Spark-2.4.5:适用于Spark2.x应用的开发。使用Spark-2....

使用ECI运行Spark作业

配置示例如下:sparkConf:"spark.eventLog.enabled":"true""spark.eventLog.dir":"oss:/bigdatastore/spark-events""spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem"#oss bucket endpoint such as oss-...

使用ECI运行Spark作业

配置示例如下:sparkConf:"spark.eventLog.enabled":"true""spark.eventLog.dir":"oss:/bigdatastore/spark-events""spark.hadoop.fs.oss.impl":"org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystem"#oss bucket endpoint such as oss-...

EMR Serverless Spark CU优惠活动

spark.driver.cores 1 spark.driver.memory 1g spark.driver.memoryOverhead 1g spark.executor.cores 1 spark.executor.memory 1g spark.executor.memoryOverhead 1g spark.executor.instances 2 每分钟占用 3 Core,6 GB 的内存,1小时的...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,做了大量优化。本文为您介绍E-MapReduce(简称EMR)Spark相对开源增强的功能。背景信息 阿里云EMR 100%采用社区开源组件,随开源版本升级迭代,...

Spark作业异常排查及处理

解决方案:已使用Spark导入的数据,如果需要被Hive或Impala使用,建议在EMR控制台中Spark服务配置页面的 spark-defaults.conf 页签下,增加 spark.sql.parquet.writeLegacyFormat=true 配置后重新导入数据。Shuffle报错 java.lang....

Spark常见问题

本文为您介绍使用Spark过程中的常见问题。问题类别 常见问题 开发Spark 如何自检项目工程?在DataWorks上运行ODPS Spark节点的步骤是什么?Spark on MaxCompute如何在本地进行调试?如何通过Spark访问VPC环境内的服务?如何把JAR包当成资源...

GetSparkDefinitions-查询Spark的通用定义内容

400 Spark.App.InvalidResourceSpec The requested resource type is not supported:%s-400 Spark.App.ParameterConflict Conflicting parameters submitted:%s-400 Spark.Config.invalidConnectors The spark.adb.connectors ...

运行模式

在创建的业务流程中,从 数据开发 组件中选择 ODPS Spark 节点。双击工作流中的Spark节点,对Spark作业进行任务定义。ODPS Spark节点支持三种 spark版本 和两种 语言。选择不同的 语言,会显示相应不同的配置。您可以根据界面提示进行配置...

开发ODPS Spark任务

Spark on MaxCompute作业可通过 Local模式、Cluster模式 执行,此外,您也可在DataWorks中运行Spark on MaxCompute离线作业(Cluster模式),以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现Spark on MaxCompute作业...

开发ODPS Spark任务

Spark on MaxCompute作业可通过 Local模式、Cluster模式 执行,此外,您也可在DataWorks中运行Spark on MaxCompute离线作业(Cluster模式),以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现Spark on MaxCompute作业...

通过Spark-Submit命令行工具开发Spark应用

云原生数据仓库 AnalyticDB MySQL 版 提供Spark-Submit命令行工具,当您在通过客户端连接集群进行Spark开发时,需要借助该命令行工具提交Spark应用。本文介绍如何通过 AnalyticDB for MySQL 的Spark-Submit命令行工具进行Spark应用开发。...

自定义Spark镜像

当 AnalyticDB for MySQL Spark默认镜像无法满足您的需求时,您可以基于默认镜像,将Spark作业需要的软件包和依赖项打包到镜像中,生成自定义镜像并发布到容器镜像服务。在 AnalyticDB for MySQL 进行Spark作业开发时,指定自定义镜像作为...

ADB Spark SQL节点

AnalyticDB for MySQL Serverless Spark 是AnalyticDB for MySQL团队基于Apache Spark打造的服务化的大数据分析与计算服务,AnalyticDB MySQL版Spark支持在AnalyticDB控制台直接提交Spark SQL便于数据开发人员使用Spark进行数据分析。...

搭建Linux开发环境

本文为您介绍如何搭建Spark on MaxCompute开发环境。如果您安装了Windows操作系统,请前往 搭建Windows开发环境。前提条件 搭建Spark开发环境前,请确保您已经在Linux操作系统中安装如下软件:说明 本文采用的软件版本号及软件安装路径仅供...

基于eRDMA部署高网络性能的Spark集群

spark.master yarn spark.deploy-mode client#driver spark.driver.cores 4 spark.driver.memory 19g#executor spark.executor.instances 12 spark.executor.memory 10g spark.executor.cores 4 spark.executor.heartbeatInterval 60s#...

通过spark-submit命令行工具提交Spark任务

本文以ECS连接EMR Serverless Spark为例,介绍如何通过EMR Serverless spark-submit命令行工具进行Spark任务开发。前提条件 已安装Java 1.8或以上版本。如果使用RAM用户(子账号)提交Spark任务,需要将RAM用户(子账号)添加至Serverless ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 微服务引擎 共享流量包 人工智能平台 PAI 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用