文章 2019-12-27 来自:开发者社区

通过Spark Streaming作业处理Kafka数据

本节介绍如何使用阿里云E-MapReduce部署Hadoop集群和Kafka集群,并运行Spark Streaming作业消费Kafka数据。 前提条件 已注册阿里云账号,详情请参见注册云账号。 已开通E-MapReduce服务。 已完成云账号的授权,详情请参见角色授权。 背景信息 在开发过程中,通常会遇到消费Kafka数据的场景。在阿里云E-MapReduce中,您可通过运行Spark S...

通过Spark Streaming作业处理Kafka数据
文章 2019-12-20 来自:开发者社区

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Facebook 经常使用分析来进行数据驱动的决策。在过去的几年里,用户和产品都得到了增长,使得我们分析引擎中单个查询的数据量达到了数十TB。我们的一些批处理分析都是基于 Hive 平台(Apache Hive 是 Facebook 在2009年贡献给社区的)和 Corona( Facebook 内部的 MapReduce 实现)进行的。Facebook 还针对包括 Hive 在内的多个内部数据....

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践
问答 2019-11-05 来自:开发者社区

X-Pack Spark如何在后台通过定时任务创建作业

目前我司某个表数据量每月新增三千万,每天都需要通过定时任务以SQL查询做数据统计,随着数据越来越多,已经接近数据库瓶颈,所以想把数据放到HBase,然后通过Spark来做数据统计。 请问阿里云Spark能通过后台API创建作业并获取结果吗?

问答 2019-10-25 来自:开发者社区

Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?

Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?

文章 2019-05-16 来自:开发者社区

【MaxCompute Spark】不想自己搭Spark集群, 也能跑Spark分布式作业???

MaxCompute Spark 是什么? 阿里云的用户大部分应该都听说过MaxCompute,但是MaxCompute Spark是什么?我尝试用几个问题来回答这个问题。 公司准备把Spark的业务和作业上阿里云,从以前的经验来看,运维Spark+Hadoop集群可是个重头活,存不存在这种提供Spark服务的PaaS产品? 公司的部分业务以及作业顺利迁移至MaxCompute了,Spark作.....

问答 2019-04-26 来自:开发者社区

如何在 MR/Spark 作业中指定 OSS 数据源文件路径

如何在 MR/Spark 作业中指定 OSS 数据源文件路径

问答 2019-04-26 来自:开发者社区

Spark Streaming 作业已经结束,但是 E-MapReduce 控制台显示作业还处于“运行中”状态

Spark Streaming 作业已经结束,但是 E-MapReduce 控制台显示作业还处于“运行中”状态

问答 2019-04-26 来自:开发者社区

Spark Streaming 作业运行一段时间后无故结束

Spark Streaming 作业运行一段时间后无故结束

问答 2019-04-23 来自:开发者社区

为emr上的`spark-submit`作业指定marksweep gc

如何spark-submit在emr上运行作业时指定我希望jvm使用MarkSweep gc ?我可以提交作业(即spark-submit -- conf...),如果是,那么命令是什么?这是否必须由spark启动时设置,如果是,我如何在emr配置中指定?

问答 2019-04-23 来自:开发者社区

在单个EMR群集中调用多个spark作业

我想在单个EMR集群中使用spark-submit调用多个spark作业。EMR支持这个吗?怎么做到这一点?此时我使用AWS Lambda为我的spark作业调用EMR作业,但我们希望扩展到单个EMR集群中的多个spark作业。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注