问答 2019-04-23 来自:开发者社区

EMR 5.21,Spark 2.4 - Json4s依赖性被破坏

问题在EMR 5.21中,Spark-Hbase集成被破坏。df.write.options()。format()。save()失败。原因是json4s-jackson版本3.5.3在spark 2.4,EMR 5.21 它在EMR 5.11.2,Spark 2.2,son4s-jackson版本3.2.11中工作正常。问题是这是EMR所以我不能用较低的json4s重建spark。有没有解决方法....

问答 2019-04-23 来自:开发者社区

为emr上的`spark-submit`作业指定marksweep gc

如何spark-submit在emr上运行作业时指定我希望jvm使用MarkSweep gc ?我可以提交作业(即spark-submit -- conf...),如果是,那么命令是什么?这是否必须由spark启动时设置,如果是,我如何在emr配置中指定?

问答 2019-04-23 来自:开发者社区

在单个EMR群集中调用多个spark作业

我想在单个EMR集群中使用spark-submit调用多个spark作业。EMR支持这个吗?怎么做到这一点?此时我使用AWS Lambda为我的spark作业调用EMR作业,但我们希望扩展到单个EMR集群中的多个spark作业。

问答 2019-04-22 来自:开发者社区

无法在EMR spark群集中运行python作业

我正在尝试向AWS EMR spark集群提交python作业。 我在spark-submit选项部分中的设置如下: --master yarn --driver-memory 4g --executor-memory 2g 但是,我在工作期间遇到了一个失败的案例。 以下是错误日志文件: 19/04/09 10:40:25 INFO RMProxy: Connecting to Resource....

问答 2019-04-22 来自:开发者社区

如何使用EMR上的spark有效地读取/解析s3文件夹中.gz文件的负载

我正在尝试通过在EMR上执行的spark应用程序读取s3上目录中的所有文件。 数据以典型格式存储,如“s3a://Some/path/yyyy/mm/dd/hh/blah.gz” 如果我使用深度嵌套的通配符(例如“s3a:// SomeBucket / SomeFolder / / / / *。gz”),性能非常糟糕,需要大约40分钟才能读取几万个小的gzip压缩文件。我的另外两种方法,我的研究....

问答 2019-04-22 来自:开发者社区

EMR上的Spark工作突然耗时30小时(从5小时起)

我有一个Spark作业,它运行在1个主服务器和8个核心的Amazon EMR集群上。简而言之,Spark作业从S3读取一些.csv文件,将它们转换为RDD,在RDD上执行一些相对复杂的连接,最后在S3上生成其他.csv文件。这项工作在EMR集群上执行,过去大约需要5个小时。突然有一天,它开始花费超过30个小时。输入(S3文件)没有明显差异。我已经检查了日志,并且在漫长的运行中(30小时)我可以看....

问答 2019-04-22 来自:开发者社区

在EMR类中找不到Spark-submit异常java

我有一个jar包捆绑创建一个弹簧启动应用程序,其中我创建spark会话来做一些操作。 然后我发送这个jar AWS EMR,要么运行的spark-submit或者java -jar未工作的可执行文件。 这是我的jar结构 jar -tf META-INF/META-INF/MANIFEST.MForg/org/springframework/org/springframework/boot/o.....

问答 2018-12-21 来自:开发者社区

如何监控AWS EMR集群中托管的spark中的hive thrift服务器运行状况?

我们使用JDBC连接到我们的spark EMR集群上的hive thrift服务器。我们遇到了一些thrift服务器崩溃的瞬态问题,需要手动重启。我们想知道是否有任何[希望简单]的方式来监控服务器的健康状况?至少,我们希望在它发生故障时收到警报。拥有其他服务器运行状况指标也很不错。

问答 2018-12-12 来自:开发者社区

在AWS EMR中运行spark时,请使用自定义Log4J appender

我正在尝试在AWS EMR中执行spark submit来执行一个使用我编写的自定义log4j appender的简单项目。我可以通过在群集软件设置中提供以下配置来传递我的log4j属性: [{ "classification": "spark-log4j", "properties": { "log4j.appender.S": "CustomLog4JAppender", "...

问答 2017-11-30 来自:开发者社区

EMR集群spark出现Tez相关类找不到

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:529) at org.apache.spar...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注