文章 2018-11-05 来自:开发者社区

E-MapReduce(Hadoop)10大类问题之集群规划

集群规划类问题 所有的使用Hadoop或者打算使用Hadoop的人肯定会遇到集群规划的问题,我到底使用多大的集群规模呢?有没有一个标准呢? 本篇文章就为你介绍集群规划。 在云环境E-MapReduce中,各种搭配是比较自由的。当前,cpu跟memory的比例有1:2及1:4的。磁盘是单机4快盘,从不同的性能有普通云盘、高校云盘、SSD云盘,价格也分别不同,单盘的容量也从40g到32T。 对于 有....

文章 2018-04-11 来自:开发者社区

hive在E-MapReduce集群的实践(一)hive异常排查入门

hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍常见的hive执行异常,定位和解决方法,以及hive日志查看方法。 除作者本人的知乎专栏外,其他转载需要先联系我。 一.常见异常表现 主要是执行hive sql时卡住,提示异常.....

文章 2018-03-06 来自:开发者社区

hive在E-MapReduce集群的实践(二)集群hive参数优化

本文介绍一些常见的集群跑hive作业参数优化,可以根据业务需要来使用。 提高hdfs性能 修改hdfs-site,注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.client.read.shortcircuit.streams.cache.size=4096  //直读缓存 dfs.datanode.balance.bandwi...

文章 2018-02-28 来自:开发者社区

E-MapReduce Kafka Kerberos集群授权

Kafka授权 如果没有开启Kafka认证(如Kerberos认证或者简单的用户名密码),即使开启了Kafka授权,用户也可以伪造身份访问服务。所以建议创建高安全模式(即支持Kerberos)的Kafka集群,详见Kerberos安全文档。 备注: 本文的权限配置只针对E-MapReduce的高安全模式集群,即Kafka以Kerberos的方式启动。 1. 添加配置 在Kafka集群的配置管理-....

文章 2017-12-31 来自:开发者社区

Hadoop集群(第9期)_MapReduce初级案例

1、数据去重    "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.1 实例描述   对数据文件中的数据进行去重。数据文件中的每行都是一个数据。   样例输入如下所示:     &nbs...

Hadoop集群(第9期)_MapReduce初级案例
文章 2017-11-20 来自:开发者社区

MapReduce中使用SequenceFile的方式上传文件到集群中

HDFS上不适合存储小文件,因为如果有很多的小文件,上传到HDFS集群,每个文件都会对应一个block块,一个block块的大小默认是128M,对于很多的小文件来说占用了非常多的block数量,就会影响到内存的消耗, MapReduce处理这些文件的话也是需要很多的Map来处理. HDFS提供的小文件的解决方案可以使用SequenceFile和MapFile: 如果存在大量的小数据文件,可以使用....

MapReduce中使用SequenceFile的方式上传文件到集群中
文章 2017-11-13 来自:开发者社区

2 weekend110的mapreduce介绍及wordcount + wordcount的编写和提交集群运行 + mr程序的本地运行模式

  把我们的简单运算逻辑,很方便地扩展到海量数据的场景下,分布式运算。 Map作一些,数据的局部处理和打散工作。 Reduce作一些,数据的汇总工作。 这是之前的,weekend110的hdfs输入流之源码分析。现在,全部关闭断点。   //4个泛型中,前两个是指定mapper输入数据的类型,KEYIN是输入的key类型,VALUE是输入...

2 weekend110的mapreduce介绍及wordcount + wordcount的编写和提交集群运行 + mr程序的本地运行模式
问答 2017-10-30 来自:开发者社区

E-MapReduce 如何调整集群规模?

ResizeCluster 调整集群 请求参数 字段类型是否必须默认值描述ClusterIdString是无集群IdRegionIdString是无NewMasterInstancesInteger是无调整之后,集群中master节点的数目NewCoreInstancesInteger是无调整之后,集群中core节点的数目NewTaskInstancesInteger是无保留字段,始...

问答 2017-10-30 来自:开发者社区

E-MapReduce 如何释放集群?

ReleaseCluster 释放集群 请求参数 字段类型是否必须默认值描述IdString是无集群IdForceReleaseBoolean否false是否强制释放集群。参考释放集群RegionIdString是无所在的地域 返回参数 公共返回参数 示例 请求示例 https://emr.aliyuncs.com/?Action=ReleaseCluster...

问答 2017-10-30 来自:开发者社区

E-MapReduce 如何修改集群名称?

ModifyClusterName 修改集群名名称 请求参数 字段类型是否必须默认值描述IdString是无集群IdNameString是无集群新的名称,要求和创建集群时一致。长度限制为1-64个字符,只允许包含中文、字母、数字、-、_RegionIdString是无 返回参数 公共返回参数 示例 请求示例 https://emr.aliyuncs.com/?...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐