大数据上云及巡检服务内容说明

EMR(Spark、Hadoop、Hive)EMR-Flink 技术培训 仅对应一种大数据产品使用培训,不超过2人天课程,3人天课后答疑 Dataworks/Maxcompute/Hologress,EMR(Spark、Hadoop、Hive)EMR-Flink 驻场护航 客户重大活动或者重大项目(如平台改造、...

安装文件系统SDK

配置Hadoop 本节以Hadoop 2.7.2版本为例,介绍如何配置Hadoop。下载 Hadoop 建议版本不低于2.7.2。执行以下命令,解压Hadoop压缩包。tar-zxf hadoop-2.7.2.tar.gz 执行以下命令,设置Hadoop工作环境变量。export HADOOP_HOME=...

在文件存储 HDFS 版上使用Apache Tez

tez/*:./tez/lib/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/common/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/common/lib/*:./hadoop-mapreduce/hadoop-2.8.5/share/hadoop/hdfs/*:./hadoop-mapreduce/hadoop-2.8.5/share/...

使用Flink访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

在文件存储 HDFS 版上使用Apache Flink

本文介绍如何在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Flink。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK版本不...

使用Spark访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

在文件存储 HDFS 版上使用Apache Spark

本文主要介绍如何在挂载 文件存储 HDFS 版 的Hadoop集群上安装及使用Apache Spark。前提条件 已开通 文件存储 HDFS 版 服务并创建文件系统实例和挂载点。具体操作,请参见 文件存储HDFS版快速入门。已为Hadoop集群所有节点安装JDK,且JDK...

使用Fuse-DFS挂载文件存储 HDFS 版

Fuse-DFS是Hadoop项目自带的一个功能模块,提供了使用FUSE(用户空间中的文件系统)在UNIX文件系统上映射HDFS的功能,在官方提供的Hadoop预编译版本中不包含Fuse-DFS的功能模块,如需使用该功能需要手动编译该功能模块并添加到Hadoop客户端...

搭建Hadoop环境

本教程介绍如何在Linux操作系统的ECS实例上快速搭建Hadoop伪分布式环境。前提条件 已创建ECS实例。具体操作,请参见 自定义购买实例。本教程示例场景中,ECS实例的配置如下:实例规格:ecs.g6.large 操作系统:公共镜像CentOS 7.7 64位 ...

在ECI中访问HDFS数据

HADOOP_CLASSPATH=usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/common/*:/usr/local/hadoop-2.7.2/share/hadoop/hdfs:/usr/local/hadoop-2.7.2/share/...

HDFS常见命令介绍

您可以在已经创建好的E-MapReduce(简称EMR)集群中,直接使用hadoop fs命令来对HDFS中的文件进行操作。本文为您介绍HDFS的常见命令。背景信息 HDFS常见命令如下表所示。命令 功能 mkdir 在HDFS文件系统中创建目录。touchz 在HDFS文件系统...

集群存储根路径没有权限,导致集群服务启动失败的问题

本文介绍集群运行时,由于配置的集群存储根路径(对应Hadoop-Common服务中 fs.DefaultFS 配置项)缺乏访问权限,导致集群的部分服务启动失败的原因和解决方案。问题详情 在E-MapReduce控制台,集群的Hadoop-Common服务 状态 页面的 健康...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

UDF(地理空间)

打开Git命令行工具,下载2.1.0版本Hive(对应Hadoop版本为2.7.2)下的地理空间UDF代码至本地,命令示例如下。git clone https://github.com/Esri/spatial-framework-for-hadoop.git git clone -b "v2.1.0" single-branch git@github....

开启权限认证

hadoop hadoop 0 2022-10-21 10:06/tmp/hadoop-yarn drwx-wx-wx-hive hadoop 0 2022-10-21 10:13/tmp/hive drwxr-x-x-hadoop hadoop 0 2022-10-21 10:23 tmp/kyuubi-staging drwxrwxrwt-hadoop hadoop 0 2022-10-21 10:23/tmp/logs 说明 ...

Hadoop DistCp介绍

Hadoop DistCp(分布式复制)是一个用于大型集群间或集群内数据复制的工具,通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。说明 ...

常见问题排查

{HADOOP_HOME}/share/hadoop/hdfs/确认执行作业的用户对SDK有可读权限。如果 hadoop fs 命令可以成功运行,但是无法执行分析任务,请确认YARN等任务执行框架在安装完 文件存储 HDFS 版 文件系统SDK后进行了重启。例如:您可以执行以下命令...

元数据性能测试

NNbench的jar包位于${HADOOP_HOME}/share/hadoop/mapreduce目录下,${HADOOP_HOME}为测试机器中的Hadoop 安装目录,NNbench的jar包名为hadoop-mapreduce-client-jobclient-x.x.x-tests.jar,使用方法如下。本文所有命令均在${HADOOP_HOME}/...

Dataphin中执行hadoop fs-ls命令方法

概述 Dataphin中执行hadoop fs-ls命令的方法。详细信息 创建HADOOP_MR任务,可以执行hadoop fs-ls/命令。适用于 Dataphin

Hadoop Streaming

本文为您介绍如何使用Python提交Hadoop Streaming作业。前提条件 已在E-MapReduce控制台上创建Hadoop集群。创建集群详情,请参见 创建集群。操作步骤 通过SSH方式连接集群,详情请参见 使用SSH连接主节点。新建文件 mapper.py。执行以下...

Dataphin中数据集成任务运行报错“java.io....

org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getFileInfo(ClientNamenodeProtocolTranslatorPB.java:788) [hadoop-hdfs-2.6.0-cdh5.16.2.jar:na]&at sun.reflect.NativeMethodAccessorImpl.invoke0(Native ...

通过开源HDFS客户端连接并使用文件引擎

org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider dfs.ha.automatic-failover.enabled true dfs.ha.namenodes.${实例ID} nn1,nn2 dfs.namenode.rpc-address.${实例ID}.nn1 {实例ID}-master1-001.lindorm.rds....

Hadoop MapReduce作业配置

本文介绍如何配置Hadoop MapReduce类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...

Dataphin集成任务同步失败报错:"Operation category ...

org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.checkOperation(StandbyState.java:88) at org.apache.hadoop.hdfs.server.namenode.NameNode$NameNodeHAContext.checkOperation(NameNode.java:1962) at org.apache.hadoop.hdfs....

使用MapReduce处理JindoFS上的数据

usr/lib/hadoop-current/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen 替换输出路径,可以把数据输出到JindoFS上:hadoop jar usr/lib/hadoop-current/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar ...

更换集群损坏的本地盘

sudo chmod 755$mount_path/log/yarn 数据湖(Hadoop)集群 while getopts p:opt do case {opt}"in p)mount_path=${OPTARG};esac done mkdir-p$mount_path/data chown hdfs:hadoop$mount_path/data chmod 1777$mount_path/data mkdir-p ...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

文件存储 HDFS 版和对象存储OSS双向数据迁移

{HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.5.jar \ randomtextwriter \-D mapreduce.randomtextwriter.totalbytes=107374182400 \-D mapreduce.randomtextwriter.bytespermap=10737418240 \ dfs:/f-xxxxxxx....

迁移Hadoop文件系统数据至JindoFS

本文以OSS为例,介绍如何将Hadoop文件系统上的数据迁移至JindoFS。迁移数据 Hadoop FsShell 对于文件较少或者数据量较小的场景,可以直接使用Hadoop的FsShell进行同步:hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

YARN缺陷修复公告

HADOOP_HOME/share/hadoop/yarn/hadoop-yarn-server-resourcemanager-3.2.1.jar tmp/cp hadoop-yarn-server-resourcemanager-3.2.1.jar HADOOP_HOME/share/hadoop/yarn/命令中的$HADOOP_HOME 为Hadoop的安装目录。本文示例中Hadoop的安装...

HAS Kerberos认证使用方法

本文通过访问HDFS服务为您介绍如何使用HAS Kerberos认证。前提条件 已创建EMR-3.40及之前版本,EMR-4.10.1及之前版本的...org.apache.hadoop hadoop-common x.x.x org.apache.hadoop hadoop-hdfs x.x.x 说明 x.x.x 为您集群的hadoop版本。

搭建与管理

当您通过MaxCompute与Hadoop构建湖仓一体时,Hadoop集群环境需开启高可用(HA)。具体详情,请咨询Hadoop集群运维人员。使用限制 仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、新加坡和德国...

测试环境

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求 测试环境总体要求: ...

基于Hadoop集群支持Delta Lake或Hudi存储机制

MaxCompute基于开源的Hadoop集群提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据变化。本文为您介绍如何构建基于Delta Lake或Hudi存储机制的湖仓一体方案。背景信息 MaxCompute基于...

从自建HDFS迁移数据

在某些场景下面,我们需要从自建的Hadoop中存储的数据迁移到Lindorm的文件引擎当中。适用范围 阿里云ECS自建Hadoop集群中的数据迁移到文件引擎。准备工作 开通文件引擎,详情请参见 开通指南。修改Hadoop 配置信息,详情请参见 使用开源...

Hadoop使用JindoSDK访问OSS-HDFS服务

HADOOP_HOME=usr/local/hadoop export PATH=$HADOOP_HOME/bin:$PATH source etc/profile 更新Hadoop配置文件中的 HADOOP_HOME。cd$HADOOP_HOME vim etc/hadoop/hadoop-env.sh 将${JAVA_HOME} 替换为实际路径。export JAVA_HOME=usr/lib/jvm...

漏洞公告|Apache Hadoop FileUtil.unTar命令注入漏洞

2022年8月4日,Apache Hadoop官方披露修复了一个Shell命令注入漏洞CVE-2022-25168。由于Apache Hadoop的FileUtil.unTar API在传递Shell之前未对输入的文件名进行转义,攻击者可以利用该漏洞注入任意命令,从而对集群造成破坏。漏洞影响 ...

从OSS迁移数据

建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache&Hadoop& 2.7.3,修改Hadoop&配置信息,详情参见 使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop集群安装OSS客户端...

在文件存储 HDFS 版上使用Presto

建议您使用的Hadoop版本不低于2.7.2,本文档中使用的Hadoop版本为Apache Hadoop 2.8.5。已在集群中安装Hive。本文使用的Hive版本为2.3.7。已 下载Presto安装包 和presto-cli-xxx-executable.jar。本文使用的Presto版本为0.265.1。背景信息 ...
共有32条 < 1 2 3 4 ... 32 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台E-MapReduce 云呼叫中心 弹性公网 IP 短信服务 人工智能平台 PAI 阿里云物联网平台
新人特惠 爆款特惠 最新活动 免费试用