环境准备

export HADOOP_HOME=data/hadoop/hadoop-2.6.0 export PATH=$PATH:$HADOOP_HOME/bin 下载及安装Hive环境 下载类型为bin.tar.gz的Hive安装包,具体下载路径请参见Hive安装包。按照如下示例解压安装包。mkdir/home/admin/hive-2.1.0$tar-zxvf...

文件存储HDFS和对象存储OSS双向数据迁移

对象存储OSS是海量、安全、低成本、高可靠的云存储服务,提供标准型、归档型等多种存储类型。您可以通过文件存储HDFS和对象存储OSS之间双向数据迁移,从而为热、温、冷数据合理分层,不但实现对热数据的高性能访问,更能有效控制存储成本。...

Lindorm文件引擎

org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider","spark.hadoop.dfs.ha.namenodes.<dfs.nameservices>nn1,nn2","spark.hadoop.dfs.namenode.rpc-address.<dfs.nameservices>nn1":"<dfs....

新增元数据表

注:表支持的数据格式 创建表时用户必须指定数据格式,参数示例如下 avro格式:table.Parameters:{"classification":"avro"} table.Sd:"InputFormat":"org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat""OutputFormat":"org....

测试方法

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。您可以按照本文介绍自行测试对比,快速了解云原生数据湖分析(DLA)Spark引擎的性价比数据。...

添加Hadoop类型的公共节点

Hadoop类型的离线数据节点,运行于Hadoop类型的云计算资源,支持对Hive、Hbase和Phoenix等类型的数据进行处理。前提条件已创建逻辑表,更多请参见手动新建逻辑表。已添加Hadoop类型云计算资源。推荐您预先准备好算法文件或者脚本。背景信息...

Spark访问OSS

以AccessKey ID和AccessKey Secret方式访问OSS,需要明文将AccessKey ID和AccessKey Secret写在配置中,存在一定的安全风险。因此建议您以StsToken的方式访问OSS。单击一键授权,将当前云账号的OSS资源通过StsToken的方式授权给MaxCompute...

解决方案架构与核心产品

阿里云平台提供成熟的Elasticsearch及E-MapReduce服务,相较于使用开源Elasticsearch和分布式计算平台来自建搜索和计算环境,使用阿里云服务有以下优势:基于阿里云E-MapReduce和阿里云Elasticsearch,通过ES-Hadoop连通Hadoop生态系统和...

Hadoop数据迁移MaxCompute最佳实践

本文使用的EMR Hadoop版本信息如下:EMR版本:EMR-3.11.0 集群类型:HADOOP 软件信息:HDFS2.7.2/YARN2.7.2/Hive2.3.3/Ganglia3.7.2/Spark2.2.1/HUE4.1.0/Zeppelin0.7.3/Tez0.9.1/Sqoop1.4.6/Pig0.14.0/ApacheDS2.0.0/Knox0.13.0 Hadoop...

实例类型

例如:主实例节点(Master):部署Hadoop HDFS的NameNode服务、Hadoop YARN的ResourceManager服务。核心实例节点(Core):部署DataNode服务、Hadoop YARN的NodeManager服务。计算实例节点(Task):只进行计算,部署Hadoop YARN的...

Hive

您可以前往ECS控制台-网络与安全-安全组按照专有网络(VPC)id搜索该VPC下的安全组,任意选择一个安全组id即可。如果您的Hive服务有白名单控制,需要您将交换机网段加入到您Hive服务的白名单中。如下图所示是给云Hbase-Spark集群添加交换机...

通过Spark Streaming作业处理Kafka数据

步骤一:创建Hadoop集群和Kafka集群 创建同一个安全组下的Hadoop和Kafka集群。创建详情请参见创建集群。登录阿里云E-MapReduce控制台。创建Hadoop集群。创建Kafka集群。步骤二:获取JAR包并上传到Hadoop集群 获取JAR包(examples-1.2.0-...

Hadoop数据迁移MaxCompute最佳实践

本文使用的EMR Hadoop版本信息如下:EMR版本:EMR-3.11.0 集群类型:HADOOP 软件信息:HDFS2.7.2/YARN2.7.2/Hive2.3.3/Ganglia3.7.2/Spark2.2.1/HUE4.1.0/Zeppelin0.7.3/Tez0.9.1/Sqoop1.4.6/Pig0.14.0/ApacheDS2.0.0/Knox0.13.0 Hadoop...

使用JindoFS SDK免密功能

前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

E-MapReduce数据迁移

cp~/aliyun-sdk-dfs-1.0.2-beta.jar/opt/apps/ecm/service/hadoop/2.8.5-1.3.1/package/hadoop-2.8.5-1.3.1/share/hadoop/hdfs/在E-MapReduce服务中,对应的路径为/opt/apps/ecm/service/hadoop/x.x.x-x.x.x/package/hadoop-x.x.x-x.x.x/...

操作示例

基于阿里云Elasticsearch和E-MapReduce,通过ES-Hadoop可直接将数据写入阿里云Elasticsearch,操作时需有以下步骤:开通服务 本示例需要用到的阿里云产品有:专有网络VPC:在公网访问推送数据安全性较差,为保证阿里云Elasticsearch访问...

CDH6数据迁移

背景信息 CDH(Cloudera's Distribution,including Apache Hadoop)是众多 Hadoop 发行版本中的一种,您可以使用文件存储HDFS替换CDH6原有的本地HDFS服务,通过CDH6+文件存储HDFS实现大数据计算在云上的存储与计算分离,应对灵活多变的业务...

使用Hive访问

HADOOP_HOME/bin/hadoop fs-ls/user/hive/warehouse$HADOOP_HOME/bin/hadoop fs-ls/tmp/hive$HADOOP_HOME/bin/hadoop fs-chmod 775/user/hive/warehouse$HADOOP_HOME/bin/hadoop fs-chmod 775/tmp/hive修改io.tmpdir路径同时要修改hive-...

使用JindoFS SDK免密功能

前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用JindoFS SDK免密功能

前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用JindoFS SDK免密功能

前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用JindoFS SDK免密功能

前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用JindoFS SDK免密功能

前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用JindoFS SDK免密功能

前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用JindoFS SDK免密功能

前提条件 适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息 使用JindoFS SDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

文件存储HDFS

您可以像在Hadoop分布式文件系统(Hadoop Distributed File System)中管理和访问数据那样使用文件存储HDFS。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式...

通过Hive作业处理TableStore数据

hadoop-lzo-X.X.X-SNAPSHOT.jar 登录Hadoop集群的emr-header-1主机,在/opt/apps/ecm/service/hadoop/x.x.x-x.x.x/package/hadoop-x.x.x-x.x.x/lib/下获取JAR包。hive-exec-X.X.X.jar 登录Hadoop集群的emr-header-1主机,在/opt/apps/ecm/...

挂载文件系统

您可以下载文件存储HDFS文件系统SDK的JAR文件aliyun-sdk-dfs-x.y.z.jar,将其部署在Hadoop生态系统组件的CLASSPATH上,推荐将其部署到hadoop-common-X.YZ.jar所在的目录内。说明 Hadoop版本不低于2.7.2。例如,对于Spark 2.3.0,解压后的...

配置CDH6使用文件存储HDFS

logs.db/original_log_bj_partitioned|-1|org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat|25|44|14|org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat|hdfs:/hadoop9:8020/user/hive/warehouse/analysis_...

文件存储HDFS

您可以像在Hadoop分布式文件系统(Hadoop Distributed File System)中管理和访问数据那样使用文件存储HDFS。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式...

数据上云场景

使用DataWorks结合DataX进行Hadoop数据迁移的示例请参见Hadoop数据迁移新手教程,或参见视频教程Hadoop数据迁移到MaxCompute最佳实践。Sqoop执行时,会在原来的Hadoop集群上执行MR作业,可以分布式地将数据传输到MaxCompute上,详情请参见...

创建并使用EMR MR节点

前提条件 您已创建阿里云EMR集群,且集群所在的安全组中入方向的安全策略包含以下策略。授权策略:允许 协议类型:自定义 TCP 端口范围:8898/8898 授权对象:100.104.0.0/16 您在工作空间配置页面添加E-MapReduce计算引擎实例后,当前页面...

参数说明

本文介绍Hadoop代码中的参数。Hadoop代码中可使用如下参数配置。属性名 默认值 说明 fs.jfs.cache.oss-accessKeyId 无 访问OSS所需的AccessKey ID(可选)。fs.jfs.cache.oss-accessKeySecret 无 访问OSS所需的AccessKey Secret(可选)。...

UpgradeMinorVersion

Components String 是 HADOOP 要升级的组件名称,多个组件中间逗号隔开。返回数据 名称 类型 示例值 描述 RequestId String 7B8EC240-BB13-4DBC-B955-F90170E82609 请求ID。UpgradingComponents String HADOOP 成功升级的组件。示例 请求...

使用RocksDB作为元数据后端

对比文件数量一致[hadoop@emr-header-1~]$hadoop fs-count jfs:/test/1596 1482809 25 jfs:/test/文件可正常读取(cat、get命令)[hadoop@emr-header-1~]$hadoop fs-cat jfs:/test/testfile this is a test file#查看目录[hadoop@emr-header-...

使用RocksDB作为元数据后端

对比文件数量一致[hadoop@emr-header-1~]$hadoop fs-count jfs:/test/1596 1482809 25 jfs:/test/文件可正常读取(cat、get命令)[hadoop@emr-header-1~]$hadoop fs-cat jfs:/test/testfile this is a test file#查看目录[hadoop@emr-header-...

使用RocksDB作为元数据后端

对比文件数量一致[hadoop@emr-header-1~]$hadoop fs-count jfs:/test/1596 1482809 25 jfs:/test/文件可正常读取(cat、get命令)[hadoop@emr-header-1~]$hadoop fs-cat jfs:/test/testfile this is a test file#查看目录[hadoop@emr-header-...

使用RocksDB作为元数据后端

对比文件数量一致[hadoop@emr-header-1~]$hadoop fs-count jfs:/test/1596 1482809 25 jfs:/test/文件可正常读取(cat、get命令)[hadoop@emr-header-1~]$hadoop fs-cat jfs:/test/testfile this is a test file#查看目录[hadoop@emr-header-...

使用RocksDB作为元数据后端

对比文件数量一致[hadoop@emr-header-1~]$hadoop fs-count jfs:/test/1596 1482809 25 jfs:/test/文件可正常读取(cat、get命令)[hadoop@emr-header-1~]$hadoop fs-cat jfs:/test/testfile this is a test file#查看目录[hadoop@emr-header-...

使用RocksDB作为元数据后端

对比文件数量一致[hadoop@emr-header-1~]$hadoop fs-count jfs:/test/1596 1482809 25 jfs:/test/文件可正常读取(cat、get命令)[hadoop@emr-header-1~]$hadoop fs-cat jfs:/test/testfile this is a test file#查看目录[hadoop@emr-header-...
< 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 物联网无线连接服务 SSL证书 轻量应用服务器 商标 对象存储
这些文档可能帮助您
SSL证书安装指南 提交证书申请 安装PFX格式证书 什么是E-MapReduce 什么是内容安全 什么是SSL证书服务

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折