从自建HDFS迁移数据

本章介绍如何将在开源HDFS的数据平滑地迁移到Lindorm的文件引擎中。背景介绍在某些场景下面,我们需要从自建的Hadoop中存储的数据迁移到Lindrom的文件引擎当中。适用范围阿里云ECS自建Hadoop集群中的数据迁移到文件引擎。准备工作开通文件...

文件存储 HDFS

文件存储HDFS允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System)中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统...

行业背景

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,核心组件有HDFS和MapReduce,分别提供海量数据存储和海量数据计算。ES-Hadoop(Elasticsearch for Apache Hadoop)是一个用于Elasticsearch和Hadoop进行交互的开源独立库,在Hadoop...

测试环境

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求 测试环境总体要求:自...

数据上云场景

使用DataWorks结合DataX进行Hadoop数据迁移的示例请参见Hadoop数据迁移新手教程,或参见视频教程Hadoop数据迁移到MaxCompute最佳实践。Sqoop执行时,会在原来的Hadoop集群上执行MR作业,可以分布式地将数据传输到MaxCompute上,详情请参见...

迁移开源HDFS的数据到文件存储HDFS

文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许您在云上就像在Hadoop分布式文件系统中管理和访问数据。适用范围 非阿里云Hadoop集群中的数据迁移到文件存储HDFS。阿里云ECS自建Hadoop集群中的数据迁移到文件存储HDFS。准备...

概述

核心场景 HDR-BD 的核心场景包括跨集群数据湖、Hadoop 集群双活容灾、Hadoop 数据实时云备份。跨集群数据湖 在多个 Hadoop 集群之间建立实时双向复制,使数据在多个集群之间无缝流动,而且可以根据不同集群的角色,制订数据复制规则。...

使用Flink访问

export HADOOP_HOME=usr/local/hadoop-2.7.3 export HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/...

从OSS迁移数据

本章节介绍如何将对象存储OSS上的数据迁移到文件引擎。准备工作开通文件引擎,详情请参见 开通指南。搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见...

解决方案架构与核心产品

MapReduce服务,相较于使用开源Elasticsearch和分布式计算平台来自建搜索和计算环境,使用阿里云服务有以下优势:基于阿里云E-MapReduce和阿里云Elasticsearch,通过ES-Hadoop连通Hadoop生态系统和Elasticsearch,典型架构如下所示。...

开源兼容MapReduce

Hadoop用户如果要将原来的Hadoop MapReduce作业迁移到MaxCompute的MapReduce中执行,需要重写MapReduce的代码,使用MaxCompute的接口进行编译和调试,运行正常后再打成一个Jar包,才能放到MaxCompute平台中运行。这个过程十分繁琐,需要...

使用Spark访问

export HADOOP_HOME=usr/local/hadoop-2.7.3 export HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/...

操作步骤

云原生数据仓库AnalyticDB MySQL版支持通过DLA导入Hadoop数据。本文介绍相关操作步骤。前提条件 1.配置网络环境 DLA服务可购买在您的Hadoop或AnalyticDB MySQL的任意VPC内,故配置他们之间连通性首先需要将Hadoop和AnalyticDB MySQL的VPC...

Hadoop环境安全加固

它提供了一系列的工具,可以用来进行数据的提取转化加载(ETL),是一种可以存储、查询和分析存储在 Hadoop 中的规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,HQL 语言也允许熟悉...

安装

wordcount样例 bin/hadoop jar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount inputDir outputDir grep样例 bin/hadoop jar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep inputDir/...

常用文件路径

HADOOP_LOG_DIR=var/log/hadoop-hdfs HADOOP_HOME=usr/lib/hadoop-current YARN_PID_DIR=usr/lib/hadoop-current/pids HADOOP_PID_DIR=usr/lib/hadoop-current/pids HADOOP_MAPRED_PID_DIR=usr/lib/hadoop-current/pids JAVA_LIBRARY_PATH=...

Hadoop MapReduce作业配置

path/to/hadoop-mapreduce-client-jobclient-2.6.0-tests.jar sleep-m 3-r 3-mt 100-rt 100 说明 您也可以单击下方的+插入OSS路径,选择文件前缀为OSSREF,从文件路径中进行浏览和选择,系统会自动补齐OSS上Hadoop MapReduce脚本的路径。...

使用E-Mapreduce访问

背景信息阿里云E-MapReduce是构建在阿里云云服务器ECS上的开源Hadoop、Spark、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。E-...

Hadoop数据迁移MaxCompute最佳实践

本文为您介绍如何通过DataWorks数据同步功能,迁移HDFS数据至MaxCompute,或从MaxCompute迁移数据至HDFS。无论您使用Hadoop还是Spark,均可以与MaxCompute进行双向同步。前提条件 开通MaxCompute并创建项目 本文以在华东1(杭州)区域创建...

测试结果

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要展示了开源自建Spark和DLA Spark在3种测试场景下的测试结果及性能对比分析。1 TB...

概述

增大151.7%3.02GB AVRO Hadoop生态格式的数据数据部分遗留系统产生。增大8.3%1.3GB RCFile Hadoop生态格式的数据数据部分遗留系统产生。减少2.5%1.17GB Parquet Hadoop生态格式的数据数据采用高性能的列存储格式,提升数据...

Hadoop

前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务,详情请参见开通云原生数据湖分析服务并在云原生数据湖分析DLA控制台上创建了Spark虚拟集群 您已开通对象存储OSS(Object Storage Service)服务,详情请参见开通OSS服务。...

测试方法

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。您可以按照本文介绍自行测试对比,快速了解云原生数据湖分析(DLA)Spark引擎的性价比数据。...

常见命令

您可以在已经创建好的E-MapReduce(简称EMR)集群中,直接使用hadoop fs命令来对HDFS中的文件进行操作。本文为您介绍HDFS的常见命令。前提条件 已创建集群,详情请参见创建集群。已登录集群,详情请参见登录集群。背景信息 HDFS常见命令...

在文件存储HDFS上使用Presto

rm-f/usr/local/presto-server-0.227/plugin/raptor/hadoop-apache2-2.7.4-5.jar/usr/local/presto-server-0.227/plugin/accumulo/hadoop-apache2-2.7.4-5.jar/usr/local/presto-server-0.227/plugin/hive-hadoop2/hadoop-apache2-2.7.4-5....

在文件存储HDFS上使用Apache Spark

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/common/*:/usr/local/hadoop-2.7.2/...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。...架构图 方案详情 请参见阿里云自建Hadoop数据迁移到阿里云E-MapReduce。icmsDocProps={'productMethod':'created','language':'zh-CN',};

开源地理空间UDF

本文为您介绍如何使用开源地理空间UDF分析空间数据。前提条件 请确认您已完成以下操作:已安装Git。已安装Maven并设置环境变量。已安装MaxCompute客户端。更多安装MaxCompute客户端信息,请参见安装并配置MaxCompute客户端。背景信息 ...

常见问题排查

例如hadoop命令行或者任务出现如下错误时,表明org/apache/hadoop/fs/PathFilter相关的类未在hadoop的运行环境中,该类所属的jar包为hadoop-common-x.x.x.jar,需要用户下载该jar包的正确版本,并将其置于所有hadoop节点的hadoop运行环境的...

什么是E-MapReduce

阿里云E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。简介 EMR构建于云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。...

Hadoop Streaming

hadoop jar/usr/lib/hadoop-current/share/hadoop/tools/lib/hadoop-streaming-X.X.X.jar-file/home/hadoop/mapper.py-mapper mapper.py-file/home/hadoop/reducer.py-reducer reducer.py-input/tmp/hosts-output/tmp/output 参数 描述 ...

迁移Hadoop文件系统数据至JindoFS

本文以OSS为例,介绍如何将Hadoop文件系统上的数据迁移至JindoFS。迁移数据 Hadoop FsShell 对于文件较少或者数据量较小的场景,可以直接使用Hadoop的FsShell进行同步:hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

数据迁移

迁移Hadoop数据至MaxCompute,详情请参见迁移Hadoop数据至MaxCompute、迁移Hadoop数据至MaxCompute最佳实践(视频)。数据迁移和脚本迁移遇到的问题及解决方案请参见迁移自建Hadoop数据至MaxCompute实践。迁移Oracle数据至MaxCompute,详情...

在文件存储HDFS上使用Apache Flink

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行如下命令使配置...

基于Delta Lake或Hudi存储机制实现湖仓一体

Delta Lake和Hudi是数据湖方案中常用的存储机制,为数据湖提供流处理、批处理能力。MaxCompute基于阿里云DLF、RDS、OSS产品提供了支持Delta或Hudi存储机制的湖仓一体架构。您可以通过MaxCompute查询到实时数据,即时洞察业务数据变化。本文...

通过HDP 2.6 Hadoop读取和写入OSS数据

HDP(Hortonworks Data Platform)是由Hortonworks发行的大数据平台,包含了Hadoop、Hive、HBase等开源组件。HDP最新版本3.0.1中的Hadoop 3.1.1版本已经支持OSS,但是低版本的HDP不支持OSS。本文以HDP2.6.1.0版本为例,介绍如何配置HDP2.6...

新增元数据表

新增数据湖的元数据表 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 ...

集群吞吐性能测试

TestDFSIO的jar包位于开源hadoop版本的$HADOOP_HOME/share/hadoop/mapreduce目录下,其中$HADOOP_HOME为测试机器中的Hadoop 安装目录,jar包名为hadoop-mapreduce-client-jobclient-x.x.x-tests.jar,TestDFSIO使用方法如下所示。...

使用MapReduce处理JindoFS上的数据

替换输出路径,可以把数据输出到JindoFS上:hadoop jar/usr/lib/hadoop-current/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen 100000 jfs:/emr-jfs/teragen_data_0 Terasort数据生成样例 Terasort是Example中数据排序...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折