迁移开源HDFS的数据到文件存储HDFS

如果您目前的Hadoop集群是搭建在阿里云VPC网络上的阿里云ECS集群,则无需在阿里云ECS上创建新的Hadoop集群。创建和挂载文件系统至阿里云ECS上的Hadoop集群,并将文件存储HDFS设置为fs.defaultFS,详情请参见文件存储HDFS快速入门。验证文件...

从自建HDFS迁移数据

自建Hadoop集群数据迁移阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时,可以直接通过VPC网络迁移数据到文件引擎。迁移命令如下所示:hadoop distcp-m 1000-bandwidth 30 hdfs:/oldcluster:8020/user/hive/warehouse hdfs:/${...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

概述

混合云大数据容灾(英文 HDR for Big Data,简称 HDR-BD)是针对 Hadoop 集群的灾备方案。说明 目前 HDR-BD 正在邀测,您可以到混合云容灾服务控制台中注册,我们会评估后尽早联系您。您也可以联系阿里云 CBM 获取邀测资格。HDR-BD 在邀测...

通过Spark Streaming作业处理Kafka数据

步骤一:创建Hadoop集群和Kafka集群 创建同一个安全组下的Hadoop和Kafka集群。创建详情请参见创建集群。登录阿里云E-MapReduce控制台。创建Hadoop集群。创建Kafka集群。步骤二:获取JAR包并上传到Hadoop集群 获取JAR包(examples-1.2.0-...

通过Hive作业处理TableStore数据

步骤一:创建Hadoop集群 登录阿里云E-MapReduce控制台。创建Hadoop集群,详情请参见创建集群。步骤二:获取JAR包并上传到Hadoop集群 获取环境依赖的JAR包。JAR包 获取方法 emr-tablestore-X.X.X.jar Maven库中下载:emr-tablestore。hadoop...

Spark对接Kafka

本文介绍如何在E-MapReduce的Hadoop集群运行Spark Streaming作业,处理Kafka集群的数据。背景信息 因为E-MapReduce上的Hadoop集群和Kafka集群都是基于纯开源软件,所以在编程使用上参见相应官方文档即可。Spark官方文档:streaming-kafka-...

准备工作

当阿里云E-MapReduce的Hadoop集群在VPC中时,请确保已绑定表格存储的实例和E-MapReduce的Hadoop集群所在的VPC,详情请参见(可选)绑定VPC。已开通DataV服务并制作大屏,详情请参见开通DataV服务。数据准备 产品 数据收集 说明 E-MapReduce...

使用Druid

如果Hadoop集群HA集群,emr-header-1.cluster-xxxxx:9000需要改成emr-cluster,或者把端口9000改成8020。配置OSS作为E-MapReduce Druid的Deep Storage。在E-MapReduce Druid配置页面的common.runtime页签,配置如下参数。参数 描述 druid...

操作步骤

源端Hadoop集群信息 yarn_queue:Hadoop集群yarn队列名。fs.defaultFS:HDOOP_CONF_DIR。DLA无法自动获取用户Hadoop集群上HDOOP_CONF_DIR中的配置,所以需要您自行配置读取Hadoop相关的参数。分两种情况: 非高可用节点:提供绝对路径名...

新增机器组

前提条件 已创建Hadoop集群,详情请参见创建集群。背景信息 您可以新增机器组,以满足不同实例节点的需求。例如,内存型实例节点(vCore:vMem=1 vCPU:8 GiB)用于大数据离线处理,计算型实例(vCore:vMem=1 vCPU:2 GiB)用于模型训练。注意...

什么是E-MapReduce

阿里云E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。简介 EMR构建于云服务器ECS上,基于开源的Apache Hadoop和Apache ...您需要先创建Hadoop集群,然后创建Gateway集群关联至Hadoop集群

使用Fuse-DFS挂载文件存储HDFS

Hadoop集群中配置文件存储HDFS实例,详情请参见挂载文件系统。下载与Hadoop集群版本相同的Hadoop源码包。下载地址:官方链接。配置Fuse-DFS 本操作步骤需要在待挂载文件存储HDFS的Hadoop集群节点上执行。安装依赖包。yum-y install fuse ...

Gateway节点运行Flume进行数据同步

在Gateway节点运行Flume可以避免对E-MapReduce Hadoop集群产生影响。使用Gateway节点部署Flume Agent的基本数据流如下图所示。环境准备 本示例在华北1(杭州)进行测试,版本选择EMR-3.17.0。创建Hadoop集群,在可选服务中选择Flume。创建...

同步EMR Kafka数据至HBase

Kafka集群的数据至EMR Hadoop集群的HBase。前提条件 已创建Hadoop集群,并且选择了Flume和HBase服务,详情请参见创建集群。说明 Flume软件安装目录在/usr/lib/flume-current下,其他常用文件路径获取方式请参见常用文件路径。已创建Kafka...

测试环境

TB,但由于考虑到Hadoop集群的本地盘通常不能占满,为了与自建Hadoop进行对比测试,采用的OSS存储空间为30 TB。场景三:1 TB测试数据下DLA Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比场景说明:使用自建Spark和DLA Spark分别访问...

同步EMR Kafka数据至HDFS

Kafka集群的数据至EMR Hadoop集群的HDFS。前提条件 已创建Hadoop集群,并且选择了Flume服务,详情请参见创建集群。说明 Flume软件安装目录在/usr/lib/flume-current下,其他常用文件路径获取方式请参见常用文件路径。已创建Kafka集群,详情...

同步EMR Kafka数据至Hive

Kafka集群的数据至EMR Hadoop集群的Hive。前提条件 已创建Hadoop集群,并且选择了Flume服务,详情请参见创建集群。说明 Flume软件安装目录在/usr/lib/flume-current下,其他常用文件路径获取方式请参见常用文件路径。已创建Kafka集群,详情...

Hadoop数据迁移MaxCompute最佳实践

Hadoop集群而言,如果Hadoop集群HA集群,则此处地址为hdfs:/emr-header-1的IP:8020。如果Hadoop集群为非HA集群,则此处地址为hdfs:/emr-header-1的IP:9000。本实验中的emr-header-1与DataWorks通过公网连接,因此此处填写公网IP并放通...

Hadoop数据迁移MaxCompute最佳实践

Hadoop集群而言,如果Hadoop集群HA集群,则此处地址为hdfs:/emr-header-1的IP:8020。如果Hadoop集群为非HA集群,则此处地址为hdfs:/emr-header-1的IP:9000。本实验中的emr-header-1与DataWorks通过公网连接,因此此处填写公网IP并放通...

从OSS迁移数据

搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop集群...

自建Hive数据仓库迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。方案优势 易用性 您可以简单选择所需ECS机型(CPU、...

数据源

本文将解答与数据源相关的问题 Q:Databricks数据洞察的支持哪些数据源?目前支持读写阿里云对象存储(OSS)的数据。Q:是否支持当前的DDI集群访问其他集群的HDFS数据?支持访问同账号下的EMR Hadoop集群上的HDFS数据。

什么是混合云容灾服务

混合云容灾服务HDR(Hybrid Disaster Recovery)是一个为您的数据中心提供企业级应用的本地...Hadoop集群容灾(公测中):解决Hadoop集群数据的实时容灾复制、跨集群大数据湖建设及Hadoop备份等问题,实现大数据集群间的近0 RPO实时双向复制。

入门概述

本教程指引您通过阿里云账号登录E-MapReduce控制台,使用一键购买,快速创建一个Hadoop集群并执行作业。本教程包含以下操作:准备工作 创建集群 创建并运行作业 常用文件的安装路径,请参见常用文件路径。

云数据库专属集群 MyBase

云数据库专属集群 MyBase 是由多台主机(底层服务器,如ECS I2服务器、神龙服务器)组成的集群,相对于全托管数据库,可以实现更灵活的资源调度、更强大的企业级数据库服务、更丰富的权限等。

测试结果

Spark+用户自建Hadoop集群与自建Hadoop+Spark性能对比结果 集群类型 运行Terasort基准测试耗时(min)DLA Spark+OSS 43.5 自建Hadoop+Spark 44.8 您可以将自建Hadoop和DLA Spark混合使用,自建Hadoop集群在高峰期需要更多的计算资源。DLA ...

【威胁情报】Hadoop Yarn REST API未授权访问攻击

Yarn是Hadoop集群的资源管理系统存在漏洞的主机,攻击者无需认证即可通过REST API部署任务来执行任意指令,最终完全控制服务器。2018年10月25日阿里云监控到大量利用Hadoop Yarn REST API未授权访问漏洞的攻击事件。攻击成功后,受控主机会...

通过DataWorks将Hadoop数据同步至Elasticsearch

Hadoop集群而言,如果Hadoop集群为非HA集群,则此处地址为hdfs:/emr-header-1的IP:9000。如果Hadoop集群HA集群,则此处地址为hdfs:/emr-header-1的IP:8020。在本文中,emr-header-1与DataWorks通过专有网络连接,因此此处填写内网IP。...

配置独立RDS

如果创建的是Hadoop集群,建议类型选择MySQL的5.7;系列选择高可用版。如果创建的是Data Development集群,类型需要选择MySQL的8.0。元数据库准备 创建hivemeta的数据库。详情请参见创建数据库和账号中的创建数据库。创建用户并授权读写...

文件存储 HDFS

文件存储HDFS允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System) 中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件...

集群类型

提供独立的分布式一致性锁服务,适用于大规模的Hadoop集群、HBase集群和Kafka集群。概述 DataScience 主要面向大数据+AI场景,提供Hive和Spark离线大数据ETL和TensorFlow模型训练,您可以选择CPU+GPU的异构计算框架,通过英伟达GPU对部分...

监控

监控(CloudMonitor) 是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于收集获取阿里云资源的监控指标,探测互联网服务可用性,以及针对指标设置警报。
来自: 首页 >云监控

Prometheus监控

阿里云Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供全面托管的Prometheus服务。

应用实时监控服务ARMS

应用实时监控服务ARMS(Application Real-Time Monitoring Service)是一款阿里云应用性能管理(APM)类监控产品。借助本产品,您可以基于前端、应用、业务自定义等维度,迅速便捷地为企业构建秒级响应的应用监控能力。

网络开通流程

MaxCompute支持通过外部表、UDF及湖仓一体等功能访问外网或VPC网络,需要先开通MaxCompute和目标IP或服务,如Hbase、RDS、Hadoop集群等连通目标的网络连接。本文主要为您介绍网络开通流程,其中部分环节需要通过工单联系技术支持人员处理。...

文件存储HDFS和对象存储OSS双向数据迁移

Hadoop集群中配置文件存储HDFS实例,详情请参见挂载文件系统。在Hadoop集群安装OSS客户端JindoFS SDK。JindoFS SDK详细介绍请参见JindoFS SDK。下载jindofs-sdk.jar。cp./jindofs-sdk-*.jar {HADOOP_HOME}/share/hadoop/hdfs/lib/jindofs...

Hadoop Streaming

前提条件 已在E-MapReduce控制台上创建Hadoop集群。创建集群详情,请参见创建集群。操作步骤 通过SSH方式连接集群,详情请参见使用SSH连接主节点。新建文件mapper.py。执行以下命令,打开文件mapper.py。vim/home/hadoop/mapper.py 按下i键...

配置Hive Metastore

网络连通后,Flink全托管就可以使用Hadoop集群的配置文件访问Hadoop集群。在OSS控制台新建文件夹,并将Hive配置文件和Hadoop依赖放置目标路径。登录OSS管理控制台。在左侧导航栏,单击Bucket列表。单击目标Bucket名称。在左侧导航栏,单击...

概述

YARN是Hadoop系统的核心组件,主要功能包括负责在Hadoop集群中的资源管理,负责对任务进行调度运行以及监控。背景信息 YARN架构图如下所示。YARN组件信息如下: ResourceManager:负责集群的资源管理与调度,为运行在YARN上的各种类型任务...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO

新品推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折

你可能感兴趣

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化

热门推荐

切换为移动版

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折