Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务。如何开通,请参见开通云原生数据湖分析服务。您已登录云原生数据库分析DLA控制...

Sqoop概述

Sqoop是一款Apache社区的开源软件,支持在Hadoop生态软件和结构化数据集(例如数据库)之间进行高效的批量数据传输。背景信息 常见数据传输场景如下:将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive ...

Sqoop作业配置

本文介绍如何配置Sqoop类型的作业。前提条件 已创建好项目,详情请参见项目管理。使用限制 EMR-1.3.0及后续版本支持Sqoop作业类型。在低版本集群上运行Sqoop作业会失败,errlog会报不支持的错误。参数详情请参见Sqoop。...

Sqoop常见问题

本文汇总了Sqoop使用时的常见问题。导入RDS数据至EMR时,时间字段显示延迟8小时如何处理?问题描述: 例如,在云数据库RDS数据源中,数据表Test_Table中包含时间戳(TIMESTAMP)字段。您可以执行以下命令,导入Test_Table中的数据至HDFS。...

搭建Hadoop环境

o.B=.|=.oO.o o o|Eo.=o*S.|.+.+o.+|.+o.|.| [SHA256]-+执行以下命令,将公钥添加到authorized_keys文件中。cd.ssh cat id_rsa.pub>> authorized_keys 步骤五:启动Hadoop 执行以下命令,初始化namenode。hadoop namenode-format 依次执行...

Hadoop Streaming

本文为您介绍如何使用Python提交Hadoop Streaming作业。前提条件 已在E-MapReduce控制台上创建Hadoop集群。创建集群详情,请参见创建集群。操作步骤 通过SSH方式连接集群,详情请参见使用SSH连接主节点。新建文件mapper.py。...

Hadoop生态外表联邦分析

云原生数据仓库 AnalyticDB PostgreSQL(简称 ADB PG)支持访问 Hadoop 生态的外部数据源。说明 本特性只支持存储弹性模式实例,且需要ADB PG实例和目标访问的外部数据源处于同一个VPC网络。2020年9月6日前申请的存量存储弹性模式实例,...

更换Hadoop集群损坏的本地盘

使用由本地盘机型(i系列和d系列)构建的E-MapReduce(简称EMR)集群时,您可能会收到本地盘受损事件的通知。本文为您介绍如何更换Hadoop集群中损坏的本地盘。注意事项 整个换盘包括服务停止、卸载磁盘、挂载新盘和服务重启等操作,磁盘的...

Hadoop DistCp介绍

Hadoop DistCp(分布式复制)是一个用于大型集群间或集群内数据复制的工具,通过MapReduce实现复制过程中数据的分发、错误处理、恢复及报告。本文为您介绍Hadoop DistCp与Jindo DistCp的区别、Hadoop DistCp使用方法以及常见问题。...

SetStudioProjectCooperation

说明 ...调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 SetStudioProjectCooperation 系统规定...

配置弹性伸缩(仅Hadoop集群类型)

当您的业务量需求不断波动时,建议您开启弹性伸缩功能并配置相应的伸缩规则,以便于E-MapReduce(简称EMR)可以按业务量波动增加或减少Task节点。确保作业完成的同时,可以节省成本。本文为您介绍如何在EMR控制台配置弹性伸缩。...

开通EMR Doctor(Hadoop集群类型)

E-MapReduce(简称EMR)新版数据湖(DataLake)、数据服务(DataServing)和自定义业务场景下的集群默认提供EMR Doctor服务,如果您使用的是数据湖场景下的Hadoop集群类型(EMR-3.41.0之前版本、EMR 4.x版本、EMR-5.6.0之前版本),则需要...

迁移Hadoop文件系统数据至JindoFS

本文以OSS为例,介绍如何将Hadoop文件系统上的数据迁移至JindoFS。迁移数据 Hadoop FsShell 对于文件较少或者数据量较小的场景,可以直接使用Hadoop的FsShell进行同步:hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs...

Teamtnt变种攻击Hadoop集群

阿里云安全监测到Teamtnt变种,除了沿用之前攻击手法,最新利用了Hadoop Yarn未授权访问漏洞进行传播,同时使用多个域名和IP确保恶意文件落地,对脚本进行二进制化封装以对抗主机端检测。概述 Hadoop作为一个分布式计算应用框架,种类功能...

Hadoop数据迁移MaxCompute最佳实践

本文为您介绍如何通过DataWorks数据同步功能,迁移HDFS数据至MaxCompute,或从MaxCompute迁移数据至HDFS。无论您使用Hadoop还是Spark,均可以与MaxCompute进行双向同步。前提条件 开通MaxCompute并创建项目。本文以在华东1(杭州)地域创建...

Hadoop MapReduce作业配置

本文介绍如何配置Hadoop MapReduce类型的作业。前提条件 已创建好项目,详情请参见项目管理。操作步骤 进入数据开发的项目列表页面。...在顶部菜单栏处,根据实际情况选择地域和资源组。单击上方的数据开发页签。单击待编辑项目所在行的作业...

Sqoop以EMR集群的方式读写OSS-HDFS服务的数据

本文介绍Sqoop如何以EMR集群的方式读写OSS-HDFS服务的数据。前提条件 已创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。具体步骤,请参见创建集群。已开通并授权访问OSS-HDFS服务。具体操作,请参见开通并授权访问OSS-HDFS服务。...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。...

查看弹性伸缩记录(仅Hadoop集群类型)

本文为您介绍在弹性伸缩执行完成后,如何查看弹性伸缩活动的执行记录。前提条件集群已进行弹性伸缩的相关配置。操作步骤进入弹性伸缩页面。登录EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域和资源组。在集群管理页面,单击目标...

通过Hadoop Shell命令访问OSS/OSS-HDFS

本文为您介绍如何通过Hadoop Shell命令访问OSS和OSS-HDFS。环境准备 EMR环境中,默认已安装JindoSDK,可以直接使用。说明 访问OSS-HDFS,需创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。非EMR环境,请先安装部署JindoSDK,详情请...

在EMR上使用Sqoop与数据库同步数据时的网络配置

如果您的E-MapReduce(EMR)集群需要和集群之外的数据库同步数据,确保网络是联通的。本文以RDS、ECS自建和云下私有数据库三种情况为例,分别介绍如何配置网络。云数据库RDS Sqoop是用map任务同步数据,可以在任意节点上运行,而Sqoop任务...

自建Hadoop使用JindoSDK访问OSS-HDFS服务

OSS-HDFS服务是一款云原生数据湖存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。本文介绍自建Hadoop如何通过JindoSDK访问OSS-HDFS服务...

开启或关闭弹性伸缩(仅Hadoop集群类型)

当您的业务量需求不断波动时,建议您配置相应的伸缩规则并开启弹性伸缩功能,以使E-MapReduce可以按业务量波动来增加或减少Task节点。当您需要更改实例配置或者当您的业务量需求趋于稳定时,您可以关闭弹性伸缩功能。本文为您介绍如何开启...

【威胁情报】Hadoop Yarn REST API未授权访问攻击

阿里云云防火墙可防护Hadoop Yarn REST API未授权访问攻击。Hadoop是一款由Apache基金会推出的分布式系统框架,通过MapReduce算法进行分布式处理。Yarn是Hadoop集群的资源管理系统存在漏洞的主机,攻击者无需认证即可通过REST ...

Dataphin中执行hadoop fs-ls命令方法

概述 Dataphin中执行hadoop fs-ls命令的方法。详细信息 创建HADOOP_MR任务,可以执行hadoop fs-ls/命令。适用于 Dataphin

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

管理节点组(Hadoop、Data science和EMR Studio集群)

本文为您介绍如何新增、修改和删除节点组。背景信息 您可以新增节点组,以满足不同实例节点的需求。例如,内存型实例节点(vCore:vMem=1 vCPU:8 GiB)用于大数据离线处理,计算型实例(vCore:vMem=1 vCPU:2 GiB)用于模型训练。...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

Spark是一种通用的大数据计算框架,拥有Hadoop MapReduce所具有的计算优点,能够通过内存缓存数据为大型数据集提供快速的迭代功能。与MapReduce相比,减少了中间数据读取磁盘的过程,进而提高了处理能力。本文介绍如何通过ES-Hadoop实现...

通过DataWorks将Hadoop数据同步至Elasticsearch

当您基于Hadoop进行交互式大数据分析查询,遇到查询延迟的问题时,可以将数据同步至阿里云Elasticsearch中再进行查询分析。Elasticsearch对于多种查询类型,特别是即席查询(Ad Hoc),基本可以达到秒级响应。本文介绍如何通过DataWorks的...

Dataphin计算引擎是Hadoop,数据资产中物理表分区信息...

问题描述 Dataphin计算引擎是Hadoop,数据资产中物理表分区信息记录数和存储量为0。问题原因 Hadoop通过集成工具同步过来的表,目前没法支持数据量和行数。解决方案 如果客户想知道单表的数据存储量,方法如下:1. Hive里执行analyze命令,...

Hadoop Yarn RPC 0 Day在野利用分析与传播手段披露

阿里云安全监测到Kinsing僵尸网络变种,该僵尸网络除了沿用之前攻击手法,最新利用了Hadoop Yarn RPC未授权访问漏洞进行传播。概述 Hadoop Yarn是Hadoop的核心组件之一。Hadoop Yarn RPC未授权访问使得攻击者无需认证即可通过RPC通信执行...

P3C代码扫描

Java 规约扫描是阿里巴巴多年经验提炼的 Java规范-包含7大类 Java 代码规则 命名规约 注释规范 集合 OOP 规约 并发处理 控制语句 其他。如果未做扫描配置,默认会对所有规则进行扫描,也可以在规约扫描组件配置。

代码扫描能力

支持语言和规则目前飞流支持扫描的语言和规则,如下表所示:语言扫描能力规则说明Java阿里巴巴规约扫描根据阿里巴巴多年经验提炼的总共7大类Java代码规则,包括:1)OOP规约 2)并发处理 3)控制语句4)命名规约 5)常量定义 6)注释规范 7...

Flow使用高阶帮助

支持扫描的语言和规则,如下表所示:语言扫描能力规则说明Java阿里巴巴规约扫描根据阿里巴巴多年经验提炼的总共7大类Java代码规则,包括:1)OOP规约 2) 并发处理 3)控制语句4)命名规约 5)常量定义 6)注释规范 7) 其他。如果未做扫描...

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述 本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

ListTaskFlowCooperators-获取任务流相关人列表

获取任务流相关人列表。调试您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试调试授权信息下表是API对应的授权信息,可以在RAM权限策略语句的Action元素中...
共有3条 < 1 2 3 >
跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用