其他漏洞汇总说明

Apache Hadoop与Hadoop Yarn ResourceManager未授权访问漏洞 Apache Hadoop YARN ZKConfigurationStore反序列化代码执行漏洞(CVE-2021-25642)Apache Hadoop与Hadoop Yarn ResourceManager未授权访问漏洞 Hadoop是一款分布式基础架构,...

扩展插件列表

gp_paralell_retrieve_cursor:并行游标插件,与greenplum_fdw插件配合使用可以实现高速跨实例、跨库查询。具体信息,请参见 跨库查询 和 跨实例查询。tablefunc:表函数插件。具体信息,请参见 tablefunc。Zhparser:中文分词插件。具体...

使用JindoTable将Hive表和分区数据迁移到OSS/OSS-HDFS

已部署Hadoop与Hive环境。确保 hadoop classpath 能够返回合理结果。确保客户端环境变量$HIVE_HOME $HIVE_CONF_DIR 正确配置。配置MoveTo工具在HDFS下的锁目录 在Hadoop配置文件 core-site.xml 或 hdfs-site.xml(任选一个即可,在 ...

Multi-Master基础架构

PostgreSQL版 与Greenplum一样,使用了Single-Master架构。通常情况下,数据库实例中只有Main Master在工作,Standby Master节点作为高可用备份,当Main Master节点出现故障时,Standby Master才会切换成Main Master进行工作。随着业务的...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据

Spark是一种通用的大数据计算框架,拥有Hadoop MapReduce所具有的计算优点,能够通过内存缓存数据为大型数据集提供快速的迭代功能。MapReduce相比,减少了中间数据读取磁盘的过程,进而提高了处理能力。本文介绍如何通过ES-Hadoop实现...

搭建管理

当您通过MaxCompute与Hadoop构建湖仓一体时,Hadoop集群环境需开启高可用(HA)。具体详情,请咨询Hadoop集群运维人员。使用限制 仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)、中国香港、新加坡和德国...

MaxCompute湖仓一体概述

当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。使用限制 仅华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

使用Fuse-DFS挂载文件存储 HDFS 版

已下载与Hadoop集群版本相同的Hadoop源码包。具体下载地址请参见 下载Hadoop源码包。背景信息 Fuse-DFS是Hadoop项目自带的一个功能模块,提供了使用FUSE(用户空间中的文件系统)在UNIX文件系统上映射HDFS的功能,在官方提供的Hadoop预编译...

E-MapReduce弹性低成本离线大数据分析

Spark采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算等多种计算范式,能够与Hadoop很好地结合。Storm适用于处理高速、大型数据流的分布式实时计算,为Hadoop添加可靠的实时数据处理能力。海量离线数据分析...

在文件存储 HDFS 版上使用Apache HBase

已部署Apache HBase分布式集群,且版本必须与Hadoop版本兼容。具体操作,请参见 Apache HBase Reference Guide。本文使用Hadoop-2.10.1和HBase-2.3.7测试验证。更多信息,请参见 HBase官网Hadoop版本兼容性说明。说明 如果您使用的是CDH...

数据湖集群

与Hadoop集群的主要差异 模块 功能项 新版数据湖集群 Hadoop集群 集群 集群创建时间 平均时间小于5分钟。平均时间小于10分钟。集群节点组新增节点 平均时间小于3.5分钟。平均时间小于10分钟。开放API 支持。支持。域名支持 Private Zone。...

使用Druid

Druid集群,如果您需要存放索引数据至一个Hadoop集群的HDFS,请设置两个集群的连通性(详情请参见 与Hadoop集群交互)。在E-MapReduce Druid 配置 页面的 common.runtime 页签,配置如下参数。参数 描述 druid.storage.type 设置为 hdfs。...

Hadoop数据迁移MaxCompute最佳实践

由于MaxCompute项目所处的网络环境与Hadoop集群中的数据节点(data node)网络通常不可达,您可以通过自定义资源组的方式,将DataWorks的同步任务运行在Hadoop集群的Master节点上(Hadoop集群内Master节点和数据节点通常可达)。查看Hadoop...

MaxCompute湖仓一体

当MaxCompute与Hadoop平台所在的VPC区域网络开通后,MaxCompute可以直接访问Hive元数据服务,并将元数据信息映射到MaxCompute的外部项目(External Project)中。前提条件 在开始使用Dataphin管理通过MaxCompute与DLF和OSS构建的湖仓一体前...

OSS/OSS-HDFS快速入门

CLI命令访问OSS/OSS-HDFS的方式与Hadoop Shell方式类似。此外,还支持了更多的功能,比如归档、缓存、错误分析等,具体信息请参见 通过Jindo CLI命令访问OSS/OSS-HDFS。POSIX命令 mkdir-p/mnt/oss jindo-fuse/mnt/oss ouri=oss:/...

生成keytab配置文件

MaxCompute与Hadoop集群构建湖仓一体时,如果Hadoop集群开启了Kerberos安全机制,则需要上传keytab配置文件。本文为您介绍如何生成keytab配置文件。操作步骤 以下以阿里云E-MapReduce(EMR)为例,说明生成keytab配置文件的过程。使用SSH...

扩展MapReduce(MR2)

与Hadoop Chain Mapper/Reducer对比 Hadoop Chain Mapper/Reducer也支持类似的串行化Map或Reduce操作,但和MaxCompute的扩展MapReduce(MR2)模型有本质的区别。Chain Mapper/Reducer基于传统的MapReduce模型,仅可以在原有的Mapper或...

ZKFC Mismatched address异常

该问题通常说明高可用集群中的ZKFC在ZooKeeper中存储的NameNode的信息与Hadoop配置文件中的不匹配,导致HDFS无法选出Active NameNode。存储在ZKFC中的端口是8020,而实际的NameNode ServiceRPC的端口是8021。早期部分EMR版本未开启...

什么是云原生数据湖分析

DLA提供与Hadoop体系兼容的过渡方案。为什么同时支持Serverless Presto与Serverless Spark?DLA Serverless Presto是在开源Apache Presto基础上研发,完全由内存完成计算工作,具备高性能、交互式的分析体验,秒级可返回;DLA Serverless ...

兼容版本SDK概述

本文为您介绍MaxCompute兼容版本的MapReduce与Hadoop MapReduce兼容性。MaxCompute兼容版本的MapReduce与Hadoop MapReduce兼容性的详细列表,如下表所示。类型 接口 是否兼容 Mapper void map(KEYIN key,VALUEIN value,org.apache.hadoop....

选型配置说明

数据分析场景,其中核心组件ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,与Hadoop和Spark相比,ClickHouse更轻量级。ClickHouse支持线性扩展,简单方便,具有高可靠性和高容错。StarRocks是开源MPP(Massively ...

使用说明

本文介绍如何在E-MapReduce上配置及访问Hue,通过使用Hue可以在浏览器端与Hadoop集群进行交互来分析处理数据。前提条件 已设置安全组访问,详情请参见 管理安全组。注意 设置安全组规则时要针对有限的IP范围。禁止在配置的时候对0.0.0.0/0...

搭建管理

创建外部数据湖连接 参数 说明 异构数据平台类型 阿里云E-MapReduce/Hadoop集群:通过MaxCompute与Hadoop构建湖仓一体。阿里云DLF+OSS数据湖连接:通过MaxCompute和DLF和OSS构建湖仓一体。阿里云DLF+OSS数据湖连接 External Project描述 可...

Trino扩缩容

如果您的集群是Trino与Hadoop等组件混合部署的,在扩容之前需要谨慎考虑。扩容前准备 Trino在扩容时能够同步组件本身以及绝大部分配置项。但是,新增的UDF包、手动替换的JAR包、手动升级的组件(例如JindoSDK)、自行添加的Event Listener...

常见问题

两部分,ResourceManager(简称RM)负责维护应用级基础信息状态,NodeManager(简称NM)负责维护运行时的Container信息状态,它们持续将相关状态同步至外部存储(Zookeeper、LevelDB和HDFS等),并在重启后重新加载状态自行恢复,保证...

HDFS数据源

公共资源组不支持Hadoop高级参数HA的配置。是 无 fileType 文件的类型,目前仅支持您配置为 TEXT、ORC、RC、SEQ、CSV 和 parquet。HDFS Reader能够自动识别文件的类型,并使用对应文件类型的读取策略。HDFS Reader在做数据同步前,会检查您...

什么是云原生多模数据库Lindorm

支持与Hadoop、Spark、Flink、Kafka等系统无缝打通,并提供简单易用的数据交换、处理、订阅等能力。多模介绍 Lindorm支持宽表、时序、对象、文件、队列、空间等多种数据模型,提供标准SQL和开源接口两种方式,模型之间数据互融互通,帮助...

基于OSS-HDFS构建数据湖

OSS-HDFS(JindoFS)是一款云原生数据湖存储服务,相比原生OSS存储,OSS-HDFS与Hadoop生态计算引擎无缝集成,在典型的基于Hive和Spark的离线ETL场景拥有更好的表现。OSS-HDFS详情请参见 OSS-HDFS服务概述 对于存储在OSS-HDFS上的数据,...

MapReduce常见问题

MaxCompute MapReduce与Hadoop MapReduce API有一定差别,但整体风格一致。您需要修改Hadoop的源码,并在MaxCompute MapReduce SDK下编译通过后,才能在MaxCompute上运行。MapReduce如何实现排序?排序代码如下。设置排序的字段(这里根据i...

OSS数据湖加速

OSS-HDFS服务(又名JindoFS)是云原生数据湖存储,相比原生OSS存储,OSS-HDFS与Hadoop生态计算引擎无缝集成,在典型的基于Hive和Spark的离线ETL场景拥有更好的表现,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,可以更好...

外部表

同时,OSS能够与Hadoop开源社区及EMR、批量计算、MaxCompute、机器学习和函数计算等产品进行深度结合。MaxCompute 大数据计算服务MaxCompute为您提供快速且完全托管的数据仓库解决方案,并可以通过与OSS的结合,高效经济地分析处理海量数据...

2021年

功能描述 发布时间 发布地域 相关文档 支持向导式开通MaxCompute到VPC中Hadoop Hive 和数据湖构建DLF+OSS的连接 支持一站式创建到VPC的网络连接、数据源连接以及湖仓一体外部项目,代替原有的工单开通方式,时间从天级别缩短到分钟级。增加...

Kafka Indexing Service

Druid集群与Kafka集群交互的配置方式与Hadoop集群类似,均需要设置连通性和Hosts。对于非安全Kafka集群,请按照以下步骤操作: 确保集群间能够通信(两个集群在一个安全组下,或两个集群在不同安全组,但两个安全组之间配置了访问规则)。...

共享集群(OSS数据湖加速)

进一步扩展了数据湖加速的服务能力和边界,使Hologres可以与Hadoop生态计算引擎无缝集成,加速读写存储于HDFS上的数据,大幅提升Hadoop生态数据实时分析的效率,更好地满足大数据和AI等领域的数据湖联邦、实时分析诉求。Hologres从V2.1.6...

2023年

支持用户通过SQL、PyODPS、Python等进行数据分析、探索,挖掘数据的价值,完成大数据AI的融合应用开发。本文为您介绍如何使用Notebook功能。(邀测)MaxCompute Notebook使用说明 2023-09-12 新增在本地环境上使用PyODPS 新说明 PyODPS是...

自建Greenplum迁移到AnalyticDB PostgreSQL版

PostgreSQL版基于Greenplum构建,并深度优化演进,支持向量化计算,在Multi-Master架构下支持事务处理,对外接口完全兼容社区版Greenplum。本文介绍如何将自建Greenplum集群的数据迁移至AnalyticDB PostgreSQL版实例。迁移流程 评估迁移...

测试结果

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要展示了开源自建Spark和DLA Spark在3种测试场景下的测试结果及性能对比分析。1 TB...

从自建HDFS迁移数据

整体迁移速度受Hadoop集群文件存储HDFS之间的带宽、集群规模影响。如果迁移数据量大,建议先尝试迁移几个目录评估下整体时间。如果只能在指定时间段内迁移数据,可以将目录切分为几个小目录,依次迁移。一般全量数据同步时,需要一个短暂...
共有28条 < 1 2 3 4 ... 28 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生数据仓库AnalyticDB PostgreSQL版 开源大数据平台E-MapReduce 弹性公网 IP 短信服务 人工智能平台 PAI 阿里云物联网平台
新人特惠 爆款特惠 最新活动 免费试用