概述

Apache Flume是一个分布式、可靠和可用的系统,可以从大量不同的数据源有效地收集、聚合和移动日志数据,从而集中式的存储数据。使用场景 Flume使用最多的场景是日志收集,也可以通过定制Source来传输其他不同类型的数据。Flume最终会将...

SmartData使用说明(EMR-3.20.0~3.22.0版本)

TEMP 表示数据仅有一个本地备份,针对一些临时性数据,提供高性能的读写,但降低了数据的高可靠性,适用于一些临时数据的存取。JindoFS提供了Admin工具设置目录的Storage Policy(默认为 WARM),新增的文件将会以父目录所指定的Storage ...

异构数据源访问

功能说明 外部数据源管理提供高性能的结构化和非结构化数据并行传输服务。其中,异构数据源访问支持通过 AnalyticDB PostgreSQL版 数据库以统一的SQL接口查询和分析存储在外部系统中的数据。提供以下功能:多种数据存储访问:支持多种数据...

通过CDH5 Hadoop读取和写入OSS数据

CDH(Cloudera's Distribution,including Apache Hadoop)是众多Hadoop发行版本中的一种,最新版本CDH6.0.1中的Hadoop3.0.0版本已经支持OSS,但CDH5中的Hadoop2.6版本不支持OSS。本文介绍如何配置CDH5支持OSS读写。前提条件 拥有一个已搭建...

SmartData常见问题

Jindo DistCp比Hadoop DistCp性能高,且支持OSS归档。JindoFS在新版本才有,如果需要在EMR集群上使用JindoFS,该如何处理?如果集群规模不大,建议重建集群来使用JindoFS和EMR新版本。JindoFS支持哪些Hadoop版本和发行厂商?JindoFS SDK...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较,大文件较少,但是单个文件数据较大,在正常流程中是按照随机方式来进行Copy文件分配,此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件,不能发挥最好的性能。...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较,大文件较少,但是单个文件数据较大,在正常流程中是按照随机方式来进行Copy文件分配,此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件,不能发挥最好的性能。...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较,大文件较少,但是单个文件数据较大,在正常流程中是按照随机方式来进行Copy文件分配,此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件,不能发挥最好的性能。...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较,大文件较少,但是单个文件数据较大,在正常流程中是按照随机方式来进行Copy文件分配,此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件,不能发挥最好的性能。...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较,大文件较少,但是单个文件数据较大,在正常流程中是按照随机方式来进行Copy文件分配,此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件,不能发挥最好的性能。...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较,大文件较少,但是单个文件数据较大,在正常流程中是按照随机方式来进行Copy文件分配,此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件,不能发挥最好的性能。...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较,大文件较少,但是单个文件数据较大,在正常流程中是按照随机方式来进行Copy文件分配,此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件,不能发挥最好的性能。...

Jindo DistCp场景化使用指导

如果要Copy的所有文件中小文件的占比较,大文件较少,但是单个文件数据较大,在正常流程中是按照随机方式来进行Copy文件分配,此时如果不做优化很可能造成一个Copy进程分配到大文件的同时也分配到很多小文件,不能发挥最好的性能。...

使用限制

本文主要介绍 文件存储 HDFS 版 的产品规格限制、协议功能限制、Hadoop fs命令限制及API限制。文件系统限制 限制项 限制说明 每个账号在单个地域内可创建的文件系统数量 3个 单个文件系统可创建的挂载点数量 2个 单个文件系统同一时刻可...

Hive

重要 云原生数据湖分析(DLA)产品已退市,云原生数据仓库 AnalyticDB MySQL 版 湖仓版支持DLA已有功能,并提供更多的功能和更好的性能。AnalyticDB for MySQL 相关使用文档,请参见 访问Hive数据源。前提条件 您已开通数据湖分析DLA(Data...

存储说明

背景信息 关于存储的类型、性能和相关的限制信息,请参见 什么是块存储。存储价格估算如下:本地盘实例存储为0.04 元/GB/月 OSS标准型存储为0.12 元/GB/月 OSS归档型存储为0.033 元/GB/月 OSS深度归档型存储为0.015 元/GB/月 高效云盘存储...

常见问题

export HADOOP_HOME=path/to/yarn-current&\ export PATH=${HADOOP_HOME}/bin/:$PATH&\ export HADOOP_CLASSPATH=$(hadoop classpath)&\ export HADOOP_CONF_DIR=path/to/hadoop-conf 重要 Hadoop的配置文件中(例如 yarn-site.xml 等)...

使用流程

重要 使用命令行工具时只能创建按量模式的高性能实例。不同地域支持的实例规格请参见 各地域实例规格支持情况。4 配置接入实例信息 通过账号的AccessKey授权访问已创建的表格存储实例。5 创建并使用数据表 创建数据表用于存储业务相关数据...

EMR-4.8.x版本说明

性能优化:支持Window TopK下推。增强Hive读写CSV或JSON表的兼容性。ANALYZE语句支持省略全表列名。支持一键开启或关闭LDAP功能。改进Spark Beeline工具的易用性。Hive 优化了部分默认配置。性能优化:增强CBO。支持一键开启或关闭LDAP功能...

模拟IDC Spark读写MaxCompute实践

现有湖仓一体架构是以MaxCompute为中心读写Hadoop集群数据,有些线下IDC场景,客户不愿意对公网暴露集群内部信息,需要从Hadoop集群发起访问云上的数据。本文以开源大数据开发平台E-MapReduce(云上Hadoop)方式模拟本地Hadoop集群,为您...

数据导入常见问题

影响导入性能的因素都有哪些?报错“close index channel failed“或“too many tablet versions”,该如何处理?报错“Label Already Exists”,该如何处理?报错“ETL_QUALITY_UNSATISFIED;msg:quality not good enough to cancel”,该...

Spark Load

配置YARN客户端 FE底层通过执行 yarn 命令去获取正在运行的Application的状态以及终止Application,因此需要为FE配置YARN客户端,建议使用hadoop-2.5.2或hadoop-2.0以上的官方版本,下载详情请参见 hadoop下载地址。将下载好的YARN客户端...

Apache Impala(CDH6)查询OSS数据

CDH是Cloudera提供的包含Apache Hadoop核心组件的企业级大数据发行版,已支持Hadoop 3.0.0。本文将详解如何配置CDH6环境下的Hadoop、Hive、Spark、Impala等组件,以实现对接阿里云OSS存储服务进行数据查询操作。前提条件 已搭建CDH6 集群。...

Hadoop集群迁移至DataLake集群

EMR on ECS作为EMR主要资源形态之一已实现多项功能更新,特别是EMR新版控制台提供了DataLake、Dataflow、OLAP和Custom新集群业务场景,相比EMR旧版控制台的集群场景(例如,Hadoop、Data Science等),在集群管控效能和引擎性能方面实现了...

SELECT INTO OUTFILE

当您需要备份或者迁移 云数据库SelectDB 中的数据时,通过 SELECT INTO OUTFILE 命令,可以将查询结果导出为文件,并且支持到 通过S3或HDFS协议导出到远端存储(如OSS、HDFS等)。功能介绍 SELECT INTO OUTFILE 命令用于将查询结果导出为...

什么是OSS-HDFS服务

Hadoop用户而言,无需做数据复制或转换就可以实现像访问本地HDFS一样高效的数据访问,极大提升整体作业性能,降低了维护成本。功能特性 功能特性 说明 参考文档 回收站 当您从OSS-HDFS服务误删除文件时,文件不会立即被彻底删除,而是转...

创建OSS外部表

背景信息 对象存储服务OSS 是一种海量、安全、低成本、可靠的云存储服务,适合存放任意类型的数据文件。当您需要使用MaxCompute读取存储在OSS目录中的数据或需要将MaxCompute项目中的数据写入OSS目录时,可以在MaxCompute项目中创建OSS...

Hive服务异常排查及处理

异常排查 如果客户端遇到异常或性能等问题,您可以按照如下步骤进行排查:排查异常时间段机器CPU、内存、网络以及磁盘是否有异常。排查组件是否正常:检查访问集群的Hive组件中 HiveMetaStore 和 HiveServer2 巡检项是否有异常提示,如有则...

选择付费方式

您在实际生产环境中,即正式上线一个分析SQL前,可以通过Cost SQL命令估算该SQL作业的费用。详情请参见 计量预估。如果您使用的开发工具为IntelliJ IDEA,可以在提交SQL脚本时自动估算费用。详情请参见 开发及提交SQL脚本。如果您使用的...

EMR Kafka磁盘故障运维

如果业务需要可用与数据不丢失,则您需要通过合理的集群配置、使用Kafka方式提高系统容错能力来避免出现一块盘故障就导致数据会丢失的情况出现。如果发现因为故障盘IO性能下降导致集群整体性能下降,影响业务,则应快速隔离故障盘来进行...

EMR-3.22.x版本说明

发布日期 EMR-3.22.0 2019年7月28日 新功能 服务 变更点 Kudu 新增组件,Kudu填补Hadoop生态圈的功能空白,可提供类似HBase快速数据插入以及随机存取的功能,允许用户进行数据修改,同时还提供类似HDFS或Parquet超大规模的数据分析以及查询...

JindoData版本已知问题

该配置目前对写入OSS-HDFS性能有较大影响,在性能优先的场景下可以考虑关闭该配置。如需关闭,请在EMR控制台Hadoop-Common服务的 配置 页签,在 core-site.xml 中新增参数为fs.oss.checksum.crc64.enable,参数值为false的配置项。新增配置...

通过Hadoop Shell命令访问OSS/OSS-HDFS

本文为您介绍如何通过Hadoop Shell命令访问OSS和OSS-HDFS。环境准备 EMR环境中,默认已安装JindoSDK,可以直接使用。说明 访问OSS-HDFS,需创建EMR-3.42.0及以上版本或EMR-5.8.0及以上版本的集群。非EMR环境,请先安装部署JindoSDK,详情请...

基本概念

本文汇总使用弹性高性能计算E-HPC过程中涉及的基本概念,方便您查询和了解相关概念。使用弹性高性能计算涉及的相关概念如下表所示。概念 说明 集群 集群指运行高性能计算的节点集合,可以提供单节点不能提供的强大计算能力,拥有高性能、...

HDFS可用相关命令(HaAdmin)介绍

本文为您介绍HDFS可用的相关命令HaAdmin。背景信息 在Hadoop 2.0.0之前,NameNode在HDFS集群中都是以单节点的形式存在。每个集群只有一个NameNode,如果此NameNode不可用,整个集群都会变成不可用的状态,直到NameNode重新与集群建立连接...

Hadoop MapReduce作业配置

填写的命令行参数需要从 hadoop jar 命令后的第一个参数开始填写,即在输入框中首先填写运行该作业所需JAR包的所在路径,再填写[MainClass]和其它您想要设置的命令行参数。例如,您想要提交一个Hadoop的sleep作业,该作业不读写任何数据,...

管理Hadoop回收站

hadoop rm命令为例,Hadoop回收站流程图如下所示。开启回收站 如流程图所示,只需配置 fs.trash.interval 大于0,就会开启回收站,在 hdfs\oss\oss-hdfs\jfs 上执行 rm 时,都会放置到回收站目录中。关闭回收站 一旦关闭回收站后,执行 ...

管理Hadoop回收站

hadoop rm命令为例,Hadoop回收站流程图如下所示。开启回收站 如流程图所示,只需配置 fs.trash.interval 大于0,就会开启回收站,在 hdfs\oss\oss-hdfs\jfs 上执行 rm 时,都会放置到回收站目录中。关闭回收站 一旦关闭回收站后,执行 ...

管理Hadoop回收站

hadoop rm命令为例,Hadoop回收站流程图如下所示。开启回收站 如流程图所示,只需配置 fs.trash.interval 大于0,就会开启回收站,在 hdfs\oss\oss-hdfs\jfs 上执行 rm 时,都会放置到回收站目录中。关闭回收站 一旦关闭回收站后,执行 ...

测试块存储性能

通过FIO示例命令性能测试,帮助您更好地理解存储设备的能力,并对其进行相应的优化和调整,以确保最佳性能。说明 不同工具测试的硬盘基准性能会有差异,如 dd、sysbench、iometer 等工具可能会受到测试参数配置和文件系统影响,难以反映...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 云数据库 Redis 版 对象存储 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用