文件存储 HDFS

文件存储HDFS允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System) 中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件...

迁移开源HDFS的数据到文件存储HDFS

本文档介绍如何将开源HDFS的数据平滑地迁移到文件存储HDFS。背景信息当前业界有很多公司是以Hadoop技术构建数据中心,而越来越多的公司和企业希望将业务顺畅地迁移到云上。文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许您...

使用Fuse-DFS挂载文件存储HDFS

本文主要介绍如何使用fuse-dfs工具实现文件存储HDFS在本地文件系统的映射。背景信息Fuse-dfs是Hadoop项目自带的一个功能模块,提供了使用 FUSE(用户空间中的文件系统)在UNIX文件系统上映射HDFS的功能,在官方提供的Hadoop预编译版本中不...

阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!
广告

文件存储HDFS上使用Apache Flink

本文介绍在文件存储HDFS上搭建及使用Apache Flink的方法。准备工作在文件存储HDFS上使用Apache Flink,需要先完成以下准备工作。说明 本文档的操作步骤中涉及的安装包版本号、文件夹路径,请根据实际情况进行替换。开通文件存储HDFS服务并...

文件存储HDFS上使用Presto

jar包地址进行重命名,因为文件存储HDFS的sdk与Hadoop共用了protobuf-xxx.jar包,在Presto通过hivemetastore读取文件存储HDFS上的数据时,文件存储HDFS的sdk会获取不到Presto进行重命名地址的protobuf-xxx.jar包。为了避免兼容性问题,文件...

文件存储HDFS和对象存储OSS双向数据迁移

本文档介绍文件存储HDFS和对象存储OSS之间的数据迁移操作过程。您可以将文件存储HDFS数据迁移到对象存储OSS,也可以将对象存储OSS的数据迁移到文件存储HDFS。背景信息阿里云文件存储HDFS是面向阿里云ECS实例及容器服务等计算资源的文件存储...

什么是文件存储HDFS

阿里云文件存储HDFS(Apsara File Storage for HDFS)是面向阿里云ECS实例及容器服务等计算资源的文件存储服务。文件存储HDFS允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System) 中管理和访问数据。您无需对现有大数据分析...

E-MapReduce数据迁移

本文介绍如何将E-MapReduce HDFS上的数据迁移到文件存储HDFS。背景信息阿里云E-MapReduce是构建在阿里云云服务器ECS上的开源Hadoop、Spark、Hive、Flink生态大数据PaaS产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式...

集群吞吐性能测试

测试集群吞吐性能所使用的TestDFSIO是一个分布式任务,存在任务调度及结果汇总阶段,计算集群吞吐均值时会低于文件存储HDFS吞吐限速。在进行顺序读与随机读的测试之前需要确保文件存储HDFS之上已有指定的待测数据,如果没有待测数据请...

文件存储HDFS上使用Apache Spark

HADOOP_CLASSPATH=usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/common/*:/usr/local/hadoop-2.7.2/share/hadoop/hdfs:/usr/local/hadoop-2.7.2/share/...

概览

文件存储HDFS的SDK包含文件系统SDK和管控系统SDK。目前公测期间只提供文件系统SDK,管控操作则通过控制台进行。文件存储HDFS SDK实现了Hadoop FileSystem 接口,提供一种Hadoop兼容的文件系统,对外输出为一个单独的JAR文件,即aliyun-sdk-...

安装

SDK您可以下载文件存储HDFS文件系统SDK的JAR文件aliyun-sdk-dfs-x.y.z.jar。配置 Hadoop 下载hadoop 2.7.2发布包。运行tar-zxvf hadoop-2.7.2.tar.gz命令,解压缩下载的发布包。运行export HADOOP_HOME=yourWorkingDir/hadoop-2.7.2命令,...

数据库文件存储

数据库文件存储(DBFS),是一款针对数据库场景的云原生共享文件存储服务。它基于共享存储架构设计,通过文件协议提供数据库定制功能,具备企业级存储特性。主要服务于云上自建数据库,基于传统SAN的应用等,为用户提供极致IO性能和高可用...

文件存储HDFS

Hadoop或其他机器学习应用部署在多个计算资源上,应用可以直接通过Hadoopfs接口访问数据进行离线或在线计算,也可以直接将计算结果输出到文件存储HDFS做永久保存。性能衡量文件存储HDFS的性能指标主要是吞吐能力。吞吐最大不会超过ECS...

SDK示例

背景信息文件存储HDFS提供对Apache Hadoop FileSystem API的兼容,您可以参考Hadoop FileSystem API进行开发。说明 目前,部分Hadoop FileSystem API的兼容还未在文件存储HDFS SDK中提供,详情请参见使用限制。准备工作 已完成文件存储HDFS...

CDH6数据迁移

本文档介绍如何将CDH中本地HDFS的数据迁移到文件存储HDFS。前提条件在阿里云上创建ECS集群并安装CDH,具体安装方法请参考CDH相关文档。背景信息CDH(Cloudera's Distribution,including Apache Hadoop)是众多 Hadoop 发行版本中的一种,您...

使用云企业网跨VPC访问文件存储HDFS

本文档主要介绍如何使用云企业网(CEN)跨VPC访问文件存储HDFS。背景信息阿里云提供云企业网服务实现跨VPC访问文件存储HDFS,主要场景如下所示。场景 描述 同账号同地域跨VPC访问文件存储HDFS 访问文件存储HDFS的计算实例(例如ECS)与文件...

常见问题排查

本文介绍使用文件存储HDFS SDK时遇到的常见问题及排查方法。提示“No FileSystem for scheme: dfs”信息执行hadoop命令行或者任务失败,提示“No FileSystem for scheme:dfs”信息时,请按如下步骤进行排查: 确认aliyun-sdk-dfs-x.x.x.jar...

文件存储HDFS上使用TensorFlow

本文介绍如何在文件存储HDFS上使用TensorFlow。背景信息TensorFlow是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。说明 由于TensorFlow对文件系统的schema有特别的指定,因此在文件存储HDFS上使用TensorFlow时需要...

功能特性

无缝集成 文件存储HDFS允许您就像在Hadoop分布式文件系统 (HDFS)中管理和访问数据。文件存储HDFS SDK可在所有Apache Hadoop 2.x环境中使用,包括阿里云EMR和阿里云Flink。文件存储HDFS支持的原生文件系统语义被开发人员和用户熟知,您...

迁移Hadoop文件系统数据至JindoFS

本文以OSS为例,介绍如何将Hadoop文件系统上的数据迁移至JindoFS。迁移数据 Hadoop FsShell对于文件较少或者数据量较小的场景,可以直接使用Hadoop的FsShell进行同步:hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs-...

文件存储 NAS

阿里云文件存储NAS是一个可共享访问,弹性扩展,高可靠,高性能的分布式文件系统。兼容POSIX文件接口,可支持上千台弹性计算ECS、容器服务ACK等计算节点共享访问,您无需修改应用程序,即可无缝迁移业务系统上云。

从自建HDFS迁移数据

常见问题整体迁移速度受Hadoop集群与文件存储HDFS之间的带宽、集群规模影响。如果迁移数据量大,建议先尝试迁移几个目录评估下整体时间。如果只能在指定时间段内迁移数据,可以将目录切分为几个小目录,依次迁移。一般全量数据同步时,需要...

使用限制

本文档介绍文件存储HDFS及命令行工具存在的限制。如要了解更多有关开源Hadoop的信息,请参考Hadoop 文档。Hadoop FileSystem/AbstractFileSystem 不支持目录修改时间(mtime)、访问时间(atime),不支持通过setTimes设置文件的mtime和...

文件存储HDFS

Hadoop或其他机器学习应用部署在多个计算资源上,应用可以直接通过Hadoopfs接口访问数据进行离线或在线计算,也可以直接将计算结果输出到文件存储HDFS做永久保存。性能衡量文件存储HDFS的性能指标主要是吞吐能力。吞吐最大不会超过ECS...

挂载文件系统

创建文件系统并添加挂载点后,您可以通过挂载点挂载文件存储HDFS实例。前提条件对于ECS实例来说,能否通过一个挂载点访问文件系统取决于以下的条件: 若挂载点网络类型是专有网络,则只有同一VPC内的ECS实例能够挂载,并且挂载点所绑定的...

开始使用文件存储HDFS

文件存储HDFS允许您就像在Hadoop分布式文件系统 (HDFS)中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。相比自建HDFS存储,...

文件存储 CPFS

CPFS(Cloud Paralleled File System)是一种并行文件系统。CPFS的数据存储在集群中的多个数据节点,并可由多个客户端同时访问,从而能够为大型高性能计算机集群提供高IOPS、高吞吐、低时延的数据存储服务。

应用场景

文件存储HDFS适用于对吞吐要求较高的大数据分析与机器学习的业务需求场景。...或其他机器学习应用部署在多个计算资源上,这样应用可以直接通过Hadoopfs接口访问数据进行离线或在线计算,也可以直接将计算结果输出到文件存储HDFS做永久保存

使用Flink访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

性能优化最佳实践

该值配置成true表示文件存储HDFS使用hadoop配置的值。alidfs.default.write.buffer.size:表示写缓存区的大小,单位为Byte。适当的缓存大小可以提供更高的吞吐,建议配置在1MB和8MB之间。alidfs.default.read.buffer.size:表示读缓存区的...

存储网关

云存储网关,是一款可在用户IDC和阿里云上部署的软网关,以阿里云OSS为后端存储,通过低成本的虚拟机服务器,给云上和云下应用提供业界标准的NFS和CIFS文件存储服务。

文件存储HDFS和MaxCompute双向数据迁移

本文档介绍如何使用DataWorks实现MaxCompute与文件存储HDFS之间的双向数据同步。您可以将MaxCompute数据同步至文件存储HDFS,也可以将文件存储HDFS数据同步至MaxCompute。注意 请确保Maxcompute、文件存储HDFS、Dataworks在同一个地域...

使用Spark访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

设置数据冷热存储策略

您可以通过以下命令 设置某个目录的冷热数据存储策略 ,该目录下的所有文件(递归包含)均使用该策略进行存储$HADOOP_HOME/bin/hdfs storagepolicies-setStoragePolicy-path policy<POLICY>POLICY的取值:HOT:数据存放在标准型云存储中或...

配置E-MapReduce服务使用文件存储HDFS

本文介绍如何配置E-MapReduce上的HDFS服务、HIVE服务、SPARK服务、HBase服务来使用文件存储HDFS。前提条件已完成数据迁移,详情请参见E-MapReduce数据迁移。配置HDFS服务 登录阿里云 E-MapReduce 控制台。在集群管理页面,找到需要挂载文件...

通过开源HDFS客户端连接并使用文件引擎

本章介绍如何使用开源HDFS客户端访问文件引擎。准备运行环境执行命令java version,查看JDK版本。JDK版本不能低于1.7。按照以下方式设置环境变量,假设java安装位置为/opt/install/java。JAVA_HOME=opt/install/javaPATH=opt/install/java/...

从OSS迁移数据

本章节介绍如何将对象存储OSS上的数据迁移到文件引擎。准备工作开通文件引擎,详情请参见 开通指南。搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见...

常用文件路径

HADOOP_LOG_DIR=var/log/hadoop-hdfsHADOOP_HOME=usr/lib/hadoop-currentYARN_PID_DIR=usr/lib/hadoop-current/pidsHADOOP_PID_DIR=usr/lib/hadoop-current/pidsHADOOP_MAPRED_PID_DIR=usr/lib/hadoop-current/pidsJAVA_LIBRARY_PATH=usr/...

配置CDH6使用文件存储HDFS

本文介绍如何配置CDH上的HDFS服务、HIVE服务、SPARK服务、HBase服务来使用文件存储HDFS。前提条件已完成数据迁移,详情请参见CDH6数据迁移。配置HDFS服务 配置链接。在系统主页,选择配置>高级配置代码段,进入高级配置代码段页面。搜索...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
产品推荐
对象存储 块存储 文件存储 云服务器 商标 SSL证书 物联网无线连接服务 短信服务
这些文档可能帮助您
什么是文件存储HDFS OSS常用工具汇总 Web端上传介绍 STS临时授权访问OSS 服务端签名后直传 管理文件系统

新品推荐

你可能感兴趣

热门推荐

切换为移动版

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折