文件存储 HDFS

文件存储HDFS允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System) 中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件...

OpenAPI Explorer

可视化的 API 调用工具。通过该工具,您可以通过网页或者命令行调用各云产品以及 API 市场上开放的API,查看每次的API请求和返回结果,并生成相应SDK调用示例。\n\n访问地址:https://api.aliyun.com

常见命令

您可以在已经创建好的E-MapReduce(简称EMR)集群中,直接使用hadoop fs命令来对HDFS中的文件进行操作。本文为您介绍HDFS的常见命令。前提条件 已创建集群,详情请参见创建集群。已登录集群,详情请参见登录集群。背景信息 HDFS常见命令...

安装

wordcount inputDir outputDir grep bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep inputDir/ outputDirGrep/"the icmsDocProps={'productMethod':'created','language':'zh-CN',};

常用文件路径

HADOOP_LOG_DIR=var/log/hadoop-hdfs HADOOP_HOME=usr/lib/hadoop-current YARN_PID_DIR=usr/lib/hadoop-current/pids HADOOP_PID_DIR=usr/lib/hadoop-current/pids HADOOP_MAPRED_PID_DIR=usr/lib/hadoop-current/pids JAVA_LIBRARY_PATH=...

SDK示例

本文列出了创建目录、删除目录、上传文件、下载文件、显示目录、写入文件,读取文件、测试等操作的SDK示例,您可以参考示例工程开发您的应用。背景信息 文件存储HDFS提供对Apache Hadoop FileSystem API的兼容,您可以参考Hadoop ...

环境准备

25.77-b03,mixed mode)安装并启动Hadoop环境 下载2.6.0版本以上的Hadoop安装包,具体下载路径请参见Hadoop安装包。解压并安装,根据实际集群情况安装Hadoop服务。按照如下示例启动Hadoop环境。bin/start-all.sh#检查服务是否成功启动。jps ...

UpgradeMinorVersion

ClusterId=hb-t4naqsay5gn*&Components=HADOOP&<公共请求参数>正常返回示例 XML格式 7B8EC240-BB13-4DBC-B955-F90170E82609 HADOOP</UpgradingComponents>JSON格式 {"RequestId": 7B8EC240-BB13-4DBC-B...

常见命令

Shell命令来对Alluxio中的文件进行操作,也可以使用Hadoop Shell命令操作Alluxio中的文件。本文为您介绍Alluxio的常见命令。前提条件 已创建集群,并选择了Alluxio服务,详情请参见创建集群。已登录集群,详情请参见登录集群。背景信息 ...

数据上云场景

使用DataWorks结合DataX进行Hadoop数据迁移的示例请参见Hadoop数据迁移新手教程,或参见视频教程Hadoop数据迁移到MaxCompute最佳实践。Sqoop执行时,会在原来的Hadoop集群上执行MR作业,可以分布式地将数据传输到MaxCompute上,详情请参见...

MapReduce开发手册

本文以EMR-3.27.0集群为,通过以下示例为您介绍如何在E-MapReduce集群中开发MR作业。在MapReduce中使用OSS 在MapReduce中读写OSS,需要配置如下参数。conf.set("fs.oss.accessKeyId","${accessKeyId}");conf.set("fs.oss.accessKeySecret...

使用MapReduce处理JindoFS上的数据

以EMR-3.35版本为,创建名为emr-jfs的命名空间,相关配置参数示例如下:jfs.namespaces=emr-jfs jfs.namespaces.emr-jfs.oss.uri=oss:/oss-bucket/oss-dir jfs.namespaces.emr-jfs.mode=block MapReduce简介 Hadoop MapReduce作业通常是...

Hadoop Streaming

本文为您介绍如何使用Python提交Hadoop Streaming作业。前提条件 已在E-MapReduce控制台上创建Hadoop集群。创建集群详情,请参见创建集群。操作步骤 通过SSH方式连接集群,详情请参见使用SSH连接主节点。新建文件mapper.py。执行以下命令,...

开源地理空间UDF

MaxCompute使用Hive UDF的示例请参见Hive UDF兼容示例。说明 在使用过程中,如果您有任何问题,请直接在GitHub上提交issues获取帮助。步骤一:准备本地函数 获取地理空间UDF代码的URL下载链接。打开Git命令行工具,执行如下命令下载2.1.0...

Spark-2.x示例

本文为您介绍Spark-2.x依赖的配置以及Spark-2.x示例说明。配置Spark-2.x的依赖 通过MaxCompute提供的Spark客户端提交应用时,需要在pom.xml文件中添加以下依赖。pom.xml文件请参见pom.xml。spark.version>2.3.0 ...

创建并使用EMR MR节点

以Java代码为,修改Hadoop官网WordCount示例,即在代码中添加AccessKey ID和AccessKey Secret的配置,以便作业有权限访问OSS文件。package cn.apache.hadoop.onaliyun.examples;import java.io.IOException;import java.util....

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

本文介绍如何通过ES-Hadoop实现Hadoop的Hive服务读写阿里云Elasticsearch数据。背景信息 Hadoop生态的优势是处理大规模数据集,但是其缺点也很明显,就是当用于交互式分析时,查询时延会比较长。而Elasticsearch擅长于交互式分析,对于很多...

新增元数据表

Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST api/metastore/catalogs/databases/tables 请求参数 名称 类型 位置 是否必选 示例值 描述 Object Body 否 HTTP ...

通过开源HDFS客户端连接并使用文件引擎

org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider property><name>dfs.ha.automatic-failover.enabled true</value></property> dfs.ha.namenodes.${实例id}</name><value>nn1...

使用Flink访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

集群运维指南

本文介绍E-MapReduce集群部分运维的方法,以便于您可以自主的运维服务。前提条件 已创建集群,详情请参见创建集群。一些通用的环境变量 ...do ssh emr-worker-$i/usr/lib/hadoop-current/sbin/yarn-daemon.sh stop nodemanager;done

Hadoop MapReduce作业配置

Hadoop(以hadoop-2.6.0版本为)中,该作业处于Hadoop发行版的hadoop-mapreduce-client-jobclient-2.6.0-tests.jar包文件中。如果您通过命令行的方式提交该作业,需要执行以下命令。hadoop jar/path/to/hadoop-mapreduce-client-...

迁移开源HDFS的数据到文件存储HDFS

文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许您在云上就像在Hadoop分布式文件系统中管理和访问数据。适用范围 非阿里云Hadoop集群中的数据迁移到文件存储HDFS。阿里云ECS自建Hadoop集群中的数据迁移到文件存储HDFS。准备...

通过Spark Streaming作业处理Kafka数据

本文介绍如何使用阿里云E-MapReduce创建的Hadoop和Kafka集群,运行Spark Streaming作业以消费Kafka数据。前提条件 已注册阿里云账号,详情请参见阿里云账号注册流程。已开通E-MapReduce服务。已完成云账号的授权,详情请参见角色授权。本地...

常见问题排查

例如hadoop命令行或者任务出现如下错误时,表明org/apache/hadoop/fs/PathFilter相关的类未在hadoop的运行环境中,该类所属的jar包为hadoop-common-x.x.x.jar,需要用户下载该jar包的正确版本,并将其置于所有hadoop节点的hadoop运行环境的...

使用Spark访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

开源兼容MapReduce

本文为您介绍开源兼容MapReduce的应用背景,以及Hadoop MapReduce插件的基本使用方式。产生背景 MaxCompute有一套原生的MapReduce编程模型和接口,简单来说,这套接口的输入输出都是MaxCompute中的表,处理的数据以Record为组织形式,它...

常见问题

您可以登录集群,通过-Dproperty=value格式的命令,添加自定义配置,代码示例如下所。alluxio fs copyFromLocal hello.txt/dir/tmp-Dalluxio.user.file.writetype.default=CACHE_THROUGH 说明 代码中的hello.txt为您本地的文件,/dir/tmp...

在文件存储HDFS上使用Apache Spark

HADOOP_CLASSPATH=usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/common/*:/usr/local/hadoop-2.7.2/share/hadoop/hdfs:/usr/local/hadoop-2.7.2/share/...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

CheckComponentsVersion

ClusterId=hb-t4naqsay5gn*&Components=HBASE,HADOOP&<公共请求参数>正常返回示例 XML格式 Component><IsLatestVersion>true HBASE</Component></Component> true</IsLatestVersion><Component>...

JindoFS配置

hadoop.security.group.mapping.provider.ad4users org.apache.hadoop.security.LdapGroupsMapping hadoop.security.group.mapping.ldap.url ldap:/emr-header-1:10389 hadoop.security.group.mapping.ldap.search.filter.user (&...

在文件存储HDFS上使用Apache Flink

usr/local/hadoop-2.7.2/etc/hadoop/hadoop-env.sh 配置JAVA_HOME目录,如下所。export JAVA_HOME=usr/java/default 修改core-site.xml配置文件。执行如下命令打开core-site.xml配置文件。vim usr/local/hadoop-2.7.2/etc/hadoop/core-...

使用Fuse-DFS挂载文件存储HDFS

本文主要介绍如何使用fuse-dfs工具实现文件存储HDFS在本地文件系统的映射。背景信息 Fuse-dfs是Hadoop项目自带的一个功能模块,提供了使用 FUSE(用户空间中的文件系统)在UNIX文件系统上映射HDFS的功能,在官方提供的Hadoop预编译版本中不...

行业背景

ES-Hadoop开辟了更加广阔的应用空间,通过ES-Hadoop可以索引Hadoop中的数据到Elasticsearch,充分利用其查询和聚合分析功能,也可以在Kibana中做进一步的可视化分析,同时也可以把Elasticsearch中的数据放到Hadoop生态系统中做运算,ES-...

Hadoop环境安全加固

Hadoop 介绍Hadoop 是一个由 Apache 基金会所开发的一个开源、高可靠、可扩展的分布式计算框架。Hadoop 的框架最核心的设计就是 HDFS 和 MapReduce 模块。HDFS 为海量的数据提供了存储,MapReduce 则为海量的数据提供了计算。HDFS 是 ...

概述

基于领先的数据双向实时复制技术,HDR-BD 可以实现 Hadoop 集群双活和准 0 RPO 容灾。同时,通过与阿里云对象存储 OSS 的紧密集成,您也可以将集群数据实时备份至阿里云 OSS,实现非常简单高效的数据备份。技术原理 HDR-BD 的核心原理是 ...

操作步骤

云原生数据仓库AnalyticDB MySQL版支持通过DLA导入Hadoop数据。本文介绍相关操作步骤。前提条件 1.配置网络环境 DLA服务可购买在您的Hadoop或AnalyticDB MySQL的任意VPC内,故配置他们之间连通性首先需要将Hadoop和AnalyticDB MySQL的VPC...

RAM认证

RAM产品可以创建或管理RAM用户,通过RAM用户实现对云上各个资源的访问控制。阿里云账号的管理员可以在RAM的用户管理界面创建一个RAM用户(RAM用户名称必须符合Linux用户的规范),然后将RAM用户的AccessKey下载下来提供给该RAM用户对应的...

开启权限认证

tmp/hadoop-yarn drwx-wx-wx-hadoop hadoop 0 2021-06-16 15:54/tmp/hive drwxrwxrwt-hadoop hadoop 0 2021-06-08 13:16/tmp/logs drwxr-x-x-test hadoop 0 2021-06-16 17:15/tmp/test 执行以下命令,给目录设置ACL权限并授权给foo用户rwx...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折