文件存储 HDFS

文件存储HDFS允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System)中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统...

常见命令

您可以在已经创建好的E-MapReduce(简称EMR)集群中,直接使用hadoop fs命令来对HDFS中的文件进行操作。本文为您介绍HDFS的常见命令。前提条件 已创建集群,详情请参见创建集群。已登录集群,详情请参见登录集群。背景信息 HDFS常见命令...

安装

wordcount样例 bin/hadoop jar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount inputDir outputDir grep样例 bin/hadoop jar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep inputDir/...

SDK示例

本文列出了创建目录、删除目录、上传文件、下载文件、显示目录、写入文件,读取文件、测试等操作的SDK示例,您可以参考示例工程开发您的应用。背景信息 文件存储HDFS提供对Apache Hadoop FileSystem API的兼容,您可以参考Hadoop ...

常用文件路径

HADOOP_LOG_DIR=var/log/hadoop-hdfs HADOOP_HOME=usr/lib/hadoop-current YARN_PID_DIR=usr/lib/hadoop-current/pids HADOOP_PID_DIR=usr/lib/hadoop-current/pids HADOOP_MAPRED_PID_DIR=usr/lib/hadoop-current/pids JAVA_LIBRARY_PATH=...

环境准备

export HADOOP_HOME=data/hadoop/hadoop-2.6.0 export PATH=$PATH:$HADOOP_HOME/bin 下载及安装Hive环境 下载类型为bin.tar.gz的Hive安装包,具体下载路径请参见Hive安装包。按照如下示例解压安装包。mkdir/home/admin/hive-2.1.0$tar-zxvf...

常见命令

您可以在已经创建好的E-MapReduce(简称EMR)集群中,直接使用Alluxio Shell命令来对Alluxio中的文件进行操作,也可以使用Hadoop Shell命令操作Alluxio中的文件。本文为您介绍Alluxio的常见命令。前提条件 已创建集群,并选择了Alluxio服务...

Hadoop Streaming

本文为您介绍如何使用Python提交Hadoop Streaming作业。前提条件 已在E-MapReduce控制台上创建Hadoop集群。创建集群详情,请参见创建集群。操作步骤 通过SSH方式连接集群,详情请参见使用SSH连接主节点。新建文件mapper.py。执行以下命令,...

MapReduce开发手册

本文以EMR-3.27.0集群为例,通过以下示例为您介绍如何在E-MapReduce集群中开发MR作业。在MapReduce中使用OSS 在MapReduce中读写OSS,需要配置如下参数。conf.set("fs.oss.accessKeyId","${accessKeyId}");conf.set("fs.oss.accessKeySecret...

UpgradeMinorVersion

运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action String 是 UpgradeMinorVersion 系统规定参数。取值:UpgradeMinorVersion。ClusterId String 是 hb-t4naqsay5gn*集群ID。...

开源地理空间UDF

cd spatial-framework-for-hadoop mvn clean package-DskipTests-P java-8,hadoop-2.7,hive-2.1 复制构建好的JAR包。此JAR包包含开源地理空间UDF的所有方法。命令示例如下。cp hive/target/spatial-sdk-hive-2.1.1-SNAPSHOT.jar./spatial-...

Spark-2.x示例

本文为您介绍Spark-2.x依赖的配置以及Spark-2.x示例说明。配置Spark-2.x的依赖 通过MaxCompute提供的Spark客户端提交应用时,需要在pom.xml文件中添加以下依赖。pom.xml文件请参见pom.xml。lt;properties>lt;spark.version>2.3.0<...

数据上云场景

使用DataWorks结合DataX进行Hadoop数据迁移的示例请参见Hadoop数据迁移新手教程,或参见视频教程Hadoop数据迁移到MaxCompute最佳实践。Sqoop执行时,会在原来的Hadoop集群上执行MR作业,可以分布式地将数据传输到MaxCompute上,详情请参见...

新增元数据表

注:表支持的数据格式 创建表时用户必须指定数据格式,参数示例如下 avro格式:table.Parameters:{"classification":"avro"} table.Sd:"InputFormat":"org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat""OutputFormat":"org....

创建并使用EMR MR节点

您可以通过创建EMR(E-MapReduce)MR节点,将一个大规模数据集拆分为多个Map任务并行处理,实现大规模数据集的并行运算。本文为您介绍如何创建EMR MR节点,并以使用MR节点实现从OSS中读取文本,统计其中单词的数量为例,为您展示EMR MR节点...

Hadoop MapReduce作业配置

本文介绍如何配置Hadoop MapReduce类型的作业。前提条件 已创建好项目,详情请参见项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域和资源组。单击上方...

集群运维指南

hdfs NameNode(Master节点)启动NameNode/usr/lib/hadoop-current/sbin/hadoop-daemon.sh start namenode 停止NameNode/usr/lib/hadoop-current/sbin/hadoop-daemon.sh stop namenode DataNode(Core节点)启动DataNode/usr/lib/hadoop-...

使用Flink访问

export HADOOP_HOME=usr/local/hadoop-2.7.3 export HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/...

常见问题排查

例如hadoop命令行或者任务出现如下错误时,表明org/apache/hadoop/fs/PathFilter相关的类未在hadoop的运行环境中,该类所属的jar包为hadoop-common-x.x.x.jar,需要用户下载该jar包的正确版本,并将其置于所有hadoop节点的hadoop运行环境的...

使用Spark访问

export HADOOP_HOME=usr/local/hadoop-2.7.3 export HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/...

概述

基于领先的数据双向实时复制技术,HDR-BD 可以实现 Hadoop 集群双活和准 0 RPO 容灾。同时,通过与阿里云对象存储 OSS 的紧密集成,您也可以将集群数据实时备份至阿里云 OSS,实现非常简单高效的数据备份。技术原理 HDR-BD 的核心原理是 ...

Grep示例

本文为您介绍MapReduce的Grep示例。测试准备 准备好测试程序的JAR包,假设名字为mapreduce-examples.jar,本地存放路径为data\resources。准备好Grep测试表和资源。创建测试表。create table mr_src(key string,value string);create table...

开源兼容MapReduce

现在MaxCompute平台提供了一个Hadoop MapReduce到MaxCompute MapReduce的适配工具,已经在一定程度上实现Hadoop MapReduce作业的二进制级别的兼容,您可以在不改代码的情况下通过指定一些配置,便可将原来在Hadoop上运行的MapReduce Jar...

常见问题

share/hadoop/mapreduce/hadoop-mapreduce-examples-x.x.x.jar wordcount \-Dalluxio.user.file.writetype.default=CACHE_THROUGH \-libjars/lt;PATH_TO_ALLUXIO>client/alluxio-x.x.x.-client.jar \<path1>lt;path2>说明 代码...

Hadoop环境安全加固

Hadoop 介绍Hadoop 是一个由 Apache 基金会所开发的一个开源、高可靠、可扩展的分布式计算框架。Hadoop 的框架最核心的设计就是 HDFS 和 MapReduce 模块。HDFS 为海量的数据提供了存储,MapReduce 则为海量的数据提供了计算。HDFS 是 ...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务,详情请参见开通云原生数据湖分析服务并在云原生数据湖分析DLA控制台上创建了...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

本文介绍如何通过ES-Hadoop实现Hadoop的Hive服务读写阿里云Elasticsearch数据。背景信息 Hadoop生态的优势是处理大规模数据集,但是其缺点也很明显,就是当用于交互式分析时,查询时延会比较长。而Elasticsearch擅长于交互式分析,对于很多...

操作步骤

云原生数据仓库AnalyticDB MySQL版支持通过DLA导入Hadoop数据。本文介绍相关操作步骤。前提条件 1.配置网络环境 DLA服务可购买在您的Hadoop或AnalyticDB MySQL的任意VPC内,故配置他们之间连通性首先需要将Hadoop和AnalyticDB MySQL的VPC...

在文件存储HDFS上使用Apache Spark

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/common/*:/usr/local/hadoop-2.7.2/...

RAM认证

hadoop fs-ls/返回信息如下:17/11/19 12:32:15 INFO client.HasClient:The plugin type is:RAM Found 4 items drwxr-x-has hadoop 0 2017-11-18 21:12/apps drwxrwxrwt-hadoop hadoop 0 2017-11-19 12:32/spark-history drwxrwxrwt-hadoop...

行业背景

ES-Hadoop(Elasticsearch for Apache Hadoop)是一个用于Elasticsearch和Hadoop进行交互的开源独立库,在Hadoop和Elasticsearch之间起到桥梁的作用,完美地把Hadoop的批处理优势和Elasticsearch强大的全文检索引擎结合起来。ES-Hadoop开辟...

迁移开源HDFS的数据到文件存储HDFS

文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许您在云上就像在Hadoop分布式文件系统中管理和访问数据。适用范围 非阿里云Hadoop集群中的数据迁移到文件存储HDFS。阿里云ECS自建Hadoop集群中的数据迁移到文件存储HDFS。准备...

开启权限认证

Found 4 items drwxrwxrwx-root hadoop 0 2021-06-08 13:14/tmp/hadoop-yarn drwx-wx-wx-hadoop hadoop 0 2021-06-16 15:54/tmp/hive drwxrwxrwt-hadoop hadoop 0 2021-06-08 13:16/tmp/logs drwxr-x-x-test hadoop 0 2021-06-16 17:15/tmp...

测试方法

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。您可以按照本文介绍自行测试对比,快速了解云原生数据湖分析(DLA)Spark引擎的性价比数据。...

使用MapReduce处理JindoFS上的数据

JindoFS配置 以EMR-3.35版本为例,创建名为emr-jfs的命名空间,相关配置参数示例如下:jfs.namespaces=emr-jfs jfs.namespaces.emr-jfs.oss.uri=oss:/oss-bucket/oss-dir jfs.namespaces.emr-jfs.mode=block MapReduce简介 Hadoop ...

JindoFS配置

参数 示例 hadoop.security.group.mapping org.apache.hadoop.security.CompositeGroupsMapping hadoop.security.group.mapping.providers shell4services,ad4users hadoop.security.group.mapping.providers.combined true hadoop....

测试环境

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求 测试环境总体要求:自...

使用教程

程序运行示例$HADOOP_CLASSPATH=hadoop-connector.jar bin/hadoop jar row-counter.jar.$find output-type f output/_SUCCESS output/part-r-00000 output/._SUCCESS.crc output/.part-r-00000.crc$cat out/part-r-00000 TOTAL 9 类型转换...

集群类型

介绍 集群 描述 重要操作 Hadoop 提供半托管的Hadoop、Hive和Spark离线大规模分布式数据存储和计算。提供SparkStreaming、Flink和Storm流式数据计算。提供Presto和Impala交互式查询。提供Oozie和Pig等Hadoop生态圈的组件。创建集群 登录...

在文件存储HDFS上使用Apache Flink

export HADOOP_HOME=usr/local/hadoop-2.7.2 export HADOOP_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH 执行如下命令使配置...
< 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 物联网无线连接服务 SSL证书 轻量应用服务器 块存储 商标
这些文档可能帮助您
安装和卸载C++版本插件 为Java应用手动安装Agent 什么是ARMS前端监控? ACK Service巡检 什么是E-MapReduce 并发虚拟用户、RPS、TPS的解读

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折