文件存储 HDFS

文件存储HDFS允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System) 中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件...

Hadoop环境安全加固

Hadoop 的框架核心的设计就是 HDFS 和 MapReduce 模块。HDFS 为海量的数据提供了存储,MapReduce 则为海量的数据提供了计算。HDFS 是 Google File System(GFS)的开源实现。MapReduce 是一种编程模型,用于大规模数据集(大于1TB)的并行...

使用Flink访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

安装

bin/hadoop jar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount inputDir outputDir grep样例 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep inputDir/ outputDirGrep/"the ...

【漏洞公告】CVE-2017-7669:Apache Hadoop远程权限...

Apache Hadoop是支持数据密集型分布式应用,并以Apache 2.0许可协议发布的软件框架。近期,国外安全研究人员发现,在Apache Hadoop 2.8.0版本、3.0.0-alpha1版本和3.0.0-alpha2版本中存在安全漏洞,该漏洞源于程序没有充分执行输入验证。...

常见问题排查

例如hadoop命令行或者任务出现如下错误时,表明org/apache/hadoop/fs/PathFilter相关的类未在hadoop的运行环境中,该类所属的jar包为hadoop-common-x.x.x.jar,需要用户下载该jar包的正确版本,并将其置于所有hadoop节点的hadoop运行环境的...

【漏洞公告】Hadoop YARN 资源管理系统 REST API未...

Hadoop是一款由Apache基金会推出的分布式系统框架,它通过著名的 MapReduce 算法进行分布式处理,Yarn是Hadoop集群的资源管理系统。Hadoop YARN 资源管理系统配置不当导致可以未经授权进行访问,从而被攻击者恶意利用。攻击者无需认证即可...

使用Spark访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

常用文件路径

HADOOP_LOG_DIR=var/log/hadoop-hdfs HADOOP_HOME=usr/lib/hadoop-current YARN_PID_DIR=usr/lib/hadoop-current/pids HADOOP_PID_DIR=usr/lib/hadoop-current/pids HADOOP_MAPRED_PID_DIR=usr/lib/hadoop-current/pids JAVA_LIBRARY_PATH=...

在文件存储HDFS上使用Apache Spark

HADOOP_CLASSPATH=usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/common/*:/usr/local/hadoop-2.7.2/share/hadoop/hdfs:/usr/local/hadoop-2.7.2/share/...

常见命令

您可以在已经创建好的E-MapReduce(简称EMR)集群中,直接使用hadoop fs命令来对HDFS中的文件进行操作。本文为您介绍HDFS的常见命令。前提条件 已创建集群,详情请参见创建集群。已登录集群,详情请参见登录集群。背景信息 HDFS常见命令...

在文件存储HDFS上使用Apache Flink

flink-shaded/flink-shaded-hadoop-2-parent/flink-shaded-hadoop-2-uber/target/flink-shaded-hadoop-2-uber-2.7.2-11.0.jar usr/local/flink-1.9.0/lib/说明 在使用Apache Flink之前必须在您的集群环境变量中配置HADOOP_HOME,HADOOP_...

行业背景

ES-Hadoop开辟了更加广阔的应用空间,通过ES-Hadoop可以索引Hadoop中的数据到Elasticsearch,充分利用其查询和聚合分析功能,也可以在Kibana中做进一步的可视化分析,同时也可以把Elasticsearch中的数据放到Hadoop生态系统中做运算,ES-...

开源地理空间UDF

打开Git命令行工具,执行如下命令下载2.1.0版本Hive(对应Hadoop版本为2.7.2)下的地理空间UDF代码至本地。命令示例如下。git clone https://github.com/Esri/spatial-framework-for-hadoop.git --或 git clone-b v2.1.0"-single-branch ...

迁移开源HDFS的数据到文件存储HDFS

您可以通过Hadoop社区标准的Distcp工具实现量或增量的HDFS数据迁移,详细的Distcp工具使用说明请参见Hadoop Distcp 工具官方说明文档。说明 使用Distcp命令将旧集群数据迁移至文件存储HDFS时,请注意文件存储HDFS不支持以下参数,其它...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

使用Druid

iZbp10tx4egw3wfnh5o*安全Hadoop集群,请按如下操作进行: 确保集群间能够通信(两个集群在一个安全组下,或两个集群在不同安全组,但两个安全组之间配置了访问规则)。在E-MapReduce Druid集群的每个节点的指定路径下,放置一份Hadoop集群...

使用Fuse-DFS挂载文件存储HDFS

背景信息 Fuse-dfs是Hadoop项目自带的一个功能模块,提供了使用 FUSE(用户空间中的文件系统)在UNIX文件系统上映射HDFS的功能,在官方提供的Hadoop预编译版本中不包含fuse-dfs的功能模块,如需使用该功能需要手动编译该功能模块并添加到...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务,详情请参见开通云原生数据湖分析服务并在云原生数据湖分析DLA控制台上创建了...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景 ...

通过开源HDFS客户端连接并使用文件引擎

org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider property><name>dfs.ha.automatic-failover.enabled true</value></property> dfs.ha.namenodes.${实例id}</name><value>nn1...

SDK示例

本文列出了创建目录、删除目录、上传文件、下载文件、显示目录、写入文件,读取文件、测试等操作的SDK示例,您可以参考示例工程开发您的应用。背景信息 文件存储HDFS提供对Apache Hadoop FileSystem API的兼容,您可以参考Hadoop ...

在文件存储HDFS上使用Presto

删除旧的hadoop-apache2-2.7.4-5.jar依赖包。rm-f usr/local/presto-server-0.227/plugin/raptor/hadoop-apache2-2.7.4-5.jar usr/local/presto-server-0.227/plugin/accumulo/hadoop-apache2-2.7.4-5.jar usr/local/presto-server-0.227/...

使用MapReduce处理JindoFS上的数据

usr/lib/hadoop-current/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen<num rows><output dir>替换输出路径,可以把数据输出到JindoFS上:hadoop jar usr/lib/hadoop-current/share/hadoop/mapreduce/hadoop-mapreduce-...

Hadoop Streaming

本文为您介绍如何使用Python提交Hadoop Streaming作业。前提条件 已在E-MapReduce控制台上创建Hadoop集群。创建集群详情,请参见创建集群。操作步骤 通过SSH方式连接集群,详情请参见使用SSH连接主节点。新建文件mapper.py。执行以下命令,...

Hadoop MapReduce作业配置

本文介绍如何配置Hadoop MapReduce类型的作业。前提条件 已创建好项目,详情请参见项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域和资源组。单击上方...

【漏洞公告】CVE-2017-15718:Apache Hadoop YARN ...

Apache Hadoop YARN NodeManager 存在CVE编号为CVE-2017-15718的信息泄露漏洞。攻击者可能利用该漏洞获得应用密码,受影响的Apache Hadoop版本有 2.7.3及2.7.4。该漏洞是由于CVE-2016-3086安全漏洞修复不完整导致。YARN NodeManager可能...

开启权限认证

tmp/hadoop-yarn drwx-wx-wx-hadoop hadoop 0 2021-06-16 15:54/tmp/hive drwxrwxrwt-hadoop hadoop 0 2021-06-08 13:16/tmp/logs drwxr-x-x-test hadoop 0 2021-06-16 17:15/tmp/test 执行以下命令,给目录设置ACL权限并授权给foo用户rwx...

通过HDP 2.6 Hadoop读取和写入OSS数据

hadoop-aliyun-2.7.3.2.6.1.0-129.jar移至${/usr/hdp/current}/hadoop-client/目录内,其余的jar文件移至${/usr/hdp/current}/hadoop-client/lib/目录内。调整后,目录结构如下:[root@hdp-master~]#ls-lh usr/hdp/current/hadoop-client...

操作步骤

云原生数据仓库AnalyticDB MySQL版支持通过DLA导入Hadoop数据。本文介绍相关操作步骤。前提条件 1.配置网络环境 DLA服务可购买在您的Hadoop或AnalyticDB MySQL的任意VPC内,故配置他们之间连通性首先需要将Hadoop和AnalyticDB MySQL的VPC...

从自建HDFS迁移数据

准备迁移工具您可以通过Hadoop社区标准的Distcp工具实现量或增量的HDFS数据迁移,详细的Distcp工具使用说明请参见Hadoop Distcp 工具官方说明文档。自建Hadoop集群数据迁移阿里云ECS自建Hadoop集群和文件引擎处于相同VPC网络环境时,可以...

测试环境

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求 测试环境总体要求: ...

什么是E-MapReduce

阿里云E-MapReduce(简称EMR),是运行在阿里云...Gateway集群,部署了Hadoop的客户端文件,您可以通过Gateway提交作业,避免直接登录集群产生的安全和客户端环境隔离问题。您需要先创建Hadoop集群,然后创建Gateway集群关联至Hadoop集群。

MapReduce开发手册

HADOOP_HOME>/share/hadoop/common/hadoop-common-X.X.X.jar:<HADOOP_HOME>/share/hadoop/mapreduce/hadoop-mapreduce-client-core-X.X.X.jar:<HADOOP_HOME>/share/hadoop/common/lib/commons-cli-1.2.jar d wordcount_classes ...

开源兼容MapReduce

本文为您介绍开源兼容MapReduce的应用背景,以及Hadoop MapReduce插件的基本使用方式。产生背景 MaxCompute有一套原生的MapReduce编程模型和接口,简单来说,这套接口的输入输出都是MaxCompute中的表,处理的数据以Record为组织形式,它...

从OSS迁移数据

建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop集群安装OSS客户端...

兼容MIT Kerberos认证

HA集群也需要登录emr-header-1节点。登录详情请参见使用SSH连接主节点。执行以下命令,编辑core-site.xml文件。vim etc/ecm/hadoop-conf/core-site.xml 查看hadoop.security.authentication.use.has的值。如果值为true,修改hadoop....

常见命令

Shell命令来对Alluxio中的文件进行操作,也可以使用Hadoop Shell命令操作Alluxio中的文件。本文为您介绍Alluxio的常见命令。前提条件 已创建集群,并选择了Alluxio服务,详情请参见创建集群。已登录集群,详情请参见登录集群。背景信息 ...

在ECI中访问HDFS的数据

HADOOP_CLASSPATH=usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/common/*:/usr/local/hadoop-2.7.2/share/hadoop/hdfs:/usr/local/hadoop-2.7.2/share/...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折