文件存储 HDFS

文件存储HDFS允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System) 中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件...

Hadoop环境安全加固

Hadoop 的框架核心的设计就是 HDFS 和 MapReduce 模块。HDFS 为海量的数据提供了存储,MapReduce 则为海量的数据提供了计算。HDFS 是 Google File System(GFS)的开源实现。MapReduce 是一种编程模型,用于大规模数据集(大于1TB)的并行...

使用Flink访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!
广告

安装

环境准备本节以hadoop-mapreduce-examples为例,介绍文件系统SDK的使用方式。其中MapReduce以伪分布式方式运行。有关MapReduce的伪分布方式,请参见Apache Hadoop文档说明。运行java-version命令,查看JDK版本。JDK版本不能低于1.8。按照...

【漏洞公告】CVE-2017-7669:Apache Hadoop远程权限...

Apache Hadoop是支持数据密集型分布式应用,并以Apache 2.0许可协议发布的软件框架。近期,国外安全研究人员发现,在Apache Hadoop 2.8.0版本、3.0.0-alpha1版本和3.0.0-alpha2版本中存在安全漏洞,该漏洞源于程序没有充分执行输入验证。...

常见问题排查

例如hadoop命令行或者任务出现如下错误时,表明org/apache/hadoop/fs/PathFilter相关的类未在hadoop的运行环境中,该类所属的jar包为hadoop-common-x.x.x.jar,需要用户下载该jar包的正确版本,并将其置于所有hadoop节点的hadoop运行环境的...

【漏洞公告】Hadoop YARN 资源管理系统 REST API未...

态势感知检测,安全管家处理安全产品建议:目前态势感知产品已支持检测针对此漏洞攻击,建议用户可以购买态势感知,开启检测安全服务建议:通过安全管家服务,在阿里云安全专家的指导下进行安全加固及优化工作,避免系统受到漏洞影响

使用Spark访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

通过开源HDFS客户端连接并使用文件引擎

本章介绍如何使用开源HDFS客户端访问文件引擎。准备运行环境执行命令java version,查看JDK版本。JDK版本不能低于1.7。按照以下方式设置环境变量,假设java安装位置为/opt/install/java。JAVA_HOME=opt/install/javaPATH=opt/install/java/...

在文件存储HDFS上使用Apache Spark

HADOOP_CLASSPATH=usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/common/*:/usr/local/hadoop-2.7.2/share/hadoop/hdfs:/usr/local/hadoop-2.7.2/share/...

常用文件路径

HADOOP_LOG_DIR=var/log/hadoop-hdfsHADOOP_HOME=usr/lib/hadoop-currentYARN_PID_DIR=usr/lib/hadoop-current/pidsHADOOP_PID_DIR=usr/lib/hadoop-current/pidsHADOOP_MAPRED_PID_DIR=usr/lib/hadoop-current/pidsJAVA_LIBRARY_PATH=usr/...

迁移开源HDFS的数据到文件存储HDFS

本文档介绍如何将开源HDFS的数据平滑地迁移到文件存储HDFS。背景信息当前业界有很多公司是以Hadoop技术构建数据中心,而越来越多的公司和企业希望将业务顺畅地迁移到云上。文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许您...

行业背景

ES-Hadoop开辟了更加广阔的应用空间,通过ES-Hadoop可以索引Hadoop中的数据到Elasticsearch,充分利用其查询和聚合分析功能,也可以在Kibana中做进一步的可视化分析,同时也可以把Elasticsearch中的数据放到Hadoop生态系统中做运算,ES-...

在文件存储HDFS上使用Apache Flink

cp~/flink-shaded/flink-shaded-hadoop-2-parent/flink-shaded-hadoop-2-uber/target/flink-shaded-hadoop-2-uber-2.7.2-11.0.jar usr/local/flink-1.9.0/lib/说明 在使用Apache Flink之前必须在您的集群环境变量中配置HADOOP_HOME,HADOOP...

使用Druid

emr-header-1.cluster-5678 iZbp10tx4egw3wfnh5o*安全Hadoop集群,请按如下操作进行: 确保集群间能够通信(两个集群在一个安全组下,或两个集群在不同安全组,但两个安全组之间配置了访问规则)。在E-MapReduce Druid集群的每个节点的指定...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

Hadoop

本文主要介绍如何使用DLA Spark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务,详情请参见开通数据湖分析服务并在云原生数据湖分析DLA控制台上创建了Spark...

开源地理空间UDF

本文为您介绍如何使用开源地理空间UDF分析空间数据。前提条件请确认您已完成以下操作:已安装Git。已安装Maven并设置环境变量。已安装MaxCompute客户端。更多安装MaxCompute客户端信息,请参见安装并配置客户端。背景信息Apache Hive有一套...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景本...

在文件存储HDFS上使用Presto

本文档主要介绍如何在文件存储HDFS上搭建及使用Presto。背景信息Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto支持在线数据查询,包括Hive、Cassandra、关系数据库以及专有数据存储。说明 在...

使用Fuse-DFS挂载文件存储HDFS

本文主要介绍如何使用fuse-dfs工具实现文件存储HDFS在本地文件系统的映射。背景信息Fuse-dfs是Hadoop项目自带的一个功能模块,提供了使用 FUSE(用户空间中的文件系统)在UNIX文件系统上映射HDFS的功能,在官方提供的Hadoop预编译版本中不...

Hadoop Streaming

本章节介绍如何使用Python写Hadoop Streaming作业。Python写Hadoop Streaming示例如下: mapper代码#!usr/bin/env pythonimport sysfor line in sys.stdin:line= line.strip()words=line.split()for word in words:print '%s\t%s'%(word,1)...

使用MapReduce处理JindoFS上的数据

本文介绍如何使用MapReduce读写JindoFS上的数据。JindoFS配置已创建名为emr-jfs的命名空间,示例如下: jfs.namespaces=emr-jfs jfs.namespaces.emr-jfs.uri=oss:/oss-bucket/oss-dir jfs.namespaces.emr-jfs.mode=block MapReduce简介...

私网连接 PrivateLink

私网连接(PrivateLink)能够实现专有网络VPC与阿里云上的服务建立安全稳定的私有连接,简化网络架构,实现私网访问服务,避免通过公网访问服务带来的潜在安全风险。

Hadoop MapReduce作业配置

本文介绍如何配置Hadoop MapReduce类型的作业。前提条件已创建好项目,详情请参见项目管理。操作步骤 新建作业。已通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域和资源组。单击上方的数据开发页签。在...

SDK示例

背景信息文件存储HDFS提供对Apache Hadoop FileSystem API的兼容,您可以参考Hadoop FileSystem API进行开发。说明 目前,部分Hadoop FileSystem API的兼容还未在文件存储HDFS SDK中提供,详情请参见使用限制。准备工作 已完成文件存储HDFS...

通过Spark Streaming作业处理Kafka数据

本文介绍如何使用阿里云E-MapReduce创建的Hadoop和Kafka集群,运行Spark Streaming作业以消费Kafka数据。前提条件 已注册阿里云账号,详情请参见阿里云账号注册流程。已开通E-MapReduce服务。已完成云账号的授权,详情请参见角色授权。本地...

操作步骤

云原生数据仓库AnalyticDB MySQL支持通过DLA导入Hadoop数据。本文介绍了该功能的操作步骤。有关于功能的详细说明请参见功能说明。前提条件 1.配置网络环境 DLA服务可购买在您的Hadoop或ADB的任意VPC内,故配置他们之间连通性首先需要将...

【漏洞公告】CVE-2017-15718:Apache Hadoop YARN ...

Apache Hadoop YARN NodeManager 存在CVE编号为CVE-2017-15718的信息泄露漏洞。攻击者可能利用该漏洞获得应用密码,受影响的Apache Hadoop版本有 2.7.3及2.7.4。该漏洞是由于CVE-2016-3086安全漏洞修复不完整导致。YARN NodeManager可能...

从自建HDFS迁移数据

本章介绍如何将在开源HDFS的数据平滑地迁移到Lindorm的文件引擎中。背景介绍在某些场景下面,我们需要从自建的Hadoop中存储的数据迁移到Lindrom的文件引擎当中。适用范围阿里云ECS自建Hadoop集群中的数据迁移到文件引擎。准备工作开通文件...

Lindorm文件引擎

本文介绍了如何使用DLA Spark访问Lindorm文件引擎。前提条件 已经创建了Spark虚拟集群。具体操作请参见创建虚拟集群。已经开通对象存储OSS(Object Storage Service)服务。具体操作请参见开通OSS服务。前往Lindorm控制台,把要访问的...

测试环境

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求测试环境总体要求: 自...

什么是E-MapReduce

阿里云E-MapReduce(简称EMR),是运行在阿里云...Gateway集群,部署了Hadoop的客户端文件,您可以通过Gateway提交作业,避免直接登录集群产生的安全和客户端环境隔离问题。您需要先创建Hadoop集群,然后创建Gateway集群关联至Hadoop集群。

迁移Hadoop文件系统数据至JindoFS

本文以OSS为例,介绍如何Hadoop文件系统上的数据迁移至JindoFS。迁移数据 Hadoop FsShell对于文件较少或者数据量较小的场景,可以直接使用Hadoop的FsShell进行同步:hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs-...

从OSS迁移数据

本章节介绍如何将对象存储OSS上的数据迁移到文件引擎。准备工作开通文件引擎,详情请参见 开通指南。搭建Hadoop集群。建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为Apache Hadoop 2.7.3,修改Hadoop 配置信息,详情参见...

开源兼容MapReduce

本文为您介绍开源兼容MapReduce的应用背景,以及Hadoop MapReduce插件的基本使用方式。产生背景MaxCompute有一套原生的MapReduce编程模型和接口,简单来说,这套接口的输入输出都是MaxCompute中的表,处理的数据以Record为组织形式,它可以...

通过HDP 2.6 Hadoop读取和写入OSS数据

本文以HDP2.6.1.0版本为例,介绍如何配置HDP2.6版本支持读写OSS。前提条件您需要拥有一个已搭建好的HDP 2.6.1.0的集群。若没有已搭建好的HDP 2.6.1.0集群,您可以通过以下方式搭建: 查找参考文档利用Ambari搭建HDP 2.6.1.0的集群。不使用...

Hive授权

seconds#查看hdfs中testtbl的目录,从权限可以看出test用户创建的表数据只有test和hadoop组可以读取,其他用户没有任何权限hadoop fs-ls/user/hive/warehousedrwxr-x-test hadoop0 2017-11-25 14:51 user/hive/warehouse/testtbl#插入一条...

MapReduce开发手册

HADOOP_HOME>/share/hadoop/common/hadoop-common-2.6.0.jar:<HADOOP_HOME>/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:<HADOOP_HOME>/share/hadoop/common/lib/commons-cli-1.2.jar d wordcount_classes ...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
产品推荐
云安全中心 内容安全 安全管家服务 云服务器 商标 物联网无线连接服务 SSL证书 短信服务
这些文档可能帮助您
图片OCR识别 先知月榜奖励计划 Web服务端漏洞类型 漏洞等级说明 SDK 概览 什么是内容安全

新品推荐

你可能感兴趣

热门推荐

切换为移动版

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折