文件存储 HDFS

文件存储HDFS允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System) 中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件...

Hadoop环境安全加固

Hadoop 介绍Hadoop 是一个由 Apache 基金会所开发的一个开源、高可靠、可扩展的分布式计算框架。Hadoop 的框架最核心的设计就是 HDFS 和 MapReduce 模块。HDFS 为海量的数据提供了存储,MapReduce 则为海量的数据提供了计算。HDFS 是 ...

集群端口配置

Hadoop HDFS 服务 端口 配置 NameNode 9000 fs.defaultFS或fs.default.name 说明 fs.default.name已经过期但仍能使用。50070 dfs.namenode.http-address或dfs.http.address 说明 dfs.http.address已过期但仍能使用。Hadoop YARN(MRv2)...

阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!
广告

【漏洞公告】Hadoop YARN 资源管理系统 REST API未...

访问源IP进行控制如果本身Hadoop环境仅对内网提供服务,请不要将Hadoop服务端口发布到互联网2.彻底解决建议:若使用自建的Hadoop,根据实际情况及时更新补丁,Hadoop在2.X以上版本提供了安全认证功能,加入了Kerberos认证机制,建议启用...

访问Spark集群HDFS服务

在一些场景下,需要打开Spark集群的HDFS端口注意:hdfs端口打开后,因误操作hdfs导致的数据丢失等问题客户自身承担,客户需要对hdfs的操作比较了解。访问限制目前支持的是 同VPC内的ECS 访问Spark HDFS,暂时不支持公网访问。请将同VPC的...

数据库网关 DG

数据库网关(Database Gateway,DG)允许您无需本地开通公网端口,将本地数据库与云服务连接起来。

使用Flink访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

安装

环境准备本节以hadoop-mapreduce-examples为例,介绍文件系统SDK的使用方式。其中MapReduce以伪分布式方式运行。有关MapReduce的伪分布方式,请参见Apache Hadoop文档说明。运行java-version命令,查看JDK版本。JDK版本不能低于1.8。按照...

常见问题排查

例如hadoop命令行或者任务出现如下错误时,表明org/apache/hadoop/fs/PathFilter相关的类未在hadoop的运行环境中,该类所属的jar包为hadoop-common-x.x.x.jar,需要用户下载该jar包的正确版本,并将其置于所有hadoop节点的hadoop运行环境的...

使用Spark访问

HADOOP_CLASSPATH=usr/local/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop-2.7.3/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs:/usr/local/hadoop-2.7.3/share/...

在文件存储HDFS上使用Apache Spark

HADOOP_CLASSPATH=usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/common/*:/usr/local/hadoop-2.7.2/share/hadoop/hdfs:/usr/local/hadoop-2.7.2/share/...

常用文件路径

HADOOP_LOG_DIR=var/log/hadoop-hdfsHADOOP_HOME=usr/lib/hadoop-currentYARN_PID_DIR=usr/lib/hadoop-current/pidsHADOOP_PID_DIR=usr/lib/hadoop-current/pidsHADOOP_MAPRED_PID_DIR=usr/lib/hadoop-current/pidsJAVA_LIBRARY_PATH=usr/...

行业背景

ES-Hadoop开辟了更加广阔的应用空间,通过ES-Hadoop可以索引Hadoop中的数据到Elasticsearch,充分利用其查询和聚合分析功能,也可以在Kibana中做进一步的可视化分析,同时也可以把Elasticsearch中的数据放到Hadoop生态系统中做运算,ES-...

在文件存储HDFS上使用Apache Flink

cp~/flink-shaded/flink-shaded-hadoop-2-parent/flink-shaded-hadoop-2-uber/target/flink-shaded-hadoop-2-uber-2.7.2-11.0.jar usr/local/flink-1.9.0/lib/说明 在使用Apache Flink之前必须在您的集群环境变量中配置HADOOP_HOME,HADOOP...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

开源地理空间UDF

更多安装MaxCompute客户信息,请参见安装并配置客户。背景信息Apache Hive有一套开源的地理空间UDF,详情请参见Github。MaxCompute原生支持直接使用Hive UDF,因此也支持在MaxCompute中使用Hive地理空间函数。MaxCompute使用Hive UDF的...

Spark访问外部HDFS

spark.hadoop.dfs.client.failover.proxy.provider.${B实例id}=org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider-conf spark.hadoop.dfs.ha.automatic-failover.enabled.${B实例id}=true-conf spark.hadoop.dfs...

使用Fuse-DFS挂载文件存储HDFS

hadoop-2.8.5-src/hadoop-hdfs-project/hadoop-hdfs-native-client/target/main/native/fuse-dfs/fuse_dfs/usr/local/hadoop-2.8.5/bin 配置环境变量。执行vim/etc/profile命令,打开配置文件,添加如下内容。export OS_ARCH=amd64export ...

迁移开源HDFS的数据到文件存储HDFS

背景信息当前业界有很多公司是以Hadoop技术构建数据中心,而越来越多的公司和企业希望将业务顺畅地迁移到云上。文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许您在云上就像在Hadoop分布式文件系统中管理和访问数据。适用...

Hadoop Streaming

本章节介绍如何使用Python写Hadoop Streaming作业。Python写Hadoop Streaming示例如下: mapper代码#!usr/bin/env pythonimport sysfor line in sys.stdin:line= line.strip()words=line.split()for word in words:print '%s\t%s'%(word,1)...

使用MapReduce处理JindoFS上的数据

usr/lib/hadoop-current/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar teragen rows>替换输出路径,可以把数据输出到JindoFS 上:hadoop jar usr/lib/hadoop-current/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar...

通过开源HDFS客户连接并使用文件引擎

JAVA_HOME=opt/install/javaPATH=opt/install/java/bin:$PATH下载客户您可以从Apache官网下载hadoop2.7.3版本SDK hadoop-2.7.3.tar.gz。配置Hadoop下载hadoop-2.7.3发布包。执行tar-zxvf hadoop-2.7.3.tar.gz命令,解压缩SDK包。执行...

Hadoop MapReduce作业配置

本文介绍如何配置Hadoop MapReduce类型的作业。前提条件已创建好项目,详情请参见项目管理。操作步骤 新建作业。已通过阿里云账号登录阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域和资源组。单击上方的数据开发页签。在...

通过Spark Streaming作业处理Kafka数据

本文介绍如何使用阿里云E-MapReduce创建的Hadoop和Kafka集群,运行Spark Streaming作业以消费Kafka数据。前提条件 已注册阿里云账号,详情请参见阿里云账号注册流程。已开通E-MapReduce服务。已完成云账号的授权,详情请参见角色授权。本地...

在文件存储HDFS上使用Presto

为了避免兼容性问题,文件存储HDFS的sdk需要作为Presto的Hadoop的依赖项,并对Presto中引入的Hadoop的jar包hadoop-apache2-xxx.jar进行重新编译。查看您安装的Presto中的presto-hadoop-apache2版本。在0.227版本的presto中对应的presto-...

使用Druid

如果Hadoop集群为HA集群,emr-header-1.cluster-xxxxx:9000需要改成emr-cluster,或者把端口9000改成8020。配置OSS作为E-MapReduce Druid的Deep Storage。在E-MapReduce Druid配置页面的common.runtime页签,配置如下参数。参数描述 druid....

【漏洞公告】CVE-2017-7669:Apache Hadoop远程权限...

Apache Hadoop是支持数据密集型分布式应用,并以Apache 2.0许可协议发布的软件框架。近期,国外安全研究人员发现,在Apache Hadoop 2.8.0版本、3.0.0-alpha1版本和3.0.0-alpha2版本中存在安全漏洞,该漏洞源于程序没有充分执行输入验证。...

从自建HDFS迁移数据

配置信息,详情请参见使用开源HDFS客户访问。检查自建的Hadoop集群和Lindorm文件引擎的连通性。在自建的Hadoop 集群上执行以下命令测试集群的连通性。hadoop fs-ls hdfs:/${实例Id}/其中${实例Id}请根据您的实际情况进行修改。如果可以...

测试环境

本次测试采用3种不同的测试场景,针对开源自建的Hadoop+Spark集群与阿里云云原生数据湖分析DLA Spark在执行Terasort基准测试的性能做了对比分析。本文档主要介绍了3种不同测试场景下的测试环境配置要求。环境配置要求测试环境总体要求: 自...

操作步骤

云原生数据仓库AnalyticDB MySQL支持通过DLA导入Hadoop数据。本文介绍了该功能的操作步骤。有关于功能的详细说明请参见功能说明。前提条件 1.配置网络环境 DLA服务可购买在您的Hadoop或ADB的任意VPC内,故配置他们之间连通性首先需要将...

从OSS迁移数据

2.7.3,修改Hadoop 配置信息,详情参见使用开源HDFS客户访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop集群安装OSS客户JindoFS SDK。JindoFS SDK详细介绍请参见JindoFS SDK。下载 jindofs-sdk.jar。cp ...

开源兼容MapReduce

本文为您介绍开源兼容MapReduce的应用背景,以及Hadoop MapReduce插件的基本使用方式。产生背景MaxCompute有一套原生的MapReduce编程模型和接口,简单来说,这套接口的输入输出都是MaxCompute中的表,处理的数据以Record为组织形式,它可以...

访问HBase HDFS

cluster</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value></property><property><name>dfs.ha.automatic-failover.enabled.hbase-cluster</name><value>true</value></property>...

迁移Hadoop文件系统数据至JindoFS

本文以OSS为例,介绍如何将Hadoop文件系统上的数据迁移至JindoFS。迁移数据 Hadoop FsShell对于文件较少或者数据量较小的场景,可以直接使用Hadoop的FsShell进行同步:hadoop dfs-cp hdfs:/emr-cluster/README.md jfs:/emr-jfs/hadoop dfs-...

在ECI中访问HDFS的数据

HADOOP_CLASSPATH=usr/local/hadoop-2.7.2/etc/hadoop:/usr/local/hadoop-2.7.2/share/hadoop/common/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/common/*:/usr/local/hadoop-2.7.2/share/hadoop/hdfs:/usr/local/hadoop-2.7.2/share/...

SDK示例

背景信息文件存储HDFS提供对Apache Hadoop FileSystem API的兼容,您可以参考Hadoop FileSystem API进行开发。说明 目前,部分Hadoop FileSystem API的兼容还未在文件存储HDFS SDK中提供,详情请参见使用限制。准备工作 已完成文件存储HDFS...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景本...

安全组配置检查

Hadoop YARN远程运维端口暴露 8088端口允许任意IP访问,关联的Hadoop YRAN可能被暴力破解入侵。建议您在ECS管理控制台的安全组列表页面配置拒绝公网IP对服务器8088端口的访问。Hadoop远程运维端口暴露 50070、50030端口允许任意IP访问,...

什么是E-MapReduce

阿里云E-MapReduce(简称EMR),是运行在阿里云...Gateway集群,部署了Hadoop的客户文件,您可以通过Gateway提交作业,避免直接登录集群产生的安全和客户环境隔离问题。您需要先创建Hadoop集群,然后创建Gateway集群关联至Hadoop集群。
< 1 2 3 4 ... 117 >
共有117页 跳转至: GO
产品推荐
E-MapReduce 云服务器 商标 SSL证书 物联网无线连接服务 短信服务 轻量应用服务器 对象存储
这些文档可能帮助您
Hive授权 Spark对接MaxCompute 访问链接与端口 E-MapReduce SDK发布说明 通过PyFlink作业处理Kafka数据 组件角色部署

新品推荐

你可能感兴趣

热门推荐

切换为移动版

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折