常用文件路径

HADOOP_LOG_DIR=var/log/hadoop-hdfsHADOOP_HOME=usr/lib/hadoop-currentYARN_PID_DIR=usr/lib/hadoop-current/pidsHADOOP_PID_DIR=usr/lib/hadoop-current/pidsHADOOP_MAPRED_PID_DIR=usr/lib/hadoop-current/pidsJAVA_LIBRARY_PATH=usr/...

安装

wordcount样例bin/hadoopjar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jarwordcountinputDiroutputDirgrep样例bin/hadoopjar./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jargrepinputDir/outputDirGrep/...

开源地理空间UDF

本文为您介绍如何使用开源地理空间UDF分析空间数据。前提条件请确认您已完成以下操作...打开Hive兼容并提交测试函数。setodps.sql.hive.compatible=true;selectST_AsText(ST_Point(1,2));返回结果如下,说明安装成功。c0|+-+|POINT(12)|+-+

阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!
广告

使用Spark访问

usr/local/hadoop-2.7.3/share/hadoop/hdfs/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/hdfs/*:/usr/local/hadoop-2.7.3/share/hadoop/yarn/lib/*:/usr/local/hadoop-2.7.3/share/hadoop/yarn/*:/usr/local/hadoop-2.7.3/share/hadoop/...

在文件存储HDFS上使用Apache Spark

usr/local/hadoop-2.7.2/share/hadoop/hdfs/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/hdfs/*:/usr/local/hadoop-2.7.2/share/hadoop/yarn/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/yarn/*:/usr/local/hadoop-2.7.2/share/hadoop/...

在文件存储HDFS上使用Presto

为了避免兼容问题,文件存储HDFS的sdk需要作为Presto的Hadoop的依赖项,并对Presto中引入的Hadoop的jar包hadoop-apache2-xxx.jar进行重新编译。查看您安装的Presto中的presto-hadoop-apache2版本。在0.227版本的presto中对应的presto-...

高级设置

例如当判断请求返回302为正常,但不使用302跳转时,可以使用此功能新增请求成功的状态码,确保压测结果准确。域名绑定域名绑定是指将域名与指定的IP地址关联。压测时,压测流量将直接访问绑定的IP地址,实现对目标设施的压测。以下情况...

集群吞吐性能测试

TestDFSIO的jar包位于开源hadoop版本的$HADOOP_HOME/share/hadoop/mapreduce目录下,其中$HADOOP_HOME为测试机器中的Hadoop安装目录,jar包名为hadoop-mapreduce-client-jobclient-x.x.x-tests.jar,TestDFSIO使用方法如下所示。...

什么是E-MapReduce

Master节点,部署了Hadoop的主节点服务,包括HDFSNameNode、HDFSJournalNode、ZooKeeper、YARNResourceManager和HBaseHMaster等服务,可以根据集群的使用场景,选择可用集群或非可用集群。测试环境可以选择非可用集群,生产环境建议...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。...

Hadoop Streaming

hadoopjar/usr/lib/hadoop-current/share/hadoop/tools/lib/hadoop-streaming-X.X.X.jar-file/home/hadoop/mapper.py-mappermapper.py-file/home/hadoop/reducer.py-reducerreducer.py-input/tmp/hosts-output/tmp/output参数描述input输入...

使用Fuse-DFS挂载文件存储HDFS

背景信息Fuse-dfs是Hadoop项目自带的一个功能模块,提供了使用FUSE(用户空间中的文件系统)在UNIX文件系统上映射HDFS的功能,在官方提供的Hadoop预编译版本中不包含fuse-dfs的功能模块,如需使用该功能需要手动编译该功能模块并添加到官方...

MaxCompute高级配置

权限管理:设置并管理当前角色对表或项目的权限,详情请参见授权。删除:仅支持删除当前账号新建的角色。新增角色单击右上角的新增角色,在新增角色对话框中填写角色名称,在待添加账号处勾选需要添加的成员账号,单击>,将需要添加的账号...

MapReduce开发手册

javac-classpath<HADOOP_HOME>/share/hadoop/common/hadoop-common-X.X.X.jar:<HADOOP_HOME>/share/hadoop/mapreduce/hadoop-mapreduce-client-core-X.X.X.jar:<HADOOP_HOME>/share/hadoop/common/lib/commons-cli-1.2.jar-dwordcount_...

在文件存储HDFS上使用Apache Flink

cp~/flink-shaded/flink-shaded-hadoop-2-parent/flink-shaded-hadoop-2-uber/target/flink-shaded-hadoop-2-uber-2.7.2-11.0.jar/usr/local/flink-1.9.0/lib/说明在使用ApacheFlink之前必须在您的集群环境变量中配置HADOOP_HOME,HADOOP_...

迁移开源HDFS的数据到文件存储HDFS

背景信息当前业界有很多公司是以Hadoop技术构建数据中心,而越来越多的公司和企业希望将业务顺畅地迁移到云上。文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许您在云上就像在Hadoop分布式文件系统中管理和访问数据。适用...

高级监控

应用实时监控服务ARMS(ApplicationReal-TimeMonitoringService)是一款阿里云应用性能管理APM(ApplicationPerformanceManagement)类监控产品。EDAS可以无缝对接ARMS应用监控,您部署在EDAS上的应用可以通过开启高级监控获得ARMS提供的...

概述

混合云大数据容灾(英文HDRforBigData,简称HDR-BD)是针对Hadoop集群的灾备方案。说明目前HDR-BD正在邀测,您可以到混合云容灾服务控制台中注册,我们会评估后尽早联系您。您也可以联系阿里云CBM获取邀测资格。HDR-BD在邀测阶段不收取服务...

自建Hadoop数据迁移到阿里云E-MapReduce

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。适用场景本...

在ECI中访问HDFS的数据

usr/local/hadoop-2.7.2/share/hadoop/hdfs/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/hdfs/*:/usr/local/hadoop-2.7.2/share/hadoop/yarn/lib/*:/usr/local/hadoop-2.7.2/share/hadoop/yarn/*:/usr/local/hadoop-2.7.2/share/hadoop/...

文件存储HDFS和对象存储OSS双向数据迁移

您可以通过文件存储HDFS和对象存储OSS之间双向数据迁移,从而为热、温、冷数据合理分层,不但实现对热数据的高性能访问,更有效控制存储成本。准备工作开通文件存储HDFS服务并创建文件系统实例和挂载点,详情请参见快速入门。搭建完成...

使用Druid

对于独立的E-MapReduceDruid集群,如果您需要存放索引数据至一个Hadoop集群的HDFS,请设置两个集群的连通(详情请参见与Hadoop集群交互)。在E-MapReduceDruid配置页面的common.runtime页签,配置如下参数。参数描述druid.storage.type...

高级监控

应用实时监控服务ARMS(ApplicationReal-TimeMonitoringService)是一款阿里云应用性能管理APM(ApplicationPerformanceManagement)类监控产品。EDAS可以无缝对接ARMS应用监控,您部署在EDAS上的应用可以通过开启高级监控获得ARMS提供的...

使用MapReduce处理JindoFS上的数据

具体命令如下:hadoopjar/usr/lib/hadoop-current/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jarterasort<in><out>替换输入和输出路径,即可处理JindoFS上的数据:hadoopjar/usr/lib/hadoop-current/share/hadoop/mapreduce/...

自建Hadoop数据迁移到阿里云EMR

介绍如何将客户自建Hadoop/Hive数据仓库迁移到阿里云EMR的技术实现方案和实践步骤。直达最佳实践点击查看最佳实践详情更多最佳实践点击查看更多阿里云最佳实践场景描述场景1:自建Hadoop集群数据(HDFS)迁移到阿里云EMR集群的HDFS文件系统...

Hadoop

本文主要介绍如何使用DLASpark访问用户VPC中的HADOOP集群(开启kerberos认证的集群暂不支持)。前提条件您已开通数据湖分析DLA(DataLakeAnalytics)服务,详情请参见开通数据湖分析服务并在云原生数据湖分析DLA控制台上创建了Spark虚拟...

使用JindoFS SDK免密功能

前提条件适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息使用JindoFSSDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

通过开源HDFS客户端连接并使用文件引擎

property><name>dfs.nameservices</name><value>${实例id}</value></property><property><name>dfs.client.failover.proxy.provider.${实例id}</name><value>org.apache.hadoop.hdfs.server.namenode.ha....

操作步骤

配置网络环境DLA服务可购买在您的Hadoop或AnalyticDBMySQL的任意VPC内,故配置他们之间连通首先需要将Hadoop和AnalyticDBMySQL的VPC网络打通,使Hadoop和AnalyticDBMySQL之间能够互相访问。说明验证是否打通可用一端ECS访问另一端ECS,如...

从自建HDFS迁移数据

检查自建的Hadoop集群和Lindorm文件引擎的连通。在自建的Hadoop集群上执行以下命令测试集群的连通。hadoopfs-lshdfs:/${实例Id}/其中${实例Id}请根据您的实际情况进行修改。如果可以正常查看到文件引擎的文件列表,则表示集群连通成功...

从OSS迁移数据

建议您使用的Hadoop版本不低于2.7.3,本文档中使用的Hadoop版本为ApacheHadoop2.7.3,修改Hadoop配置信息,详情参见使用开源HDFS客户端访问。在Hadoop集群所有节点上安装JDK,本操作要求JDK版本不低于1.8。在Hadoop集群安装OSS客户端...

使用JindoFS SDK免密功能

前提条件适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息使用JindoFSSDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用JindoFS SDK免密功能

前提条件适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息使用JindoFSSDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用JindoFS SDK免密功能

前提条件适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息使用JindoFSSDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用JindoFS SDK免密功能

前提条件适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息使用JindoFSSDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用JindoFS SDK免密功能

前提条件适用环境:ECS(EMR环境外)+Hadoop+JavaSDK。背景信息使用JindoFSSDK时,需要把环境中相关Jindo的包从环境中移除,如jboot.jar、smartdata-aliyun-jfs-*.jar。如果要使用Spark则需要把/opt/apps/spark-current/jars/里面的包也...

使用高速通道产品时常见的配额限制相关问题

中国境外地域,您还可以提交工单申请购买权限。中国境内地域,若本账户和他人账户属于同一家集团企业,您也可以提交工单申请购买权限。超过配额限制。默认情况下,一个账号最多可为其他账号创建的边界路由器(VBR)个数为2。如果您为他人...
来自: 首页

通过Spark Streaming作业处理Kafka数据

本文介绍如何使用阿里云E-MapReduce创建的Hadoop和Kafka集群,运行SparkStreaming作业以消费Kafka数据。前提条件已注册阿里云账号,详情请参见阿里云账号注册流程。已开通E-MapReduce服务。已完成云账号的授权,详情请参见角色授权。本地...

自建Hadoop迁移到阿里云EMR

场景2:自建Hadoop集群数据(HDFS)迁移到计算存储分离架构的阿里云EMR集群,以OSS和JindoFS作为EMR集群的后端存储。解决问题客户自建Hadoop迁移到阿里云EMR集群的技术方案基于IPSecVPN隧道构建安全和低成本数据传输链路方案架构
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO

新品推荐

你可能感兴趣

热门推荐

切换为移动版

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折