Hive连接器

使用Hive连接器可以查询和分析存储在Hive数据仓库中的数据。背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储在Hadoop分布式文件系统(HDFS)或对象存储系统(例如,阿里云OSS)中。存储着数据文件到Schema和...

管理Hive Metastore

说明 不开启kerberos鉴权时,VVP端访问Hive的默认用户名为vvp,Flink集群中访问Hive的默认用户名为flink。因此您要保证vvp和flink这两个用户都有访问Hive元数据和文件系统(例如HDFS)上的Hive表数据的权限。一个Flink全托管实例仅支持...

EMR Hive功能增强

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本 组件版本 功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行show create table命令,...

文件存储 CPFS

CPFS(Cloud Paralleled File System)是一种并行文件系统。CPFS的数据存储在集群中的多个数据节点,并可由多个客户端同时访问,从而能够为大型高性能计算机集群提供高IOPS、高吞吐、低时延的数据存储服务。

创建Hive数据源

Hive处理的数据存储在HDFS中。Hive分析数据底层的实现是MapReduce、Tez等。Hive的执行程序运行在Yarn上。如果您使用的是Hive,在对接Dataphin进行数据开发或将Dataphin的数据写入至Hive的场景中,您需要先完成Hive数据源的创建。更多Hive...

文件存储 HDFS

文件存储HDFS允许您就像Hadoop分布式文件系统(Hadoop Distributed File System)中管理和访问数据。您无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统...

环境准备

export HADOOP_HOME=data/hadoop/hadoop-2.6.0 export PATH=$PATH:$HADOOP_HOME/bin 下载及安装Hive环境 下载类型为bin.tar.gz的Hive安装包,具体下载路径请参见Hive安装包。按照如下示例解压安装包。mkdir/home/admin/hive-2.1.0$tar-zxvf...

表格存储 Tablestore

表格存储(Tablestore)是构建阿里云飞天分布式系统之上的 NoSQL 数据存储服务,提供海量结构化数据的存储和实时访问。

使用Hive查询JindoFS上的数据

Hive scratch目录 Hive会把一些临时输出文件和作业计划存储在scratch目录,可以通过设置hive-site的hive.exec.scratchdir把地址指向到JindoFS,也可以通过命令行传参。bin/hive-hiveconf hive.exec.scratchdir=jfs:/emr-jfs/scratch_dir...

对象存储 OSS

对象存储服务(Object Storage Service,OSS)是一种海量、安全、低成本、高可靠的云存储服务,适合存放任意类型的文件。容量和处理能力弹性扩展,多种存储类型供选择,全面优化存储成本。

Hive作业调优

Hive的文件基本上都是存储在HDFS上,而HDFS上的文件,都是分块的,所以具体的Hive数据文件在HDFS上分多少块,可能对应的是默认Hive起始的Task的数量,使用default_mapper_num参数表示。使用数据总大小除以dfs默认的最大块大小来决定初始...

存储网关

存储网关,是一款可用户IDC和阿里云上部署的软网关,以阿里云OSS为后端存储,通过低成本的虚拟机服务器,给云上和云下应用提供业界标准的NFS和CIFS文件存储服务。

数据库文件存储

数据库文件存储(DBFS),是一款针对数据库场景的云原生共享文件存储服务。它基于共享存储架构设计,通过文件协议提供数据库定制功能,具备企业级存储特性。主要服务于云上自建数据库,基于传统SAN的应用等,为用户提供极致IO性能和高可用...

混合云存储阵列

混合云阵列(Hybrid Cloud Storage Array)是部署IDC的一款硬件存储设备,提供本地文件和块存储服务,并且可以无缝的将数据迁移到云端。

通过Hive访问HBase增强版

将访问HBase的Hive机器IP加入HBase白名单所有访问HBase的Hive机器的IP,必须加入HBase集群的白名单中,否则无法访问,添加白名单请参考设置白名单。Hive中配置连接参数Hive中配置连接HBase的参数有两种方式,一种是直接配置hive-site...

文件存储 NAS

阿里云文件存储NAS是一个可共享访问,弹性扩展,高可靠,高性能的分布式文件系统。兼容POSIX文件接口,可支持上千台弹性计算ECS、容器服务ACK等计算节点共享访问,您无需修改应用程序,即可无缝迁移业务系统上云。

新建Hive云计算资源

端口 Hive的端口,默认值10000。登录用户名 登录用户名,客户自定义,示例:admin。登录密码 登录密码,客户自定义。DefaultFS 非必填。描述 可选项,Hive云计算资源的描述。是否校验连通性 默认选择”是“,用于新建资源的连通性测试。...

Hive概述

Hive是一个基于Hadoop的数据仓库框架,大数据业务场景中,主要用来进行数据提取、转化和加载(ETL)以及元数据管理。背景信息 E-MapReduce(简称EMR)版本中,Hadoop、Hive版本和EMR集群...Zeppelin中使用Hive的详情请参见Zeppelin概述。

Hive配置

权限设置:Hive官方自带的Hive授权针对HiveServer2使用场景进行权限控制。Ranger中对Hive的表或列级别的权限控制也是针对HiveServer2的使用场景。如果您还可以通过Hive Client或者HDFS访问Hive数据,仅对表或列层面做权限控制还不够,需要...

Hive访问EMR Phoenix数据

本文通过示例为您介绍如何使用EMR上的Hive处理EMR Phoenix数据。前提条件 已创建Hadoop集群,并且选择了HBase、Zookeeper和Phoenix服务,详情请参见创建集群。说明 因为当前EMR-4.x和EMR-5.x系列版本未支持Phoenix服务,所以此文档仅适用于...

与MySQL、Oracle内建函数对照表

函数类型 MaxCompute HIVE MySQL Oracle MaxCompute SQL中是否支持分区剪裁 日期函数 DATEDIFF DATEDIFF DATEDIFF MONTHS_BETWEEN MaxCompute模式下:支持。Hive模式下:不支持。DATE_ADD DATE_ADD DATE_ADD 无 MaxCompute模式下:不支持...

通过Hive访问Lindorm

连接前的准备 获取连接地址 获取用户名密码 将访问Lindorm的Hive机器IP加入白名单 所有访问Lindorm的Hive机器的IP,必须加入Lindorm集群的白名单中,否则无法访问,添加白名单请参见设置白名单。Hive中配置连接参数 Hive中配置连接...

准备工作

预处理待迁移数据 您可以通过如下方法对待迁移数据进行预处理,可以提升迁移效率、提升数据进入MaxCompute后的查询效率以及提前发现并解决MaxCompute与Hive的不兼容问题。分区合并 尽可能减少分区数,可以加速迁移。例如,7 TB非分区表迁移...

Hive访问EMR HBase数据

本文通过示例为您介绍,如何使用EMR上的Hive处理EMR HBase数据。前提条件 已创建Hadoop集群,并且选择了HBase和Zookeeper服务,详情请参见创建集群。Hive通过内表访问HBase 如果HBase中没有已经创建好的表,则可以Hive中创建表,Hive会...

数据湖元数据

EMR-3.30.0及之后版本和EMR-4.5.0及之后版本,默认选择数据湖元数据作为Hive数据库。数据湖元数据是服务化高可用并且可扩展的元数据库,您无需额外购买独立的元数据库,就可以实现多个引擎计算,例如同时使用MaxCompute和E-MapReduce(简称...

云数据源Hive

本文为您介绍新建Hive类型的云数据源。前提条件 已创建阿里云Hive数据库。已获取Hive数据库的用户名和密码。背景信息 Quick BI专业版和高级版支持新建Hive数据源。操作步骤 登录Quick BI控制台。单击工作空间>数据源。数据源管理页面...

开源地理空间UDF

MaxCompute原生支持直接使用Hive UDF,因此也支持MaxCompute中使用Hive地理空间函数。MaxCompute使用Hive UDF的示例请参见兼容Hive UDF。说明 使用过程中,如果您有任何问题,请直接GitHub上提交issues获取帮助。步骤一:准备本地...

文件存储HDFS上使用Presto

说明 本文档中Presto是通过连接Hive的元数据服务来读取文件存储HDFS上的数据,文件存储HDFS上使用Presto时需要额外配置一些依赖包,详细操作步骤请参见配置Presto。准备工作 文件存储HDFS上搭建和使用Presto,需要先完成以下准备工作...

自建数据源Hive

本文为您介绍如何创建自建数据库Hive。仅专业版和高级版的群空间支持创建自建数据库Hive。前提条件 请确保您的网络连通性:您通过公网连接Quick BI与Hive数据库,请添加Quick BI的IP地址至数据库白名单,请参见添加安全组规则。Quick BI的...

Hive作业配置

E-MapReduce默认提供了Hive环境,您可以直接使用Hive来创建和操作创建的表和数据。前提条件 已创建好项目,详情请参见项目管理。已准备好Hive SQL的脚本,并上传到OSS的某个目录中(例如oss:/path/to/uservisits_aggre_hdfs.hive)。...

使用Hive访问

HADOOP_HOME/bin/hadoop fs-ls/user/hive/warehouse$HADOOP_HOME/bin/hadoop fs-ls/tmp/hive$HADOOP_HOME/bin/hadoop fs-chmod 775/user/hive/warehouse$HADOOP_HOME/bin/hadoop fs-chmod 775/tmp/hive修改io.tmpdir路径同时要修改hive-...

Hive连接方式

本文为您介绍E-MapReduce集群提交Hive SQL的两种方式。前提条件 已登录集群,详情请参见登录集群。方式一:通过Hive客户端 普通集群,提交方式如下所示。hive返回信息如下所示。Logging initialized using configuration in file:/etc/...

配置CDH6使用文件存储HDFS

CDH6 Hive服务的元数据存储在Mysql,进入存储Hive元数据的Mysql数据库,修改DBS表和SDS表相应的值,如下所示。说明 在进行元数据修改的时候,建议使用root用户,或者其他有权限的用户,避免因为权限问题导致修改失败。其中mysql服务的root...

EMR集群运行TPC-DS Benchmark

tpcds-setup.sh脚本默认配置的Hive服务地址与EMR集群环境不一致,所以需要将脚本中HiveSever的地址替换为EMR集群中的Hive服务地址。具体命令如下:sed-i 's/localhost:2181\/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=...

添加Hive类型的公共节点

Hive类型的节点是离线节点,运行在Hive云计算资源之上,支持处理Hive、Hbase和Phoenix类型的数据。前提条件已添加Hive节点所要使用的数据模型,更多请参见手动新建逻辑表。已添加Hive类型云计算资源,更多信息请参见新建Hive云计算资源。...

Hive授权

背景信息 如果您可以直接通过HDFS或Hive Client访问Hive的数据,需要对HiveHDFS中的数据进行相关的权限控制,通过HDFS权限控制,进而可以控制Hive SQL相关的操作权限。您可以使用Storage Based Authorization的授权方式,详情请参见方式...

配置Hive数据源

当底层存储为OSS时,请注意以下问题:defaultFS的配置请以oss:/为前缀。例如,`oss:/IP:PORT`或`oss:/nameservice`。您需要高级参数中配置连接OSS服务时需要的参数,示例如下。{&"hiveConfig":{&"fs.oss.accessKeyId":"<...

配置连接器

连接器 功能 对应文档 hive 使用Hive连接器可以查询存储在Hive数据仓库中的数据。Hive连接器 hive-acc kudu 使用Kudu连接器可以查询、插入和删除存储在Kudu里的数据。Kudu连接器 jmx 使用JMX连接器可以进行系统监控和调试。无 system 使用...

Hive开发手册

本文介绍如何E-MapReduce集群中开发Hive作业流程。在Hive中使用OSS 在Hive中读写OSS时,先创建一个external的表。CREATE EXTERNAL TABLE eusers(userid INT)LOCATION 'oss:/emr/users';当上面的方式无法支持,或者您希望使用非本账号的...

Hive

Zeppelin的Hive解释器是使用JDBC连接HiveServer2。本文为您介绍如何Zeppelin中使用Hive。背景信息 EMR数据开发的Zeppelin以下两方面做了增强:多个EMR集群中动态切换。您无需配置,所有配置都是自动完成。Zeppelin的Hive解释器提供...
< 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 物联网无线连接服务 SSL证书 轻量应用服务器 块存储 商标
这些文档可能帮助您
什么是文件存储NAS 存储类型介绍 什么是对象存储OSS 什么是云存储网关CSG Web端上传介绍 开始使用OSS

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折