查询方案(ELK/Hive)对比

离线 Hadoop+Hive:将数据存储在 Hadoop,利用 Hive 或 Presto 进行查询(非分析)。使用日志服务(LogSearch)。以应用程序日志和 Nginx 访问日志为例(每天 10GB),对比几种方案。功能项 ELK 类系统 Hadoop+Hive 日志服务 可查延时 1~60...

兼容Hive Java UDF示例

本文以MaxCompute客户端操作为例,为您介绍如何使用MaxCompute兼容的Hive版本上开发的Hive UDF。前提条件 已安装MaxCompute客户端。更多安装操作,请参见安装并配置MaxCompute客户端。注意事项 使用兼容的Hive UDF时,您需要注意:...

使用E-MapReduce Hive关联云HBase

本文介绍如何使用E-MapReduce(简称EMR)上的Hive关联阿里云HBase的表。阿里云HBase需要借助外部Hive对多表进行关联分析。前提条件 已创建EMR的Hadoop集群,并且选择了HBase和Zookeeper服务。详情请参见创建集群。创建与EMR同一地域下相同...

配置连接器

连接器 功能 对应文档 hive 使用Hive连接器可以查询存储在Hive数据仓库中的数据。Hive连接器 hive-acc kudu 使用Kudu连接器可以查询、插入和删除存储在Kudu里的数据。Kudu连接器 mysql 使用MySQL连接器可以在外部MySQL实例中查询和创建表。...

配置连接器

连接器 功能 对应文档 hive 使用Hive连接器可以查询存储在Hive数据仓库中的数据。Hive连接器 kudu 使用Kudu连接器可以查询、插入和删除存储在Kudu里的数据。Kudu连接器 iceberg 使用Iceberg连接器可以查询Iceberg格式的数据文件。Iceberg...

Hive

本文主要介绍如何使用DLA Spark访问用户VPC中的Hive集群。前提条件 您已开通数据湖分析DLA(Data Lake Analytics)服务,详情请参见开通云原生数据湖分析服务并云原生数据湖分析DLA控制台上创建了Spark虚拟集群 您已开通对象存储OSS...

创建EMR Hive节点

您可以创建EMR(E-MapReduce)HIVE节点,通过类SQL语句协助读写、管理存储在分布式存储系统上的大数据集的数据仓库,完成海量日志数据的分析和开发工作。前提条件 您已创建阿里云EMR集群,且集群所在的安全组中入方向的安全策略包含以下...

访问Delta表数据

E-MapReduce中通过Spark创建的Delta表将自动同步到Hive元数据,您可以像使用其它表一样查询Delta表。您也可以通过Hive创建外表来查询Delta表。本文为您介绍如何通过Spark创建表和Hive创建外表的方式,在Hive、Presto和Impala访问Delta表...

Hive

Hive数据仓库工具能将存储在HDFS系统中的结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成Map/Reduce任务来执行。操作步骤 首先初始化Spark val spark:SparkSession=SparkSession.builder().config("hive....

通过Hive访问云数据库HBase

如果您使用的是ECS自建的Hive时,不需要配置value可以直接和云数据库HBase连接。Hive中读写云数据库HBase表。如果云数据库HBase表不存在,可Hive中直接创建云数据库HBase的关联表。使用以下命令进入Hive cli命令行。hive 执行如下语句...

管理Hive组件

本文为您介绍如何配置、复制、删除Hive组件及如何选择数据的发送方式。背景信息 Hive输入组件适用于从Hive中读取数据至Dataphin平台,进行数据的整合和再加工的场景。配置属性 登录Dataphin控制台。Dataphin控制台页面,选择工作区地域后...

Hive Reader

Hive的本质是一个SQL解析引擎,其底层通过MapReduce实现数据分析,使用HDFS存储处理的数据,将HQL或SQL语句转化为MapReduce程序并Yarn上运行。Hive Reader插件通过访问Hive元数据库,解析出您配置的数据表的HDFS文件存储路径、文件格式、...

Hive SQL作业配置

本文介绍如何配置Hive SQL类型的作业。前提条件 已创建好项目,详情请参见项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录阿里云E-MapReduce控制台。顶部菜单栏处,根据实际情况选择地域和资源组。单击上方的数据...

Tez

背景信息 Tez主要使用Apache Hive中,作为Hive的一种运行时引擎,可以优化Hive SQL的查询引擎。与Hive On MR(MapReduce)相比,Hive On Tez具有更好的查询性能和稳定性。Hive基于MapReduce提交任务和基于Tez提交任务流程图如下所示:Tez...

配置E-MapReduce服务使用文件存储HDFS

Hive的元数据存储在MySQL中,进入存储Hive元数据的MySQL数据库hivemeta中,修改CTLGS表、DBS表和SDS表,如下所示。MariaDB[hivemeta]>use hivemeta;MariaDB[hivemeta]>select*from CTLGS;CTLG_ID|NAME|DESC|LOCATION_URI|+-+-+-+-+|1...

JindoTable表或分区访问热度收集

您可以通过JindoTable表或分区的访问热度收集功能来区分冷热数据,从而节约整体的存储成本,提高缓存利用效率。前提条件 已创建集群,详情请参见创建集群。背景信息 JindoTable支持收集访问Hive表的记录,收集的数据保存SmartData服务的...

JindoTable表或分区访问热度收集

您可以通过JindoTable表或分区的访问热度收集功能来区分冷热数据,从而节约整体的存储成本,提高缓存利用效率。前提条件 已创建集群,详情请参见创建集群。背景信息 JindoTable支持收集访问Hive表的记录,收集的数据保存SmartData服务的...

JindoTable表或分区访问热度收集

您可以通过JindoTable表或分区的访问热度收集功能来区分冷热数据,从而节约整体的存储成本,提高缓存利用效率。前提条件 已创建集群,详情请参见创建集群。背景信息 JindoTable支持收集访问Hive表的记录,收集的数据保存SmartData服务的...

JindoTable表或分区访问热度收集

您可以通过JindoTable表或分区的访问热度收集功能来区分冷热数据,从而节约整体的存储成本,提高缓存利用效率。前提条件 已创建集群,详情请参见创建集群。背景信息 JindoTable支持收集访问Hive表的记录,收集的数据保存SmartData服务的...

对接使用CDH

DataWorks 提供了与CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH)集群对接的能力,保留继续使用CDH集群作为存储和计算引擎的前提下,您可以使用DataWorks的任务开发、调度、数据地图(元数据管理)和数据质量等...

开启native查询加速

不支持分区列的值存储在文件中的分区表。不支持EMR-5.X系列及后续版本的E-MapReduce集群。不支持代码spark.read.schema(userDefinedSchema)。支持Date类型区间为1400-01-01到9999-12-31。同一个表中查询列不支持区分大小写。例如,ID和id...

Hive监控

本文介绍Hive监控的概览和详细信息。前提条件 已创建Hadoop类型的集群,详情请参见创建集群。监控入口 登录阿里云E-MapReduce控制台。顶部菜单栏处,根据实际情况选择地域和资源组。单击上方的监控大盘页签。概览页面,单击右上角的...

从统一元数据库迁出到用户自建的RDS实例

为保证数据的一致性,Hive服务页面停止Hive的MetaStore服务,保证导出期间不会有新的元数据变化,详情请参见停止Hive的MetaStore服务。Hive服务页面,单击配置页签。配置页面,查找javax.jdo.option.ConnectionUserName、javax.jdo....

Hive统一元数据

EMR上可以支持将数据存放在阿里云OSS中,在大数据量的情况下将数据存储在OSS上会大大降低使用的成本,EMR集群主要用来作为计算资源,在计算完成之后可以随时释放,数据在OSS上,同时也不用再考虑元数据迁移的问题。数据共享。使用统一的...

开启native查询加速

不支持分区列存储在文件中的分区表。不支持EMR 5.X及后续版本的EMR集群。不支持代码spark.read.schema(userDefinedSchema),userDefinedSchema不同于文件schema issue。支持Date类型区间为1400-01-01到9999-12-31。同一个表中查询列不...

管理Hive组件

本文为您介绍如何配置、复制、删除Hive组件。背景信息 Hive输出组件适用于将Dataphin加工后的数据写入至Hive数据库,进行数据消费的场景。配置属性 登录Dataphin控制台。Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>gt;...

创建事件报警规则

处理方式:检查Metastore版本和元数据存储的Hive版本是否一致,并查看元数据是否损坏。EMR-350401013 hiveServer2发生OOM Maintenance:HIVE.HiveServer2.HiveServer2OOM HiveServer2发生OOM。处理方式:您可以Hive服务的配置页面,调大...

Hive兼容数据类型版本

Hive兼容数据类型版本是MaxCompute三种数据类型版本之一,该数据类型版本下仅支持Hive兼容数据类型。本文为您介绍Hive兼容数据类型版本的定义、支持的数据类型以及与其他数据类型版本的差异。定义 项目空间选择数据类型版本为Hive兼容数据...

Hive基础操作

本文介绍如何通过Hive在E-MapReduce集群上创建库和表等操作。前提条件 已创建集群,详情请参见创建集群。进入Hive命令行 使用SSH方式登录到集群主节点,详情请参见使用SSH连接主节点。执行以下命令,切换为hadoop用户。su hadoop 执行以下...

使用教程

本文主要为您介绍如何使用Hive/HadoopMR访问表格存储中的表。数据准备 表格存储中准备一张数据表pet,name是唯一的一列主键,数据示例如下。说明 表中空白部分无需写入,因为表格存储是schema-free的存储结构,没有值也无需写入NULL。...

Hive数据脱敏

Ranger支持对Hive数据的脱敏处理(Data Masking),即可以对Select的返回结果脱敏,以屏蔽敏感信息。背景信息 该功能只针对HiveServer2的场景(例如,Beeline、JDBC和Hue等途径执行的Select语句)。配置Data Mask Policy Ranger UI配置...

Hive访问Delta Lake和Hudi数据

本文通过示例为您介绍如何使用EMR上的Hive访问Delta Lake和Hudi数据。前提条件 已创建Hadoop集群,详情请参见创建集群。使用限制 EMR-3.36.0及后续版本和EMR-5.2.0及后续版本,支持Hive对Hudi进行读操作。Hive访问Delta Lake数据 进入Spark...

使用Presto访问

说明 本文中Presto是通过连接Hive的元数据服务来读取文件存储HDFS上的数据,文件引擎上使用Presto时需要额外配置一些依赖包,详细操作步骤请参见配置Presto。准备工作搭建和使用Presto读写文件引擎,需要先完成以下准备工作。开通文件...

Hive使用Kerberos

为查看TGT中获取到的,或者您也可以EMR控制台的Hive服务的配置页面,搜索区域,搜索参数hive.server2.authentication.kerberos.principal,参数值中的数字即为<cluster_id>相关文档 创建Principal的官方文档,请参见Database ...

HDFS Writer

是 无 fieldDelimiter HDFS Writer写入时的字段分隔符,需要您保证与创建的Hive表的字段分隔符一致,否则无法Hive表中查到数据。是(如果filetype为parquet,此项无需填写)无 compress HDFS文件压缩类型,默认不填写,则表示没有压缩。...

Hive数据按行过滤

Ranger支持对Hive数据按行进行过滤(Row Level Filter),即可以对Select返回的结果按行进行过滤,只显示满足指定条件的行。本文以EMR-4.9.0版本(Ranger 2.1.0)为例,介绍如何将Hive数据按行进行过滤。前提条件 已创建集群,并选择了...

E-MapReduce数据迁移方案

开发过程中我们通常会碰到需要迁移数据的场景,本文介绍如何将自建集群数据迁移到E-MapReduce集群中。背景信息 适用范围:线下Hadoop到E-MapReduce迁移。线上ECS自建Hadoop到E-MapReduce迁移。迁移场景:HDFS增量上游数据源包括RDS增量...

通过JDBC连接HiveServer2来访问Hive数据

本文介绍如何通过JDBC连接HiveServer2访问Hive数据。适用于无法通过Hive Client和HDFS访问Hive数据的场景。前提条件 已对Hive进行权限配置,详情请参见Hive配置。因为HiveServer2默认不校验用户和密码,所以当您需要用户和密码认证时,请...

Ambari与文件引擎集成

su-hive#登入 hive 客户端 hive@ambaritest2~]$hive Beeline version 3.1.0.3.1.4.0-315 by Apache Hive 0:jdbc:hive2:/ambaritest1:2181,ambaritest2:>create table foo(id int,name string);INFO:Compiling command(queryId=hive_...

Dataphin将csv文件同步到hive库,目标hive库字段值为...

产品名称&Dataphin 产品模块&数据...解决方案 该问题是由于选择的hive目标表创建时没有指定分隔符,需要管道的输出配置中指定分割符为\u0001。hive中textfile格式建表不指定分隔符,默认都是\u0001,读写都要指定。更多信息 无&相关文档&
< 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 轻量应用服务器 SSL证书 商标 物联网无线连接服务 短信服务
这些文档可能帮助您
什么是文件存储NAS 什么是对象存储OSS 存储类型介绍 什么是云存储网关CSG OSS常用工具汇总 开始使用OSS

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折