使用E-Mapreduce访问

Hive的元数据存储在MySQL中,进入存储Hive元数据的MySQL数据库hivemeta中,修改DBS表和SDS表,如下所示。MariaDB[(none)]>use hivemeta;修改表“DBS”MariaDB[hivemeta]>select*from DBS;DB_ID|DESC|DB_LOCATION_URI|NAME|OWNER_NAME...

Hadoop生态外表联邦分析

支持复杂类型,可以访问由数组、映射、结构和联合数据类型组成的Hive表。Hive创建table。hive>CREATE TABLE sales_info_ORC(location string,month string,number_of_orders int,total_sales double)STORED AS ORC;hive>INSERT INTO ...

安装和配置

thrift_addr=*Hive Metastore Service的Thrift地址*/table_mapping.txt该配置文件呈现待迁移Hive表与MaxCompute表的对应关系,文件中每一行对应一个Hive表到MaxCompute表的迁移任务。格式如下。lt;hive db>lt;hive table>lt;...

管理LDAP认证

在Hive服务页面,选择右上角的操作>开启LDAP认证。执行集群操作对话中,单击确认。单击上方的查看操作历史。直至操作状态显示成功。重启HiveServer2。在Hive服务页面,选择右上角的操作>重启HiveServer2。执行集群操作对话中,...

Sqoop

背景信息 常见数据传输场景如下:将MySQL数据导入HDFS 将HDFS数据导入MySQL 将Hive数据导入MySQL 将MySQL数据导入Hive 将MySQL数据导入OSS 将OSS数据导入MySQL 使用SQL作为导入条件 注意 数据迁移前,请切换您的用户为hadoop。...

新增元数据表

新增数据湖的元数据表 调试 您可以OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 ...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据

使用ES-Hadoop,您只需要对代码进行很小的改动,即可快速处理存储在Elasticsearch中的数据,并且能够享受到Elasticsearch带来的加速效果。ES-Hadoop的原理是将Elasticsearch作为MR、Spark或Hive等数据处理引擎的数据源,在计算存储分离的...

数据类型版本说明

MaxCompute 2.0推出了兼容开源主流产品的2.0数据类型和Hive兼容数据类型两个数据类型版本。加上原有的1.0数据类型版本,目前MaxCompute一共支持3个数据类型版本。MaxCompute数据类型版本 MaxCompute设置数据类型版本属性的参数共有3个:...

Superset

这里以E-MapReduce Hadoop集群默认安装的Hive引擎为例,更多的数据库类型访问方式请参见SQLAlchemy。登录Superset。您需要SSH连接中创建隧道以查看开源组件的Web页面,详情请参见通过SSH隧道方式访问开源组件Web UI。默认用户名和密码均...

Hive元数据基本操作

本文为您介绍Hive元数据的基本操作,包括新建库、删除库、新建表和删除表。前提条件 已创建集群,详情请参见创建集群。新建库 进入元数据管理页面。登录阿里云E-MapReduce控制台。顶部菜单栏处,根据实际情况选择地域和资源组。单击上方...

通过Hive作业处理TableStore数据

步骤四:配置Table存储 TableStore上创建表格,具体请参见创建数据表。创建好后如下截图。步骤五:处理TableStore数据 创建表格。CREATE EXTERNAL TABLE pet(name STRING,owner STRING,species STRING,sex STRING,birth STRING,death ...

常见问题

您可以EMR控制台Impala服务的配置页签,搜索区域搜索mem_limit参数,默认值为80%,表示允许使用本机内存的80%来计算。如何限制单条查询语句消耗内存的大小?您可以Impala控制台通过命令设置mem_limit参数来限制单条查询语句消耗内存...

配置连接器

EMR Presto内置连接器 EMR Presto默认提供了hive、kudu、iceberg、mysql、phoenix和tpcds六种开箱即用的内置连接器。hive连接器详情,请参见Hive连接器。kudu连接器详情,请参见Kudu连接器。修改内置连接器 您可以EMR on ACK控制台的...

同步EMR Kafka数据至Hive

本文介绍如何通过命令方式,使用Flume同步EMR Kafka集群的数据至EMR Hadoop集群的Hive。前提条件 已创建Hadoop集群,并且选择了Flume服务,详情请参见创建集群。说明 Flume软件安装目录/usr/lib/flume-current下,其他常用文件路径获取...

EMR-3.33.x版本说明

Ranger 增加Hive的Audit日志配置。增加Log4j Audit的配置。OpenLDAP 增加审计功能。默认开启SSL端口(10636)。支持一键开启Presto。Knox 修复Spring漏洞。修复Spark UI中查看Executors页面的问题。修复Oozie的Job状态页面的问题。Hue 支持...

配置独立RDS

说明 初始化之前,Hive的Hive MetaStore、HiveServer2和Spark的ThriftServer可能会出现异常,待初始化之后会恢复正常。常见问题 Metastore初始化时提示Failed to get schema version异常信息,该如何处理?如果Hive元数据信息中包含中文...

E-MapReduce

HIVE.HiveMetaStore.MaxUserConnectionExceeded HiveMetastore超过最大用户连接数 Critical Critical Maintenance Maintenance:HIVE.HiveMetaStore.OomOccured HiveMetaStore发生OOM Critical Critical Maintenance Maintenance:HIVE....

订阅事件编码对照表

330400047 HIVE HiveServer CRITICAL hveiveserver2 webui port(10002)unavailable(can not access in 5 seconds)last for 5 minutes.EMR-330400045 HIVE HiveServer CRITICAL hveiveserver2 port(10000)unavailable(can not access in 5 ...

Hive+TableStore

本章节介绍如何 Hive 中处理 TableStore 中的数据。Hive接入TableStore 准备一张数据表 创建一张表 pet,其中 name 为主键。name owner species sex birth death Fluffy Harold cat f 1993-02-04-Claws Gwen cat m 1994-03-17-Buffy ...

Spark UDF

class_name 完整的class_name需要携带package信息,它的开发规范可以参考Spark和Hive的FUNCION开发规范。resource_location_list这个方法使用到的JAR包或者文件放置的位置,需要显式指定依赖的是JAR还是URI USING(JAR 'oss:/test/function....

常见问题

问题原因:Hive默认使用HiveCombineInputFormat不会调用表自定义的input format。解决方法:您需要执行查询Hudi表的命令时,添加上set hive.input.format=org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat。Spark查询Hudi表...

数据开发常见问题

java.lang.IllegalArgumentException:Wrong FS:oss:/xxxxx,expected:hdfs:/ip:9000"因为操作OSS数据时,使用HDFS的默认fs,所以初始化时,需要使用OSS的路径来初始化fs,以便于使用fs来操作OSS源上的数据。Path outputPath=new Path...

自定义函数(UDF)

Hive提供了很多内建函数来满足您的计算需求,您也可以通过创建自定义函数(UDF)来满足不同的计算需求。UDF使用上与普通的内建函数类似。本文为您介绍自定义函数的开发和使用流程。背景信息 UDF分类如下表。UDF分类 描述 UDF(User ...

文件存储HDFS和数据库MySQL双向数据迁移

08-10 男 2 测试用户2 2019-08-11 男 3 测试用户3 2019-08-12 男 4 测试用户4 2019-08-13 女 5 测试用户5 2019-08-14 女.Time taken:0.105 seconds,Fetched:14 row(s)将Hive的数据迁移到MySQL上 将Hive的数据迁移到MySQL上,需要先MySQL...

2.0数据类型版本

在Hive模式下成功,其他模式下报错。create table t(a bigint);insert into table select 1.5;函数行为差异+、-、*、/、POW函数 Hive兼容数据类型版本:数据溢出时绕回(即数据超出范围后返回初始值)。1.0和2.0数据类型版本:数据...

Hue WebUI使用编辑器

本文以EMR-4.9.0版本为例,为您介绍如何Hue WebUI中使用Hive编辑器和Spark SQL编辑器。前提条件 已设置安全组访问,详情请参见管理安全组。注意 设置安全组规则时要针对有限的IP范围。禁止配置的时候对0.0.0.0/0开放规则。已打开8888...

基础操作

写数据 EMR-3.32.0以及后续版本中,已经将Hudi相关依赖集成到各个开源组件中,包括Spark、Hive和Presto,因此运行时不需要引入额外的Hudi依赖,只需要pom文件中添加Hudi依赖即可。lt;dependency>lt;groupId>org.apache.hudi<...

Hadoop环境安全加固

它提供了一系列的工具,可以用来进行数据的提取转化加载(ETL),是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,HQL 语言也允许熟悉...

EMR-5.2.x版本说明

修改E-MapReduce控制台上,Hive服务配置页面的hive-env页签的配置项名称为大写,便于用户使用。修复UDF(User Define Function)导致HiveServer2内存泄露的问题。优化文件系统与MetaStore不一致时写Hive表的报错信息。HDFS 支持ZSTD...

Impala配置

背景信息 Impala集成Ranger后,支持通过Impala-shell、Hue和JDBC方式访问Hive表时进行权限控制。前提条件 已创建EMR-4.4.1及后续版本的Hadoop集群,并且选择了Ranger和Impala服务。详情请参见创建集群。Impala集成Ranger 阿里云E-...

HDFS Reader

例如,TextFile是Hive建表时默认使用的存储格式,数据不进行压缩。本质上TextFile是以文本的形式将数据存放HDFS中,对于数据集成而言,HDFS Reader实现上与OSS Reader有很多相似之处。ORCFile的全名是Optimized Row Columnar File,是...

EMR-4.6.x版本说明

本文介绍EMR-4.6.x发行...默认开启SSL端口(10636)。支持一键开启Presto。Hue 支持Presto。EMRHook 新增软件服务。hive-hook:支持Hive元数据和作业运行信息输出至DataWorks。spark-hook:支持Spark元数据和作业运行信息输出至DataWorks。

CDH 6 与文件引擎集成

core-site.xml 的群集范围高级配置代码段(安全阀)区域中,添加 fs.defaultFS,其值:hdfs:/${实例ID},含义是将 文件引擎设置为默认存储引擎。单击 保存更改。返回CDH6 系统主页,找到 HDFS,点击图标进入HDFS 控制台,然后再 点击...

迁移开源HDFS的数据到文件存储HDFS

文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许您云上就像Hadoop分布式文件系统中管理和访问数据。适用范围 非阿里云Hadoop集群中的数据迁移到文件存储HDFS。阿里云ECS自建Hadoop集群中的数据迁移到文件存储HDFS。准备...

配置自定义软件

Hadoop、Hive和Pig等软件含有大量的配置,当您需要对其软件配置进行修改时,可以创建集群时通过软件自定义配置功能实现。本文为您介绍如何配置自定义软件。使用限制 软件配置操作仅集群创建时执行一次。操作步骤 进入集群管理页面。...

EMR Spark功能增强

用户可以创建Relational Cache对数据进行预计算,执行用户查询时,Spark Optimizer自动发现合适的Cache,并改写SQL执行计划,基于Cache的数据继续计算,从而提升查询速度,适用于报表、Dashboard、数据同步和多维分析等场景。通过DDL,...

Presto配置

由于EMR的Ranger提供了可以让Ranger Presto和Ranger Hive共享权限的方案,因此只需要Ranger的Hive service中配置相关权限,Ranger Presto即可直接使用该权限配置用于检查用户权限。说明 Ranger Presto与Ranger Hive共享权限配置,仅适用...

Security Zone功能

背景信息 例如,某公司有部门A和部门B两个部门,部门A主要使用Hive database a,以及HDFS路径/a,部门B主要使用Hive database b,以及HDFS路径/b。如果要使用Security Zone功能,可以将Hive database a和HDFS路径/a划分到Zone a当中,将...

概述

介绍Ranger主要由三个组件组成:Ranger Admin 您可以创建和更新安全访问策略,这些策略被存储在数据库中。各个组件的Plugin定期对这些策略进行轮询。Ranger Plugins Plugin嵌入在各个集群组件的进程里,是一个轻量级的Java程序。例如,...

JindoTable表或分区访问冷度收集

JindoTable表或分区的访问冷度收集功能可以为您维护表或分区上次的访问时间,从而筛选出最近没有被访问的数据,帮助您优化数据存储方式,节约成本。例如,数据分析中,您可以把部分不常用的分区数据移动到成本更低的存储介质以节约成本。...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折