阿里云文档 2024-11-21

AnalyticDB PostgreSQL读写HDFS、Hive或MySQL外部数据

若您需要通过AnalyticDB PostgreSQL版访问外部异构数据源(HDFS、Hive和JDBC)时,可以使用异构数据源访问功能将外部数据转换为AnalyticDB PostgreSQL版数据库优化后的格式进行查询和分析。

阿里云文档 2024-09-24

如何将Hive数据导入AnalyticDB for MySQL湖仓

云原生数据仓库 AnalyticDB MySQL 版支持通过Hive数据迁移将Hive数据迁移至OSS。本文介绍如何添加Hive数据源,新建Hive迁移链路并启动任务,以及数据迁移后如何进行数据分析和管理数据迁移任务。

文章 2024-09-13 来自:开发者社区

hive数仓 ods层增量数据导入

依据我们当前的业务。选择表数据量大于10W以上采用增量数据导入,10W以下采用全量数据导入。增量数据依据时间字段进行判断(create_date,modify_date)。 如果针对时间字段进行增量数据导入,需要先确定当前业务数据库中是否针对时间字段添加了索引(提高查询速度);其次,在...

阿里云文档 2024-09-06

如何使用AnalyticDB MySQL湖仓版Spark访问Hive数据

云原生数据仓库 AnalyticDB MySQL 版Spark支持通过Thrift协议和JDBC协议访问Hive数据。您也可以对Hive数据源启用Kerberos认证,确保只有经过Kerberos认证的客户端能够访问集群、正常提交作业,以此保证数据安全性。本文以E-MapReduce集群的Hive服务为例,介绍访问Hive数据源的方法。

文章 2024-05-06 来自:开发者社区

Hive 数仓及数仓设计方案

数仓(Data Warehouse) 数据仓库存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供一个统一、规范的出口。做数仓就是做方案,是用数据治理企业的方案。 数据仓库的特点 面向主题集成公司中不同的部门都会去数据仓库中拿数据,把独立从数据仓库中拿数据的单元,称为一个主题。数据仓库中的数据是从各个分散的数据库中抽取出来的ÿ...

Hive 数仓及数仓设计方案
文章 2023-12-25 来自:开发者社区

Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)

修改虚拟机IP复制网卡的配置第一种方式:配置文件向识别的网卡兼容1、 通过一个主机复制出多个主机2、 开启复制的主机,启动时选择“复制”3、 启动后查看IP ifconfig查看系统识别的网卡Ifconfig -a这里ifconfig看不到IP 是因为系统识别的设备名称与系统配置文件不同导致。配置文件名称解决方案:修改配置文件名为系统识别的名称(将eth0改为eth1)修改eth1内的配置保存退....

Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
阿里云文档 2023-11-21

如何新建Hive类型的公共节点

Hive类型的节点是离线节点,运行在Hive云计算资源之上,支持处理Hive、Hbase和Phoenix类型的数据。本文介绍如何新建Hive类型的公共节点。

文章 2023-10-12 来自:开发者社区

轻松驾驭Hive数仓,数据分析从未如此简单!

1 前言先通过SparkSession read API从分布式文件系统创建DataFrame然后,创建临时表并使用SQL或直接使用DataFrame APII,进行数据转换、过滤、聚合等操作最后,再用SparkSession的write API把计算结果写回分布式文件系统直接与文件系统交互,仅是Spark SQL数据应用常见case之一。Spark SQL另一型场景是与Hive集成、构建分布式....

轻松驾驭Hive数仓,数据分析从未如此简单!
问答 2023-07-13 来自:开发者社区

你好,想问下Dataphin如果选择hive作为数仓,每个派生指标计算完是把结果值update到汇?

问题1:你好,想问下Dataphin如果选择hive作为数仓,每个派生指标计算完是把结果值update到汇总表上吗?因为我看好像是每个派生指标都生成一个计算SQL,这样每个指标算完都update上去效率会不会很差,还是说不是一个一个update上去的问题2:哦同一个汇总表上的指标是在同一个SQL上一批算出来的吗?一个SQL的话,不同指标的业务限定、统计周期会不会有冲突,例如近七天的指标要用whe....

文章 2023-06-18 来自:开发者社区

Hive 数仓数据质量治理

1. 数据质量概述数据质量是数据创建价值的保障基石,高质量的数据为数据统计、分析和应用提供了可信任的必要条件。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监控、问题分析和整改、评估和考核等一系列管理活动,提高数据质量以满足业务要求。可按照"谁创建,谁负责;谁加工,谁负责;谁提供,谁负责"的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

云原生数据仓库AnalyticDB MySQL版您可能感兴趣

产品推荐

云原生数据仓库AnalyticDB

定期发送云原生数据仓库AnalyticDB产品重大发布和技术干货

+关注