阿里云文档 2024-09-24

如何将Hive数据导入AnalyticDB for MySQL湖仓

云原生数据仓库 AnalyticDB MySQL 版支持通过Hive数据迁移将Hive数据迁移至OSS。本文介绍如何添加Hive数据源,新建Hive迁移链路并启动任务,以及数据迁移后如何进行数据分析和管理数据迁移任务。

文章 2023-06-18 来自:开发者社区

Hive 数仓数据质量治理

1. 数据质量概述数据质量是数据创建价值的保障基石,高质量的数据为数据统计、分析和应用提供了可信任的必要条件。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监控、问题分析和整改、评估和考核等一系列管理活动,提高数据质量以满足业务要求。可按照"谁创建,谁负责;谁加工,谁负责;谁提供,谁负责"的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数....

问答 2023-03-27 来自:开发者社区

友友们,flinksql跑批任务调 度怎么做像离线数仓hive做任务调度

友友们,flinksql跑批任务调 度怎么做像离线数仓hive做任务调度

文章 2022-10-18 来自:开发者社区

大数据开发笔记(四):Hive数仓调优

Hive调优策略1. map阶段输出数据压缩 ,在这个阶段,优先选择一个低CPU开销的算法。set hive.exec.compress.intermediate=true set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec set mapred.map.output.compres....

文章 2022-10-18 来自:开发者社区

Hive电商数仓实战

项目描述以电商数据为基础,详细介绍数据处理流程,结合hive数仓、spark开发采用多种方式实现大数据分析。数据源可通过日志采集、爬虫、数据库中取得,经过数据清洗转换导入数据仓库,通过数仓中数据分析得到数据总结,用于企业决策。本项目基于以下表类进行电商数仓分析,分为orders(用户行为表),trains(订单表),products(商品表),departments(品类表),order_pro....

Hive电商数仓实战
文章 2022-10-13 来自:开发者社区

Hive数仓基本概念介绍

hive 实现wordCountselect word, count(*) AS cnt from (select explode(split(sentence,' ')) word from badou.article_as ) t group by wordUDF,UDAF,UDTFUDF: 直接应用于select语句,常见的大小写转换,就是一个一对一关系,一进一出tmp_a tmp_b数据....

Hive数仓基本概念介绍
问答 2022-06-13 来自:开发者社区

在实时数仓的解决方案中,怎样凭借 Flink 的流式处理优势做到实时读写 Hive?

在实时数仓的解决方案中,怎样凭借 Flink 的流式处理优势做到实时读写 Hive?

文章 2022-04-28 来自:开发者社区

Hive之数仓的分层及建模理论

一、数据仓库的用途整合公司所有业务数据,建立统一的数据中心产生业务报表,用于作出决策为网站运营提供运营上的数据支持可以作为各个业务的数据源,形成业务数据互相反馈的良性循环分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果开发数据产品,直接或间接地为公司盈利二、数据集市与数仓的区别数据集市(Data Market):是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数....

文章 2022-04-25 来自:开发者社区

数仓面试高频考点--解决hive小文件过多问题

小文件产生原因hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式直接向表中插入数据insert into table A values (1,'zhangsan',88),(2,'lisi',61);这种方式每次插入时都会产生一个文件,多次插入少量数据就会出现多个小文件,但是这种方式生产环境很少使用,可以说基本没有使用的通过load方式加载数....

文章 2022-04-14 来自:开发者社区

Hive 数仓迁移 JindoFS/OSS 数据湖最佳实践

Hive 数仓是大多数迁移客户都会遇到的场景。在迁移过程中,不建议同时在新集群进行业务升级(比如从 Hive on MR 迁移到 Hive on Tez 或 Spark SQL等),这些业务升级可以在迁移完成后进行。1. 元数据同步Hive 元数据是对于 Hi...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

数据仓库

阿里云自主研发的云原生数据仓库,具有高并发读写、低峰谷读写、弹性扩展、安全可靠等特性,可支持PB级别数据存储,可广泛应用于BI、机器学习、实时分析、数据挖掘等场景。包含AnalyticDB MySQL版、AnalyticDB PostgreSQL 版。

+关注