基于Delta lake的一站式数据湖构建与分析实战

企业构建和应用数据湖一般需要经历数据入湖、数据湖存储与管理、数据湖探索与分析等几个过程。本文主要介绍基于阿里云数据湖构建(DLF)构建一站式的数据入湖与分析实战。背景信息随着数据时代的不断发展,数据量爆发式增长,数据形式也变...

新建汇总逻辑

汇总逻辑用于统计以统计粒度(维度)为主题的所有数据。本文为您介绍如何新建汇总逻辑。前提条件 完成维度的创建,详情请参见新建维度。完成派生指标的创建,详情请参见新建派生指标。背景信息 汇总逻辑的说明如下: 汇总逻辑由...

概述

因为Dataphin独有的逻辑模型以业务板块为命名空间,所以针对逻辑,Dataphin语法如下:引用逻辑的方式为:业务板块.逻辑。支持[业务板块.逻辑.关联维度角色..关联维度角色.维度逻辑字段]的查询逻辑。如果作为SELECT或者WHERE...

阿里云试用中心,为您提供0门槛上云实践机会!

100+款试用云产品,最长免费试用12个月!拨打95187-1,咨询专业上云建议!
广告

使用限制

您在使用数据湖构建(Data Lake Formation,简称DLF)控制台和接口时,产品做了如下限制,请在使用时注意不要超过相应的限制值,以免出现异常。数据湖元数据限制项用户配额单QPS2000单分区数量100万数据湖入湖预处理作业限制项用户配额...

快速入门

数据湖构建(Data Lake Formation,DLF)产品主要使用流程如下。前提条件注册阿里云账号,并完成实名认证。创建数据源创建数据湖的入湖来源,当前支持阿里云RDS MySQL和PolarDB作为数据来源。您需要输入RDS MySQL连接的用户名和密码。选择...

汇总数据层(DWS)

汇总数据层以分析的主题对象作为建模驱动,基于上层的应用和产品的指标需求构建公共粒度的汇总。汇总数据层的一个通常会对应一个统计粒度(维度或维度组合)及该粒度下若干派生指标。汇总设计原则 聚集是指针对原始明细粒度的数据...

Dataphin使用流程

通过开发环境中的维度逻辑、事实逻辑和汇总逻辑补数据,验证数据模型是否正确及符合预期。步骤六:开发环境补数据 验证数据 补数据操作完成后,您可以通过即席查询来验证数据,验证通过的数据即可发布至生产环境。步骤七:验证数据 ...

步骤九:查看质量报告

本文为您介绍如何查看维度逻辑的质量校验报告。前提条件 完成质量规则的创建,详情请参见步骤八:创建质量规则。操作步骤 登录Dataphin控制台。在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>>。在Dataphin首页,单击顶部...

主题式查询

主题式查询是基于Dataphin加工出的逻辑,运用逻辑SQL对数据进行的AdHoc查询。本文为您介绍如何利用Dataphin进行主题式查询。主题式查询简介 主题式查询是指面向业务主题的数据查询,屏蔽了物理模型中技术特性带来的影响,基于逻辑模型从...

概述

在使用Dataphin前,系统管理员需要通过管理中心来进行成员管理和计算设置,同时您也可以通过智能引擎来配置计算和存储规则...智能引擎,支持您通过配置计算和存储参数规则,优化逻辑任务、SQL查询任务的生成及运行方式,提高数据构建效率。

入湖任务管理

MySQL链接,将数据源对应数据库中选定的数据全量同步到OSS中,如果待同步中数据量大,则所消耗的资源也会比较大,建议在业务低谷期执行此类任务,避免对业务连续产生影响。待抽取的MySQL需确认包含主键,否则抽取任务会报错。增量...

维度层(DIM)

dim_c1(普通维度逻辑)dim_c1_lvl1(层级维度逻辑)创建维度及维度 创建维度,详情请参见新建维度。维度创建成功后,系统自动生成维度逻辑。查询维度 逻辑运维包含两个模块,一个是逻辑任务,用来从逻辑视角切入,为您...

产品简介

阿里云数据湖构建(Data Lake Formation,DLF)是一款全托管的快速帮助用户构建云上数据湖的服务,产品提供了云上数据湖统一的权限管理、数据湖元数据管理和元数据自动抽取能力。统一数据湖存储阿里云数据湖构建使用阿里云对象存储(Object...

创建多join

表B支持表A(主表)、表B、表C表A(主表)->表B->表C支持表A(主表)、表B、表C、表D表A(主表)->表B 表A(主表)->表C 表A(主表)->表Djoin层级不超过2层,辅表个数不超过10个支持表A(主表)、表B、表C、表D表A(主表)->表B->表C-> 表...

步骤三:规范定义

为保障所有统计指标统一、标准、规范地构建,业务限定在业务板块内唯一,并唯一归属于一个来源逻辑,计算逻辑也以该来源逻辑模型的字段为基础进行定义。本教程中没有设定业务限定。派生指标 派生指标=原子指标+业务限定+统计周期+维度...

计费模式

本文介绍数据湖构建中各资源的计费规格,包括入湖作业资源用量、数据存储对象和元数据请求三部分。计量计费项入湖作业资源使用量入湖作业,是指从数据源抽取数据到数据湖统一存储的入湖作业。每个作业入湖作业资源使用量=作业执行时长*消耗...

概述

支持通过整库迁移(快速生成批量同步任务)和一键生成目标(同步到MaxCompute的数据无需手动建表)的方式,提高数据集成的效率,详情请参见配置离线整库迁移和管理MaxCompute输出组件。支持流程和转换组件,实现数据源的数据预处理(例如...

元数据发现

抽取任务发现字段更新时当元数据抽取任务获取的与现有字段发现不一致时,采取:仅新增列,不会删除元数据中原有的列更新结构,根据最新探测的结构生成新的结果忽略更新,不修改任何,现有元数据保持不变如何处理OSS中发现已...

步骤六:补数据

本文为您介绍如何为维度逻辑、事实逻辑和汇总逻辑补数据。前提条件 完成任务的发布,详情请参见步骤五:发布任务。背景信息 您需要为数据dim_customer、dim_store、fct_store_sales_rec_di、dws_store和dws_customer进行补数据。...

特征重要评估

本文为您介绍PAI-Studio提供的特征重要评估,包括随机森林特征重要线性模型特征重要。随机森林特征重要 您可以使用原始数据和随机森林模型,计算特征重要。您可以通过以下任意一种方式,配置随机森林特征重要组件参数:可视...

概述

数据安全支持定义数据的业务分类和安全等级,并构建敏感数据识别规则,同时支持设置敏感数据脱敏规则,以保障数据资产的安全。基础研发版 权限管理 提供便捷的权限管控功能和可视化的申请、审批流程。数据地图 通过业务板块、数据域、...

步骤四:规范定义

规范定义是指以维度建模作为理论基础,构建总线矩阵,划分并定义数据域、业务过程、维度、原子指标、业务限定、时间周期和派生指标。本文为您介绍在本教程中如何进行规范定义。实例数据说明 本示例以统计办公用品、技术产品两类产品各省份...

函数计算只支持Node.js,用C++写的程序怎么运行?

函数计算会根据您的需求不断拓展支持的语言种类。当前函数计算支持的编程语言详情请参见开发语言列表,如果您的程序是用函数计算还未支持的语言实现的,您可以采用以下做法: 用函数计算支持的语言改写。Node.js、Python等语言包含了非常...

概述

告警中心是基于Dataphin构建的监控告警平台,为您展示数据质量、实时计算、数据服务模块的告警事件和推送记录。背景信息 Dataphin支持的数据采集、数仓建设、数据管理、数据应用的功能越来越丰富,告警场景的多样和复杂也随之增加。...

DDL语句

查看或视图信息 是 查看分区信息 是 列出项目空间下的和视图 是 列出所有分区 是 修改的所有人 否 清空非分区表里的数据 否 查看建表语句 否 分区和列操作 功能 是否支持 添加分区 支持添加单个分区 不支持添加多个分区 删除分区 ...

并发数和构建时长

北京和香港构建集群),且你的流水线任务中包含以下类型的步骤,当其运行时才会被计入并发任务数和构建时长:各类语言构建步骤各类语言的单元测试步骤各类语言的代码扫描步骤执行命令步骤企业自定义步骤 Flow CLI 子命令:step)因此,上...

服务等级协议

自2021年1月起,数据湖构建(DLF)服务等级协议(SLA)生效。详细内容参考这里。

数据开发

如果需要删除大量的分区,建议重新建表。Dataphin是否支持在已生成的派生指标中添加统计粒度?不支持。您需要重新构建派生指标,详情请参见新建派生指标。系统是否支持维度逻辑作为事实逻辑的来源?不支持。事实逻辑的来源主为...

数据湖构建之MaxCompute湖仓一体最佳实践

DLF湖仓一体方案打破数据湖与数据仓库割裂的体系,架构上将数据湖的灵活、生态丰富与数据仓库的企业级能力进行融合,构建数据湖和数据仓库融合的数据管理平台。本文介绍湖仓一体的具体方案。背景信息大数据计算服务MaxCompute(原名ODPS...

步骤九:生产环境补数据

本文为您介绍如何为生产环境中的维度逻辑、事实逻辑和汇总逻辑补数据。前提条件 任务发布至生产环境,详情请参见步骤五:发布任务。背景信息 发布至生产环境的数据次日才会参与调度,本教程为了让您快速熟悉智能数据构建与管理的流程...

概述

步骤一:创建数据 创建行为元素 行为元素包括行为域、业务线、动作、对象和对象属性。本教程中的行为元素为:行为域:电商。业务线:淘宝。动作:购买、浏览和收藏。对象:商品。对象属性:商品价格和商品类目。步骤二:创建行为元素 ...

步骤八:创建质量规则

本文为您介绍如何创建数据的质量校验规则。背景信息 本教程中的数据包括dim_customer、dim_store、fct_store_sales_di、dws_store和dws_customer,下文以维度逻辑(dws_store)为例。步骤一 创建质量规则 登录Dataphin控制台。在...

删除元数据

根据名称删除数据湖的元数据 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求...

确定需求

在基于Dataphin构建与管理企业数据中台之前,首先需要确定数仓构建的目标与需求,进行全面的业务调研。您需要了解真实的业务需求是什么,以及确定整个业务系统能解决什么问题。业务调研 充分的业务调研和需求分析是数据仓库建设的基石,...

获取元数据名称列表

仅用于查询数据湖元数据的名称列表 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档...

步骤五:发布任务

发布维度和维度逻辑。在规范建模页签,选中dim_customer、dim_customer、dim_store和dim_store。单击页面下方的发布。在发布对话框,单击确定。发布派生指标、原子指标和事实逻辑。在规范建模页签,选中sum_list_price_1d、sum_sales_...

构建制品

流水线模版创建构建任务新建流水线时,选择对应的开发语言,可以查看当前语言下的默认流水线模版,选择带有“构建”节点的流水线模版,即可快速使用构建能力 添加构建任务创建构建任务在流水线编排中,可以通过添加任务,在模版中选择带有...

概述

Dataphin支持通过数据集成和数据同步的方式,将业务数据源的数据引入Dataphin平台...数据集成支持通过整库迁移(快速生成批量同步任务)和一键生成目标(同步到MaxCompute的数据无需手动建表)的方式,提高数据同步的效率。数据集成操作指导

删除汇总逻辑

汇总逻辑用于统计以统计粒度(维度)为主题的所有数据。本文为您介绍如何删除汇总逻辑。前提条件 完成汇总逻辑的创建,详情请参见新建汇总逻辑。完成汇总逻辑依赖的派生指标的删除。如何删除派生指标,请参见删除派生指标。背景...

删除元数据统计信息

回收数据湖元数据的字段统计信息 调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
产品推荐
NAT网关 自然语言处理 智能数据构建与管理 云服务器 商标 SSL证书 负载均衡SLB 短信服务
这些文档可能帮助您
词性标注(通用) 中文分词(高级版) JAVA SDK 步骤一:准备工作 售前常见问题 支持的数据库

新品推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折

你可能感兴趣

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化

热门推荐

切换为移动版

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折