线性代数与大数据-线性代数与大数据文档介绍内容-阿里云

日志服务通过数据集成投递数据

本文将以LogHub数据同步至MaxCompute为例，为您介绍如何通过数据集成功能同步LogHub数据至数据集成已支持的目的端数据源（例如MaxCompute、OSS、Tablestore、RDBMS和DataHub等）。前提条件准备好相关的数据源，详情请参见创建MaxCompute...

选型配置说明

E-MapReduce配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性要求，还应该考虑企业预算。大数据使用场景 E-MapReduce各集群的场景和核心组件如下表。说明具体各集群类型支持的组件以控制台实际展示为准。集群类型场景介绍 ...

产品概述

高度可扩展相比传统单机关系型数据库，PolarDB-X 1.0 采用分层架构可确保在并发、计算、数据存储三个方面均可线性扩展，通过增加 PolarDB-X 1.0 计算资源与存储资源以达到水平扩展效果。相比基于分布式存储的新型Cloud Native数据库，理论...

创建ClickHouse数据源

后续操作数据源创建完成后，您可根据需要执行如下操作：计算任务开发与调度：DataWorks的数据开发与运维中心模块，为您提供ClickHouse任务的开发与调度能力，若您需要基于该ClickHouse数据源进行ClickHouse任务开发，或周期性调度...

数据安全治理的必要性

其中，第4条“维护数据安全，应当坚持总体国家安全观，建立健全数据安全治理体系，提高数据安全保障能力”和第7条“国家保护个人、组织与数据有关的权益，鼓励数据依法合理有效利用，保障数据依法有序自由流动，促进以数据为关键要素的数字...

上海新能源汽车车辆基础数据

成立以来，数据中心在多源数据融合应用方面做了许多探索，陆续建成了“上海市新能源汽车大数据平台”、“上海市动力电池溯源管理平台”、“上海市加氢站与氢燃料电池汽车公共数据平台”、“GEF6上海能源管理中心平台”，有效发挥了数据在...

场景：配置增量数据离线同步任务

离线同步任务支持您通过配置类似的数据过滤功能来决定同步全量数据还是增量数据，配置过滤条件时，将只同步满足过滤条件的数据。同时，过滤条件可以结合调度参数使用，实现过滤条件随任务调度时间的动态变化，进而实现增量数据的同步。该...

元数据采集

DataWorks数据地图为您提供元数据采集功能，方便您将不同系统中的元数据进行统一汇总管理，您可以在数据地图查看从各数据源汇集而来的元数据信息。本文为您介绍如何创建采集器，将各数据源的元数据信息汇集至DataWorks。前提条件您需要...

方差膨胀系数VIF

VIF为1表示自变量不存在多重共线性，VIF的值越大，表示自变量之间的共线性越强，可能会导致模型不稳定或预测效果变差。一般来说，VIF小于5表示自变量之间不存在显著的共线性问题，大于10则表示自变量之间存在严重的共线性问题，需要对数据...

AUTO模式核心特性及典型场景

热点分裂——有效解决数据热点对于热点数据，PolarDB-X 支持两种处理方式：第一种方案是将热点数据所在的分区数据迁移到特定的数据节点，让热点数据以独享存储资源的方式服务业务，能够实现热点数据不影响非热点数据的业务。具体操作步骤...

JindoFS介绍和使用

JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS的访问；提供块存储模式（Block），以充分利用OSS的海量存储能力和优化文件系统元数据的操作。JindoFS纯客户端模式（SDK...

数据模型架构规范

数据层次的划分 ODS：Operational Data Store，操作数据层，在结构上其与源系统的增量或者全量数据基本保持一致。它相当于一个数据准备区，同时又承担着基础数据的记录以及历史变化。其主要作用是把基础数据引入到MaxCompute。CDM：Common ...

DataWorks产品安全能力介绍

为充分契合数据安全治理的核心理念与通用思路，DataWorks针对资产梳理、技术体系/运营体系建设提供了一系列全面的数据安全产品能力，基于“I（Identify）P（Protect）D（Detect）R（Respond）”理论框架，从资产识别、安全防护、行为检测、...

轨迹层

数据分级：根据数据中的 value 字段值大小划分（自然分割）成2~7个数据大小级别，解决 value 值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。...

功能发布记录（2024年）

2024.2.6 所有地域所有DataWorks用户系统配置 2024-01 功能名称功能描述发布时间发布地域使用客户相关文档数据开发与数据分析的查询结果支持脱敏展示数据保护伞支持对E-MapReduce表数据进行分类分级、敏感数据识别、数据脱敏展示...

轨迹层

数据分级：根据数据中的value字段值大小划分（自然分割）成2~7个数据大小级别，解决value值相差太大导致的渲染问题。轨迹粗细（从细到粗）：单击右侧的或图标，添加或删除一个类型。单击或图标配置多个轨迹粗细类型的排列样式。单击 ...

网络连通解决方案

添加数据源时需要根据数据源所在网络环境，通过对应的网络解决方案，实现Dataphin与数据源的网络连通。本文为您介绍数据源在不同网络环境中与Dataphin的网络连通方案。网络连通方案根据数据源所在的网络环境，在下图中选择对应的网络连通...

创建AnalyticDB for MySQL3.0数据源

进行数据同步：DataWorks的数据集成模块为您提供读取和写入数据至AnalyticDB for MySQL3.0的能力，您可将其他数据源的数据同步至当前AnalyticDB for MySQL3.0数据源，或将当前AnalyticDB for MySQL3.0数据源的数据同步至其他数据源。...

创建Hologres数据源

数据源创建完成后，您可根据需要执行如下操作：计算任务开发与调度：DataWorks的数据开发与运维中心模块，为您提供Hologres任务的开发与调度能力，若您需要基于该Hologres数据源进行Hologres任务开发，或周期性调度Hologres相关任务，需先...

步骤六：可视化分析

本文将使用Quick BI指导您完成本教程的可视化分析步骤，包括数据源、数据集的创建和数据大屏图表的配置。步骤一：创建数据源登录 Quick BI控制台。按照下图操作指引，进入创建数据源对话框。在 MySQL-阿里云区域，配置连接参数。参数 ...

步骤六：可视化分析

本文将使用Quick BI指导您完成本教程的可视化分析步骤，包括数据源、数据集的创建和数据大屏图表的配置。步骤一：创建数据源登录 Quick BI控制台。按照下图操作指引，进入创建数据源对话框。在 MySQL-阿里云区域，配置连接参数。参数 ...

创建MaxCompute数据源

数据源创建完成后，您可根据需要执行如下操作：计算任务开发与调度：DataWorks的数据开发与运维中心模块，为您提供MaxCompute任务的开发与调度能力，若您需要基于该MaxCompute数据源进行MaxCompute任务开发，或周期性调度MaxCompute相关...

配置SQLServer数据源

您需要测试每个资源组的连通性，以保证同步任务使用的数据集成资源组能够与数据源连通，否则将无法正常执行数据同步任务。如果您需要同时测试多种资源组，请选中相应资源组后，单击批量测试连通性。详情请参见配置资源组与网络连通。说明...

加速服务

数据服务支持对部分数据源表的查询提供加速能力，加速能力包含DataWorks数据服务提供的加速能力和MaxCompute本身支持的加速方案（MCQA）。通过使用加速服务，您可以在调用API时提高数据查询的速率和性能。本文为您介绍两种加速方案的使用...

从这里开始

DataV旨在让更多的人看到数据可视化的魅力，帮助非专业的工程师通过图形化的界面轻松搭建专业水准的数据看板，满足您会议展览、业务监控、风险预警和地理信息分析等多种业务的展示需求。本文为您介绍DataV产品功能和功能体验等内容。使用...

数据保护机制

在实际业务处理过程中，用户可能会同时具备多个项目的访问权限，此时会存在数据在项目间流转的安全问题。MaxCompute提供了数据保护机制，支持对数据流出行为进行控制，为项目数据的安全性提供保障。本文为您介绍MaxCompute的数据保护机制...

数据清理

背景信息 ODC 支持在源数据库中的数据归档到目标数据库后，删除源数据库中的数据，以提高数据库查询性能，降低在线存储成本。本文档旨在介绍如何通过提交数据清理工单实现归档数据。原理介绍前提条件清理的表中必须包含主键。注意事项 ...

线性回归

但是，线性回归模型对于离群点、噪声数据和非线性关系的数据比较敏感，需要进行特征标准化和正则化处理。组件截图二、参数说明字段设置参数名称参数说明标签字段用于训练的标签字段，数值类型，单选。特征字段用于预测的特征字段，...

实例选型和集群规划

Segment节点数量：采用MPP架构，数据处理能力随实例节点数量增加而线性增长，保证数据量增加而响应RT时间不变。可以参照原始数据量及应用场景，选择适合的实例节点数。存储类型：ESSD：可以提供更好的I/O能力，带来更高的分析性能，适用于...

开发运维建议

对于线性顺序存储的数据（如流式数据、时间字段或自增字段），通常查询时使用范围查询，建议使用 BRIN 索引，减少索引的大小，加快数据插入速度。CREATE INDEX idx ON tbl using BRIN(id);建议避免全表扫描（大数据量扫描的数据分析除外）...

上传数据

您可以选择按位置匹配或按名称匹配两种方式来匹配待上传的数据与MaxCompute表字段的对应关系。完成后，界面提示数据导入成功，您即完成了从本地上传数据至MaxCompute表中，您可以在临时查询页面中查看已上传的数据，操作请参见创建临时...

DescribeColumns-查询数据资产表中列的数据

调用DescribeColumns接口查询数据安全中心连接授权的MaxCompute、RDS等数据资产表中列的数据。接口说明本接口一般用于敏感数据资产信息表中列数据的查看，便于用户准确的对敏感数据进行分析。注意事项 DescribeColumns 接口已修订为 ...

概述

在需要将部分数据与第三方分享时，用户希望在不泄漏自身密钥的前提下完成加密数据的分享，同时满足合规要求。注意事项加密规则在主地址上不生效，您需要使用集群地址或自定义集群地址。当前只支持普通的 COM_QUERY ，不支持 ...

分布式线性扩展

扩容迁移随着业务的增长，数据量越来越大，往往需要添加更多的存储节点以承载更多的数据。当新的存储节点加入集群时，PolarDB-X 将自动触发扩容任务，将数据进行再平衡（Rebalance）。以下图为例，orders表原本分布在4个数据节点上。进行...

整体架构

AnalyticDB MySQL版融合了分布式、弹性计算与云计算的优势，对规模性、易用性、可靠性和安全性等方面进行了大规模的改进，充分满足不同场景实时数据仓库的需求。支持更大规模的并发访问、更快读写能力以及更智能的混合查询负载管理等，...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

PolarDB-X适用场景

混合负载访问场景描述互联网业务的实时化、智能化趋势催生了事务数据与分析数据在相同数据源内进行混合访问（HTAP）的需求。数据一致性、访问便捷度和访问安全性是混合负载访问场景的主要诉求。产品能力 PolarDB-X 基于并行计算和弹性...

功能发布记录（2023年）

2023.4.18 所有地域所有DataWorks用户 SQL查询 大数据公共数据集上线基于大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等），通过DataWorks与MaxCompute快速完成TB级别大数据分析。2023.4.11 所有地域所有DataWorks用户 SQL...

产品和业务限制

分析型数据库MySQL版是分布式架构，支持计算和存储资源水平扩展，查询和写入性能与硬件资源量正相关，接近线性比例关系。在计算资源充足的情况下，特定目标单表查询近3个月内的数据，返回前10000条，响应时间不超过5秒，并发度不低于100。...

多主集群（库表）概述

性能变化趋势如下，以QPS为例：从上图可以看出，随着数据库切换至更多的RW上时，集群整体并发读写能力得到了极大的提升，几乎呈现为线性提升。支持的内核版本目前仅 PolarDB MySQL版 8.0内核版本支持多主集群（库表）。节点规格与定价多...

线性代数 与大数据

新品推荐

线性代数与大数据