实时数仓 Hologres

Hologres用于构建企业级一站式实时数仓,一份数据支持OLAP分析、在线服务、向量计算等多个计算场景。

快捷入口
02:34Hologres双11实时数仓实践
产品简介

Hologres 是阿里云自研一站式实时数仓,统一数据平台架构,支持海量结构化/半结构化数据的实时写入、实时更新、实时加工、实时分析,支持标准SQL(兼容PostgreSQL协议),无缝对接主流BI工具,支持OLAP查询、即席分析、在线服务、向量计算多个场景,分析性能打破TPC-H世界记录,与MaxCompute、Flink、DataWorks深度融合,提供离在线一体化全栈数仓解决方案。

产品优势
  • 统一数据平台

    解决数据孤岛、数据口径不一致问题

    1份数据多种场景,可同时替换 OLAP 引擎(Greenplum/Presto/Impala/ClickHouse等)或 KV 数据库(HBase/Redis等)。

  • 极速数据处理

    解决分析效率问题

    TPC-H 30,000GB标准测试结果世界第一,领先第二名23%。支持10亿+/秒的高吞吐实时写入与更新,PB级数据可实现秒级分析。

  • 全链路实时化

    解决数据时效性问题

    支持高性能的数据实时写入、实时更新、实时查询,持续保持数据新鲜度,助力企业数据分析实时化。

产品功能
产品选型
入门与试用
快速入门
  • 01领取免费试用

    1

    领取 Hologres 免费试用

    2

    领取 DataWorks 免费试用

  • 02实时同步 RDS 数据

    1

    新建 Hologres 数据库

    2

    新建 DataWorks 实时同步任务

  • 03实时分析

    1

    实时分析数据

    2

    搭建数据可视化大屏

免费试用
实时同步与分析Github公开数据集
本教程将RDS数据源存储的Github公开数据集实时同步至Hologres,完成数据实时分析与可视化。
30分钟
技术解决方案
统一数仓解决方案

构建公司集中的数仓服务层,提供统一的数据查询接口和一致的指标口径,满足数据实时化的需求,支撑多场景访问数据的能力,减少数据割裂,本质性改善传统大数据数仓组件多,运维复杂,开发周期长,口径不统一的难题。

统一数仓解决方案
  • 统一存储

    数据统一存储,指标口径统一,无数据孤岛,架构精简,保证数据一致性。

  • 标准SQL

    完善的SQL能力,支持复杂多表、嵌套、窗口等查询,降低学习成本,缩短开发周期。

  • 统一数据服务层

    一份数据同时支持大规模多维分析和高QPS在线服务等多种场景,毫秒级响应,支持交互式分析。

离线实时一体解决方案

大数据数仓体系从“纷繁芜杂”的Lambda架构演进到“化繁为简”的实时离线一体化数仓,其核心是基于流式计算引擎对接了 MaxCompute + Hologres离线及实时数仓,并通过元数据、数据互通实现数仓的分层处理 。

离线实时一体解决方案
  • 元数据自动发现

    MaxCompute与Hologres实现了双向元数据自动发现与刷新以及完善的数据类型支持。

  • 数据共享互通

    存储直读比访问普通外表快10倍以上,并支持百万行/秒的数据双向同步,简化数据发布、回刷场景。

  • 统一服务出口

    Hologres直接加速查询MaxCompute数据,无需数据移动,减少数据冗余,实现BI加速。

流式数仓解决方案

随着企业对数据时效性的需求越来越强烈,面向实时加工、实时存储、实时分析的实时场景问题日益突出。Hologres基于 Streaming Warehouse 理念,实现数仓分层之间实时数据的高效流动,解决实时数仓分层问题。

流式数仓解决方案
  • 一站式

    全链路都可以用SQL表示,Hologres每层数据可复用、可查,方便构建实时数仓的数据分层和复用体系。

  • 高性能

    Flink强大的实时计算与Hologres极致的实时写入、实时更新能力和多维OLAP、高并发点查能力完美结合。

  • 企业级运维

    运维更简单,可观测性更好,安全能力更强,提供多种高可用能力,方便构建企业级的Streaming Warehouse。

湖仓一体解决方案

Hologres通过与DLF、OSS无缝集成,以外部表的方式,无需移动数据(外表只做字段映射,不真正存储数据),就能直接加速读写存储于OSS上的各种格式类型的数据,降低开发运维成本,打破数据孤岛,实现业务洞察。

湖仓一体解决方案
  • 高性能

    利用向量引擎加速OSS/DLF/MaxCompute。

  • 开放性

    方便数据导入导出数据,数仓数据之间自由流动。

  • 性价比

    独享实例湖仓资源复用,无需额外计算成本,共享集群Serverless模式按用量付费。

向量检索解决方案

大模型可以广泛应用于各行各业,但对垂直行业的专业问题回答能力尚不完善。Hologres支持高并发低延时的向量检索能力,可以和大模型、PAI完美结合,完成企业专属问答知识库的搭建。

向量检索解决方案
  • 极致性能

    支持高效索引构建,支持高并发、低延时的向量检索能力。

  • 实时能力

    支持向量数据高性能实时写入与更新,数据写入即可查。

  • 简单易用

    通过标准语法即可完成向量计算的使用。

高可用解决方案

针对线上生产环境高可用的场景,提供了共享存储的主从多实例部署方式和计算组实例,在该模式下支持故障隔离,负载隔离,有效支撑了高可用场景。

高可用解决方案
  • 按需扩缩容

    Warehouse可按时或按需拉起(Scale Out);Warehouse可动态热扩缩容(Scale Up); 计算和存储高度可扩展,双重弹性。

  • 降本增效

    用户可按需使用资源,成本可控制到最低 ;基于物理Replication实现,物理文件完全复用,降本增效。

  • 计算组资源隔离

    每个计算组之间是天然的物理资源隔离,避免计算组之间的相互影响,减少业务抖动等。

产品定价

实时数仓Hologres为新客户提供5000CU时+20GB存储免费试用,计算可选择8C与32C规格。例如选择8C规格,24小时消耗8*24为192个CU时。免费试用结束后,如需继续测试,可购买32C128G预付费,首月折后888元/月,仅限1次。

计费方式

实时数仓Hologres提供灵活的计费方式,帮您节省使用成本。

  • 包年包月(预付费)

    支持升降配,您可以根据业务需求灵活地扩容或缩容 Hologres 资源。
    查看详情
  • 按量付费

    每1个小时结算一次,可使用一主多从实例保障负载隔离
    查看详情
  • 存储与计算资源包

    抵扣按量的计算与存储费用,比按量付费方式成本更低。
    查看详情
安全合规

Hologres 通过了独立的第三方审计师针对阿里云对 AICPA 可信服务标准中关于安全性、可用性和机密性原则描述的审计,同时通过了通过了PCI DSS认证,PCI-DSS是目前全球最严格且级别最高的金融数据安全标准。

  • 数据安全

    数据安全

    • 存储传输加密存储支持可见可控的半托管加密(BYOK),同时可为每张表设置单独的加密规则。可启用SSL在传输层对网络连接进行加密。

    • 数据脱敏支持按照列级别设置脱敏,对于指定用户设置脱敏策略。同时支持多种脱敏规则,例如IP地址脱敏、邮箱地址脱敏、Hash脱敏等。

  • 系统安全

    系统安全

    • 权限管理支持阿里云通用RAM鉴权,创建AccessKey进行身份认证。支持简单权限、专家权限、Schema级简单权限等多种权限模型

    • 操作审计支持通过阿里云操作审计ActionTrail的控制台、OpenAPI、开发者工具等,查询近90天内的实例操作事件日志,同时提供Query日志信息。

  • 网络安全

    网络安全

    • 访问隔离每个实例的经典网络、VPC网络、公网网络三网隔离,只能访问各自对应的Endpoint及虚拟内网IP(VIP)。

    • IP白名单在各类访问鉴权基础上,开启白名单功能时,仅允许白名单内的设备访问Hologres实例,非白名单内的设备通过鉴权也无法访问。

客户案例
常见问题
Q:实时数仓选择Lambda还是Kappa架构?
A:Lambda架构存储割裂状态,导致数据不一致,口径不一致,而Kappa架构又无法满足数据频繁修正、更新需求,Hologres提出HSAP架构实现离线实时数据的分析服务一体化。查看详情
Q:Streaming Warehouse如何选择保证实时性?
A:Hologres与Flink结合可直接替换将Flink+Kafka,实现10亿+/秒的数据高吞吐实时写入与更新,解决实时数仓分层的问题。查看详情
Q:如何通过Hologres实现性能调优?
A:Hologres可以从数据表构建、数据查询等流程进行优化,阿里妈妈通过实践实现6亿人群包数据分析耗时降低72%。查看详情
Q:Hologres如何优化半结构化数据查询性能?
A:Hologres升级JSONB列式存储,在淘宝双11搜索场景下查询性能提升400%+,存储下降45%,共资源节省数千core(预计节省成本数百万元)。查看详情
Q:如何通过Hologres实现自诊断与自运维?
A:Hologres可透出Worker级别监控指标,帮助业务能更加精准的定位问题,查看资源使用情况,以提高系统的整体可用性。查看详情
Q:如何排查Hologres OOM问题?
A:OOM问题一般出现在查询、数据导入导出等场景,主要由于内存消耗过高,Hologres有多种方式可以逐步解决内存水位过高问题。查看详情
社区
实验与课程
技术交流