阿里云文档 2026-01-21

External Catalog采集方式

数据地图针对External Catalog的元数据采集目前为间接关联形式,如果您在StarRocks类型数据库中已使用External Catalog能力,并期望在数据地图中通过StarRocks数据源类型作为来源,查看其External Catalog下的表及元数据详情,可通过本文进行操作配置。配置并采集完成后,可利用数据地图的搜索功能,搜索和查看StarRocks External Cata...

阿里云文档 2026-01-12

调用ListCrawlerTypes接口获取数据地图的元数据采集器类型列表-大数据开发治理平台 DataWorks-阿里云

查询数据地图支持的元数据采集器类型列表,其中包含元数据采集器类型,及给定类型支持的子类型和子类型之间的层级关系信息。

文章 2025-10-23 来自:开发者社区

【赵渝强老师】大数据日志采集引擎Flume

Apache Flume支持采集各类数据发送方产生的日志信息,并且可以将采集到的日志信息写到各种数据接收方。其核心是把数据从数据源(Source)收集过来,在将收集到的数据送到指定的目的地(Sink)。为了保证输送的过程一定成功,在送到目的地(Sink)之前,会先缓存数据(Channel),待数据真正到达目的地(Sink)后,Flume再删除自己缓存的数据。 一、 Apache...

【赵渝强老师】大数据日志采集引擎Flume
文章 2025-07-19 来自:开发者社区

大数据之路:阿里巴巴大数据实践——日志采集与数据同步

第1章 综述 数据采集层 Aplus.JS:Web端日志采集技术方案。UserTrack: APP端日志采集技术方案。TimeTunnel:DB增量数据传输及日志数据传输,支持流式计算和基于时间窗口的批量计算。DataX:阿里数据同步工具,直连异构数据库来抽取各种时间窗口的数据。 数据计算层 MaxCompute...

阿里云文档 2025-06-27

同步数据、EMR 如何通过DataWorks同步日志数据至EMR引擎

本文为您介绍如何新建HttpFile和MySQL数据源来访问本教程所提供的用户信息与网站日志数据,配置数据同步链路至私有OSS数据源,并通过EMR Hive节点建表查询同步后的数据,完成数据同步的操作过程。

阿里云文档 2025-06-27

用户画像分析案例同步用户和日志数据

本教程以MySQL中的用户基本信息ods_user_info_d表和OSS中的网站访问日志数据user_log.txt文件为例,通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d_odps、ods_raw_log_d_odps表。旨在介绍如何通过DataWorks数据集成实现异构数据源间的数据同步,完成数仓数据同步操作。

问答 2024-07-24 来自:开发者社区

大数据计算MaxCompute上如何只用DataWorks和MaxCompute实现数据的采集?

大数据计算MaxCompute上如何只用DataWorks和MaxCompute实现数据的采集,入数仓,处理和导出操作?

文章 2024-06-21 来自:开发者社区

Nutch爬虫在大数据采集中的应用案例

引言在当今信息爆炸的时代,大数据的价值日益凸显。网络作为信息的海洋,蕴藏着丰富的数据资源。Nutch,作为一个开源的Java编写的网络爬虫框架,以其高效的数据采集能力和良好的可扩展性,成为大数据采集的重要工具。本文将通过一个具体的应用案例,展示Nutch爬虫在大数据采集中的实际应用。Nutch爬虫概述Nutch是...

问答 2024-06-05 来自:开发者社区

大数据计算MaxCompute有没有那种日志表可以直接看到每天数据同步采集的时候?

大数据计算MaxCompute有没有那种日志表可以直接看到每天数据同步采集的时候,插入的表名称,插入时间,插入数据条数,像元数据那样的一张表?

问答 2024-06-04 来自:开发者社区

MaxCompute 本地服务器每天采集的网站日志有10 GB需要上传至MaxCompute在...

MaxCompute 本地服务器每天采集的网站日志有10 GB需要上传至MaxCompute在使用Tunnel Upload命令上传时速度约为300 KB/S如何提升上传速度

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

云原生大数据计算服务 MaxCompute您可能感兴趣

产品推荐

阿里巴巴大数据计算

阿里大数据官方技术圈

+关注