阿里云文档 2025-12-12

开放存储SDK示例-Java SDK

MaxCompute支持第三方引擎(如Spark on EMR、StarRocks、Presto、PAI和Hologres)通过SDK调用Storage API直接访问MaxCompute数据,本文为您介绍使用Java SDK访问MaxCompute的代码示例。

阿里云文档 2025-08-28

通过Java代码连接启用了Kerberos认证的EMR Hive

在企业级大数据平台中,Kerberos认证是保障Hadoop、Hive、HBase等组件安全性的关键机制。当本地Java客户端需要连接到启用了Kerberos认证的EMR集群时,必须正确配置Kerberos,并利用Hive JDBC驱动进行连接。本文将介绍在macOS/Linux环境中,通过Java代码连接到启用了Kerberos认证的EMR Hive服务的方法。

阿里云文档 2025-05-22

通过Java SDK大数据场景下批量写入数据

在大数据场景下批量写入数据到数据表。当要写入数据到数据表时,您需要指定完整主键以及要增删改的属性列。

阿里云文档 2025-03-24

Java UDF

本文为您介绍如何编写和使用UDF。

阿里云文档 2023-03-06

问题描述创建MaxCompute自定义函数时,在代码中调用了其他API,或者有访问外部网络的操作。本地调用UDF函数正常,但是传入Dataphin注册之后,报错“java.net.SocketException: Network is unreachable (connect failed)”。问题...

文章 2022-05-02 来自:开发者社区

java大数据组件Kafka

1.定义:大吞吐量,内置分区,可以进行数据备份,同时具备数据容错性的消息系统。1.Kafka可以完成在线或者离线数据消费,所谓离线数据消费实际上就是kafka将消息数据保留在磁盘上。2.kafka会做数据备份,防止节点宕机从而导致数据丢失。3.和spark产品的整合性非常好,可以完成实时的大数据分析4.kafka的节点可以无限扩容2.消息系统:将数据从一个应用程序传递到另一个应用程序,分布式系统....

文章 2022-05-02 来自:开发者社区

java大数据组件Zookeeper

zookeeper的作用:Zookeeper是针对大型分布式系统的高可靠的协调系统,如dubbo里面的注册中心、分布式锁等,主要应用于分布式系统中。分布式应用的优点:1.可靠性- 单个或几个系统的故障不会使整个系统出现故障。2.可扩展性- 可以在需要时增加性能,通过添加更多机器,在应用程序配置中进行微小的更改,而不会有停机时间。3.透明性- 隐藏系统的复杂性,并将其显示为单个实体/应用程序。分布....

java大数据组件Zookeeper
文章 2022-05-02 来自:开发者社区

java大数据组件Flume

特点:flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力Flume的可靠性:当节点出现故障时,日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障:1.end to end:收到数据agent首先将ev....

java大数据组件Flume

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

云原生大数据计算服务 MaxCompute您可能感兴趣

产品推荐

阿里巴巴大数据计算

阿里大数据官方技术圈

+关注