开源社区可以做什么-开源社区可以做什么文档介绍内容-阿里云

概述

MaxCompute Spark是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限...左侧是原生Spark的架构图，右侧的Spark on MaxCompute运行在阿里云自研的Cupid平台之上，该平台可以原生支持开源社区Yarn所支持的计算框架。

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

100%采用社区开源组件，适配并优化开源组件，性能远高于开源版本。基于时间的弹性伸缩能力，抢占式实例可进一步降低成本。解耦了计算与存储之间的绑定关系，实现了资源的弹性利用。分钟级别创建和扩容集群，无需手动部署和启动服务。EMR on...

SmartData常见问题

您可以使用JindoFS缓存模式，通过预加载将OSS数据提前写入内存或者SSD做缓存，然后训练引擎可以通过JindoFuse支持直接读取。基于MaxCompute数仓上的数据，JindoFS如何帮助机器学习训练？有如下两种方式：MaxCompute数仓作业将数据通过...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

迁移场景

开源软件：开源软件指开发者从开源社区下载未做源码修改的软件或者所使用操作系统生态中默认携带的软件。当前大部分开源软件在倚天ARM平台上已经提供较好的应用生态，您可以直接使用操作系统提供的开源生态软件来安装部署。更多信息，请...

合作伙伴及开源生态

同时，SOFAStack 也积极参与了多个重要开源社区，如 SOFAStack 消息队列（SOFAStack MQ，简称 SOFAMQ）加入了 OpenMessaging 社区贡献能力。活动与社群 SOFALab 源码共建 SOFALab 为 SOFAStack 社区发起源码解析系列文章的共建活动，该系列...

Hive统一元数据

使用统一的元数据库，如果您的所有数据都存放在OSS之上，则不需要做任何元数据的迁移和重建，所有集群都是可以直接访问数据，这样每个EMR集群可以做不同的业务，但是可以很方便地实现数据的共享。创建使用统一元数据的集群支持以下两种...

产品架构

EMR开源优化 EMR基于开源社区版本的组件，增强了其性能和功能，例如：Spark中增加了Spark Streaming SQL，性能较开源版本有大幅提升，详情请参见简介。Delta Lake相较开源版本增加了ZOrder和Data Skipping能力，详情请参见 Delta Lake概述...

大语言模型

其中1.8B模型基于最新在魔搭社区开源的最新版本，7B模型基于最新在魔搭社区上开源的 V1.1版本，而14B模型同样基于魔搭社区上最新版本提供，72B模型基于魔搭社区开源的最新版本提供。模型服务模型名称模型描述应用场景通义千问72B ...

数据上云工具

MaxCompute平台支持丰富的数据上传和下载工具（其中大部分工具已经在GitHub公开源代码，以开源社区的方式进行维护）。您可以根据实际应用场景，选择合适的工具进行数据的上传和下载。阿里云数加产品 MaxCompute客户端（Tunnel通道系列）...

迁移方案

重要对于DataStream作业来说，开源Flink和VVR的state是完全兼容的，但是对于SQL作业来说，VVR相比社区Flink，做了大量的优化工作，不能保证state完全兼容。对于state不能兼容的作业，无法从开源Flink生成的Checkpoint中恢复。对于这部分...

三方开源大语言模型

促进中文对话大模型开源社区的发展，愿景是成为能够帮到每一个人的LLM Engine。相比如何做好大语言模型的预训练，BELLE更关注如何在开源预训练大语言模型的基础上，帮助每一个人都能够得到一个属于自己的、效果尽可能好的具有指令表现能力...

EMR Spark功能增强

阿里云E-MapReduce产品构建于阿里云云服务器ECS上，基于开源的Apache Hadoop和Apache Spark，做了大量优化。本文为您介绍E-MapReduce（简称EMR）Spark相对开源增强的功能。背景信息阿里云EMR 100%采用社区开源组件，随开源版本升级迭代，...

Hive概述

Hive是一个基于Hadoop的数据仓库框架，在大数据业务场景中，主要用来...Hive语法 EMR产品最大程度的保持了开源社区的语法以及体验，在Hive语法上保持与开源社区Hive语法100%的兼容性。关于Apache Hive的更多介绍，请参见 Apache Hive官网。

什么是EMR on ECS

采用开源社区版本，性能需自行优化。易用性分钟级别启动Hadoop集群，敏捷响应业务需求。采购服务器，部署Hadoop生态组件，周期长达数周。弹性可根据作业临时启动和销毁集群。集群资源可根据时间周期或集群负载动态自动调整。基于JindoFS...

功能特性

由ASM托管的控制面支持的功能网格管理功能 开源社区 标准版企业版旗舰版基于UI控制台的网格实例部署、升级管理等全生命周期管理支持ACK当前支持中的全部版本（包括ACK托管版和专有版集群,以及支持ECI on ACK模式）支持ASK当前支持中...

OpenLDAP

OpenLDAP是LDAP协议（Lightweight Directory Access Protocol）的开源实现，在EMR集群中主要提供用户管理和身份认证的功能。服务集成OpenLDAP 在EMR集群中，...这种方式需要参考OpenLDAP开源社区的文档来进行操作。开源文档请参见 OpenLDAP。

通过OSS SDK接入开源生态

您可以通过OSS SDK接入多种开源生态。开源生态说明使用Hadoop或者Hive访问OSS 此系列文档由开源软件Apache社区提供。使用Flink访问OSS 将HBase快照保存在OSS 将Kafka数据导入OSS 此系列文档由面向开源项目的托管平台GitHub提供。使用...

产品优势

稳定可靠的开源组件 100%采用社区开源组件，随开源版本升级迭代，详情请参见版本概述。适配开源组件，避免开源组件之间的版本兼容性问题。基于开源组件，优化和增强阿里云部署环境，性能远高于开源版本。节约成本通过有效弹性伸缩和数据...

什么是图计算服务

Graph Compute 与其他开源图计算相比的优势问题一：查询性能为什么能比开源好很多图计算服务内核引擎iGraph在分区并发查询的基础上，通过自研的协程异步框架并发召回，将同步串行磁盘访问改造为异步并行，极大的提高了查询性能；...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

免费体验Lindorm宽表性能&价格力

本文介绍了如何免费体验Lindorm宽表引擎和开源社区版HBase的性能&价格力对比。背景云原生多模数据库Lindorm面向海量泛时序数据、半结构化数据和非结构化数据提供低成本存储、在线查询和检索、离线分析、AI 推理等一站式数据服务，支持...

什么是EMR on ACK

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。形态对比阿里云EMR提供on ECS和on ACK两种方式，以...

EMR on ACK商业化公告

您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注大数据任务本身。收费标准阿里云EMR on ACK正式商业化后，将根据集群...

数据迁移

背景信息 EMR Kudu支持社区1.10以及1.11版本，可以使用社区提供的Backup和Restore的工具进行数据的迁移。基本流程示意图如下所示。操作步骤执行以下命令，查看待迁移Kudu表的名称列表。Kudu table list {YourKuduMasterAddress} 说明本文...

开源RabbitMQ迁移上云

在使用开源RabbitMQ集群时，当您希望能够解决各种稳定性痛点（例如消息堆积、脑裂等问题）、实现高并发、分布式、灵活扩缩容时，您可以将开源RabbitMQ集群迁移至云消息队列 RabbitMQ 版，本文介绍迁移上云的前提条件、操作步骤、注意事项...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

快速使用EMR on ACK

关于Spark的更多介绍，可以参见开源文档 Quick Start，选择适合您的语言和版本。提交作业的详细信息请参见：提交Spark作业使用CLI提交Presto作业提交Flink作业通过kubectl连接Kubernetes集群，详情请参见获取集群KubeConfig并通过...

StarRocks概述

说明本文部分内容来源于开源StarRocks的什么是StarRocks。StarRocks特性 StarRocks的架构设计融合了MPP数据库，以及分布式系统的设计思想，其特性如下所示。架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够...

关于MSE Nacos新版本取消开源控制台登录页的公告

Nacos社区自2.2.2版本开始，如果没有开启社区默认鉴权，开源控制台的登录页将不再出现。MSE Nacos 2.2.3.0版本以后开启开源控制台，也会关闭此登录页。Nacos社区提供的开源控制台在2.2.2版本前，无论是否开启鉴权功能，开源控制台都会...

什么是EMR Serverless Milvus

兼容开源Milvus生态全面兼容开源Milvus系统，提供了Attu等丰富的开源管理工具，更拥有丰富且活跃的生态社区资源。产品功能构建企业级全托管的可扩展 AI 向量数据库相似性检索服务高可用性致力于为客户提供优质的产品体验，基于阿里云...

管理LDAP认证

EMR-5.11.0及之前版本，EMR-3.45.0及之前版本重要如果您的EMR版本较低，没有相应的LDAP认证配置按钮，则需要参考开源软件的社区文档进行手动配置，以启用LDAP认证功能。在组件列表区域，选择 SparkThriftServer 操作列的>enableLDAP。...

开源软件迁移

当前大部分应用系统都基于开源软件构建，并且大部分的开源软件在倚天ARM平台上已经提供较好的应用生态，您可以直接使用操作系统提供的开源生态软件来安装部署。本文介绍Nginx、MySQL、Redis、TensorFlow、PyTorch等开源软件如何在倚天...

Flink（VVR）作业配置

EMR-3.27.x及之前版本使用Flink社区开源版本，EMR-3.27.x之后版本使用完全兼容开源Flink的企业版（VVR）。本文介绍如何配置Flink（VVR）类型的作业。背景信息 Flink企业版由Apache Flink创始团队官方出品，拥有全球统一商业化品牌。VVR提供...

访问链接与端口

通过访问链接与端口功能，您可以方便地通过控制台方式访问集群中已安装开源组件Web UI的地址。本文将介绍如何设置安全组规则和访问链接，以便查看集群中开源组件的UI界面。前提条件已创建E-MapReduce集群，详情请参见创建集群。背景信息 ...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

生命周期策略

在开源大数据社区蓬勃发展的今天，新版本带来了更丰富、强大和易用的产品特性。随着引擎重构、计费计量、云原生部署等多种形态的不断涌现，已经投入使用的产品版本和形态会逐渐老化，无法满足不断增长的业务需求。从应用稳定性、资源弹性、...

Superset（仅对存量用户开放）

您可以使用Superset连接多个数据源自助分析并可视化、定义图表和看板、导入或导出看板，并且可以对用户和角色进行权限管理。本文以EMR-3.34.0版本的集群为例为您介绍如何使用Superset。背景信息 Superset对E-MapReduce Druid做了深度集成，...

开源社区可以做什么

新品推荐