阿里云文档 2025-01-24

开放存储SDK示例-Python SDK

MaxCompute支持第三方引擎(如Spark on EMR、StarRocks、Presto、PAI和Hologres)通过SDK调用Storage API直接访问MaxCompute数据,本文为您介绍使用Python SDK访问MaxCompute的代码示例。

阿里云文档 2024-11-14

Shell类型节点运行Python脚本

DataWorks的Shell类型节点支持运行Python脚本。本文将为您介绍如何使用通用Shell节点或EMR Shell节点运行Python 2或Python 3脚本。

阿里云文档 2024-10-22

PySpark中的Python环境介绍

EMR DataLake和自定义集群安装的Spark版本对Python环境的依赖各不相同。本文以Python3为例,介绍不同Spark版本所对应的Python版本,以及安装Python第三方库的方法。

阿里云文档 2023-12-29

StreamingTunnelSDK上传数据的简单示例

Streaming Tunnel是MaxCompute的流式数据通道,您可以通过Streaming Tunnel向MaxCompute中上传数据,本文为您介绍使用Python版Streaming Tunnel SDK上传数据的简单示例。

文章 2023-12-26 来自:开发者社区

Python大数据之PySpark(六)RDD的操作

RDD的操作函数分类*Transformation操作只是建立计算关系,而Action 操作才是实际的执行者*。Transformation算子转换算子操作之间不算的转换,如果想看到结果通过action算子触发Action算子行动算子触发Job的执行,能够看到结果信息Transformation函数值类型valueTypemapflatMapfiltermapValue双值类型DoubleVal....

Python大数据之PySpark(六)RDD的操作
文章 2023-12-26 来自:开发者社区

Python大数据之PySpark(五)RDD详解

RDD详解为什么需要RDD?首先Spark的提出为了解决MR的计算问题,诸如说迭代式计算,比如:机器学习或图计算希望能够提出一套基于内存的迭代式数据结构,引入RDD弹性分布式数据集,如下图为什么RDD是可以容错?RDD依靠于依赖关系dependency relationshipreduceByKeyRDD-----mapRDD-----flatMapRDD另外缓存,广播变量,检查点机制等很多机制....

Python大数据之PySpark(五)RDD详解
阿里云文档 2023-11-10

如何使用PythonClient编程方式访问TrinoOnACK服务_EMR on ACK_开源大数据平台 E-MapReduce(EMR)

本文为您介绍如何使用Python Client编程的方式访问Trino On ACK服务并执行查询操作。

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

Python学习站

Python学习资料大全,包含Python编程学习、实战案例分享、开发者必知词条等内容。

+关注
相关镜像