DataWorks排名-DataWorks排名文档介绍内容-阿里云

开发PyODPS 2任务

DataWorks提供PyODPS 2节点类型，您可以在DataWorks上通过PyODPS语法进行PyODPS任务开发，PyODPS集成了MaxCompute的Python SDK。支持您在DataWorks的PyODPS 2节点上直接编辑Python代码，操作MaxCompute。前提条件已创建PyODPS 2节点，详情...

开发PyODPS 3任务

DataWorks为您提供PyODPS 3节点，您可以在该节点中直接使用Python代码编写MaxCompute作业，并进行作业的周期性调度。本文为您介绍如何通过DataWorks实现Python任务的配置与调度。前提条件已创建PyODPS 3节点，详情请参见创建并管理...

快速入门

PyODPS可在DataWorks等数据开发平台中作为数据开发节点调用。这些平台提供了PyODPS运行环境和调度执行的能力，无需您手动创建ODPS入口对象。PyODPS支持类似Pandas的快速、灵活和富有表现力的数据结构。您可以通过PyODPS提供的DataFrame API...

PyODPS常见问题

本文为您介绍使用PyODPS时的常见问题。问题类别常见问题安装PyODPS 安装PyODPS时，提示Warning:XXX not installed，如何解决？安装PyODPS时，提示Project Not Found，如何解决？安装PyODPS时，报错Syntax Error，如何解决？在Mac上安装...

安装PyODPS

PyODPS是MaxCompute的Python版本的SDK，提供对MaxCompute对象的基本操作及DataFrame框架，帮助您在MaxCompute上使用Python进行数据分析，支持在DataWorks或本地环境上使用。本文为您介绍在本地环境上使用PyODPS时，如何安装PyODPS。前提...

Python SDK常见问题

本文为您介绍Python SDK常见问题，即PyODPS。问题类别常见问题安装PyODPS 安装PyODPS时，提示Warning:XXX not installed，如何解决？安装PyODPS时，提示Project Not Found，如何解决？安装PyODPS时，报错Syntax Error，如何解决？在Mac上...

from odps import_version_as odps_version from mars import_version_as mars_version print(odps_version)print(mars_version)odps_version 为PyODPS版本，要求PyODPS为0.9.3.1以上版本。mars_version 为Mars版本，要求Mars为0.4.4以上...

PyODPS概述

DataWorks：DataWorks的PyODPS节点已安装好了PyODPS，您可以直接在DataWorks的PyODPS节点上开发PyODPS任务并周期性运行，操作指导请参见通过DataWorks使用PyODPS。PAI Notebooks：PAI的Python环境也可安装运行PyODPS，其中PAI的内置镜像均...

PyODPS参数传递

本文为您介绍如何在DataWorks中进行PyODPS参数的传递。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据...

开发PyODPS脚本

新建MaxCompute PyODPS脚本后，PyODPS脚本模板会通过PyODPS Room自动初始化 odps 和 o 两个对象。通过DataWorks开发PyODPS脚本时，系统会自动创建Room。通过IntelliJ IDEA开发PyODPS脚本时，需要创建Room，详情请参见 PyODPS文档。

PyODPS使用第三方包

本文为您介绍如何在PyODPS中使用第三方包。PyODPS制作第三方包的操作请参见 PyODPS制作第三方包。前提条件已开通MaxCompute产品。如何开通请参见开通MaxCompute。已开通DataWorks产品。如何开通请参见开通DataWorks。上传三方包使用...

PyODPS节点实现结巴中文分词

本文为您介绍如何使用DataWorks的PyODPS类型节点，结合开源结巴中文分词库，对数据表中的中文字段进行分词处理并写入新的数据表，以及如何通过闭包函数使用自定义词典进行分词。前提条件已创建DataWorks工作空间并绑定了MaxCompute计算...

开发ODPS Spark任务

MaxCompute Spark作业可通过 Local模式、Cluster模式执行，此外，您也可在DataWorks中运行MaxCompute Spark离线作业（Cluster模式），以便与其它类型执行节点集成和调度。本文为您介绍如何通过DataWorks实现MaxCompute Spark作业的配置与...

开源支持

如何在DataWorks上使用PyODPS，详情请参见 PyODPS开发指南。PyODPS提供了DataFrame API，详情请参见 PyODPS DataFrame概述。欢迎您在GitHub aliyun-odps-python-sdk 反馈问题和需求，加快PyODPS生态成长。服务支持方式：您可通过访问官方...

PyODPS查看一级分区

本文为您介绍如何在PyODPS中查看一级分区。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

PyODPS的去重

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))print iris[['name']].distinct()print iris.distinct('name')print iris.distinct('name','sepallength').head(3)#您可以调用unique对Sequence进行去重操作，...

PyODPS读取分区表数据

本文为您介绍如何通过PyODPS读取分区表数据。前提条件您需要完成以下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤准备测试数据。创建表并...

ODPS-0420095

错误码：ODPS-0420095:Access Denied 错误1：You have no privilege to create external project-you have to be owner,super admin or admin of the referred project.错误信息 ODPS-0420095:Access Denied-You have no privilege to ...

在本地环境上使用PyODPS

PyODPS是阿里云开发的Python SDK，用于在本地环境上使用MaxCompute服务。本文将介绍如何在本地环境上使用PyODPS进行表操作、数据加载和运行SQL查询。前提条件本地已安装python环境，且已安装PyODPS包，参考：安装PyODPS。准备数据集 ...

通过DataWorks使用PyODPS

PyODPS为MaxCompute的Python版SDK，支持在DataWorks中开发运行PyODPS任务。本文为您介绍在DataWorks上使用PyODPS的使用限制、主要流程和部分简单应用示例。使用限制使用方式限制如果您发现有 Got killed 报错，即表明内存使用超限，进程...

使用DataWorks连接

MaxCompute任务节点包括：ODPS SQL节点、ODPS Spark节点、PyODPS 2节点、PyODPS 3节点、ODPS Script节点、ODPS MR节点。使用场景数据分析使用场景数据分析的 SQL查询功能使用场景如下：您可以通过数据分析的 SQL查询功能查询数据，并...

准备工作

命令示例如下：python test.py 通过DataWorks访问MaxFrame DataWorks为MaxCompute项目提供任务调度能力，且已在PyODPS 3节点内置了MaxFrame，您可以直接使用DataWorks的PyODPS 3节点开发和运行MaxFrame作业。创建PyODPS 3节点。您可以进入...

PyODPS的Sequence及执行操作

本文为您介绍如何进行PyODPS的Sequence及执行操作。前提条件请提前完成如下操作：已开通MaxCompute。已开通DataWorks。在DataWorks上完成业务流程创建，本例使用DataWorks简单模式。详情请参见创建业务流程。操作步骤创建表并导入数据...

项目空间

使用DataWorks：创建好PyODPS 2节点或PyODPS 3节点，详情请参见通过DataWorks使用PyODPS。使用本地PC环境：安装好PyODPS并初始化ODPS入口对象。获取项目空间使用MaxCompute入口对象的 get_project()方法获取项目空间。project=o.get_...

PyODPS DataFrame的代码运行环境

代码示例 from odps import ODPS,options import numpy as np o=ODPS(.)df=o.get_table('pyodps_iris').to_df()coeffs=[0.1,0.2,0.4]def handle(v):import numpy as np return float(np.cosh(v))*sum(coeffs)options.df.supersede_...

PyODPS制作第三方包

PyODPS自V0.11.3版本开始提供了 pyodps-pack 命令行工具，用于制作符合PyODPS及DataWorks PyODPS节点标准的三方包，使用方法类似 pip 命令。您可以使用该工具将所有依赖项目制作成一个后缀为.tar.gz 的压缩包，其中包含所有依照MaxCompute...

运行模式

MaxCompute Spark支持三种运行方式：Local模式、Cluster模式和DataWorks执行模式。Local模式 MaxCompute Spark支持用户以原生Spark Local模式进行作业调试。与Yarn Cluster模式类似，您首先需要做以下准备工作：准备MaxCompute项目以及对应...

作业优先级

Odps odps=new Odps(account);公共云URL。String odpsUrl="http://service.odps.aliyun.com/api";odps.setEndpoint(odpsUrl);odps.setDefaultProject("xxxxxxxxxx");SQLTask task=new SQLTask();task.setName("adhoc_sql_task_1");task....

数据动态脱敏

DataWorks基础版暂时无法使用此功能，如您的DataWorks为基础版，请升级DataWorks为合适版本。详情请参见 DataWorks各版本详解。仅华北2（北京）、华东2（上海）、华东1（杭州）、西南1（成都）、华南1（深圳）、华北2（北京政务云）、华东2...

配置选项

您可以通过 odps.options 获得PyODPS提供的配置选项。from odps import options#设置所有输出表的生命周期（lifecycle选项）。options.lifecycle=30#使用Tunnel下载string类型时使用bytes（tunnel.string_as_binary选项）。options.tunnel....

PyODPS的排序

from odps.df import DataFrame iris=DataFrame(o.get_table('pyodps_iris'))#排序 print iris.sort('sepalwidth').head(5)#降序排列两种方式#设置参数ascending=False;进行降序排列 print iris.sort('sepalwidth',ascending=False).head(5...

Spark常见问题

在DataWorks ODPS Spark节点中选择jar、file、archive资源。说明该方案在任务运行时会上传资源，对于较大资源建议采用方案一进行引用。如何访问VPC？当前MaxCompute Spark支持以下两种方式来访问阿里云VPC中的服务：反向访问方式使用限制...

ODPS-0123144

错误码：ODPS-0123144:Fuxi job failed 错误1：kInstanceMonitorTimeout(errCode:252)at Odps/xxx/xxx.Detail error msg:CRASH_EXIT,usually caused by bad udf performance.错误信息 ODPS-0123144:Fuxi job failed-...

数据类型版本说明

查看 odps.sql.type.system.odps2、odps.sql.decimal.odps2、odps.sql.hive.compatible 属性判断当前项目的数据类型版本。修改项目的数据类型版本如果发现项目当前选择的数据类型版本不能满足业务需求，可以修改数据类型版本。项目管理员...

PyODPS API概述

本文为您提供了PyODPS API文档链接，其中包含各函数的参数说明及示例。ODPS详解（Definitions）PyODPS DataFrame指南（DataFrame Reference）

常见问题

区分二者的方式如下：DataWorks工作空间：登录 DataWorks控制台，在左侧导航栏，单击工作空间列表，此处您看到的是DataWorks工作空间。MaxCompute项目：登录 MaxCompute控制台，在左侧导航栏选择工作区>项目管理，查看MaxCompute项目名称...

Python SDK概述

PyODPS是MaxCompute的Python SDK，能够方便地使用Python语言与MaxCompute进行交互和数据处理。通过该SDK，可以更高效地开发MaxCompute任务、进行数据分析和管理MaxCompute资源。本文为您介绍PyODPS的使用和常见方法。PyODPS介绍 PyODPS提供...

合并小文件

PyODPS脚本合并通过PyODPS异步提交任务，合并前一天任务产出的小文件，脚本示例如下：import os from odps import ODPS from odps.tunnel import TableTunnel#确保 ALIBABA_CLOUD_ACCESS_KEY_ID 环境变量设置为用户 Access Key ID，#...

调试指南

由于PyODPS DataFrame本身会对整个操作执行优化，为了更直观地反应整个过程，您可以使用可视化的方式显示整个表达式的计算过程。可视化DataFrame 可视化需要依赖 graphviz软件和 graphviz Python包。df=iris.groupby('name').agg(id=iris....

实现指定用户访问特定UDF最佳实践

{"Version":"1","Statement"[{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:projects/sz_mc/resources/getaddr.jar"},{"Effect":"Deny","Action":["odps:Read","odps:List"],"Resource":"acs:odps:*:...

DataWorks排名

新品推荐