文章 2023-12-26 来自:开发者社区

2022年最新Python大数据之Python基础【五】(集合)

15、集合的定义变量 = {数据1, 数据2, 数据3.。。。}空集合:set()集合是一个无序的 不重复的数据序列# 集合: 集合是一个无序,不重复的数据序列 # 无序: 程序员无法控制其排不顺序, 程序员无法使用索引查找或修改数据 # 不重复:没有办法在字典中放入相同的值,会自动去重,类似于字典的键 # 无序: set1 = {1, 2, 5, 6, 3, 4} # 程序员无法利用其顺序,.....

文章 2023-12-26 来自:开发者社区

2022年最新Python大数据之Python基础【五】(字典)

9、字典的定义格式:变量 = {key1 : value1, key2: value2…}空字典定义:{}dict()字典中键不能重复,是唯一的,但是值可以重复字典中的键要见名知意,体现字典可以见名知意的特性# 字典:储存多个数据,以键值对形式存储,方便快速存取 # 字典的键要见名知意 # 字典定义格式: 变量 = {键1:值1, 键2:值2.....} dict1 = {'name': 'xi....

文章 2023-12-26 来自:开发者社区

2022年最新Python大数据之Python基础【五】(元组)

7、元组的定义单元素元组: 变量 = (数据,)多元素元组:变量 = (数据1, 数据2, 数据3…)# 元组:可以储存多个数据,但是元组内的数据不能被修改(元定义后只能被查询) # 元组的定义:变量 = (数据1, 数据2, 数据3......) tuple1 = (1, 2, 3, 4) # 打印后可以展示元组中的全部信息 print(tuple1) # (1, 2, 3, 4) # 查询.....

文章 2023-12-26 来自:开发者社区

Python大数据之Python进阶(六)多线程的使用

多线程的使用学习目标能够使用多线程完成多任务1. 导入线程模块#导入线程模块 import threadingCopy2. 线程类Thread参数说明Thread([group [, target [, name [, args [, kwargs]]]]])group: 线程组,目前只能使用Nonetarget: 执行的目标任务名args: 以元组的方式给执行任务传参kwargs: 以字典方式....

文章 2023-12-26 来自:开发者社区

Python大数据之Python进阶(五)线程

线程学习目标能够知道线程的作用1. 线程的介绍在Python中,想要实现多任务除了使用进程,还可以使用线程来完成,线程是实现多任务的另外一种方式。2. 线程的概念线程是进程中执行代码的一个分支,每个执行分支(线程)要想工作执行代码需要cpu进行调度,也就是说线程是cpu调度的基本单位,每个进程至少都有一个线程,而这个线程就是我们通常说的主线程。3. 线程的作用多线程可以完成多任务多线程效果图:4....

Python大数据之Python进阶(五)线程
文章 2023-12-26 来自:开发者社区

Python大数据之PySpark(八)SparkCore加强

SparkCore加强重点:RDD的持久化和Checkpoint提高拓展知识:Spark内核调度全流程,Spark的Shuffle练习:热力图统计及电商基础指标统计combineByKey作为面试部分重点,可以作为扩展知识点Spark算子补充关联函数补充join为主基础算子# -*- coding: utf-8 -*- # Program function:演示join操作 from pyspa....

Python大数据之PySpark(八)SparkCore加强
文章 2023-12-26 来自:开发者社区

Python大数据之PySpark(七)SparkCore案例

SparkCore案例PySpark实现SouGou统计分析jieba分词:pip install jieba 从哪里下载pypi三种分词模式精确模式,试图将句子最精确地切开,适合文本分析;默认的方式全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。# -*- coding: utf....

Python大数据之PySpark(七)SparkCore案例
文章 2023-12-26 来自:开发者社区

Python大数据之PySpark(六)RDD的操作

RDD的操作函数分类*Transformation操作只是建立计算关系,而Action 操作才是实际的执行者*。Transformation算子转换算子操作之间不算的转换,如果想看到结果通过action算子触发Action算子行动算子触发Job的执行,能够看到结果信息Transformation函数值类型valueTypemapflatMapfiltermapValue双值类型DoubleVal....

Python大数据之PySpark(六)RDD的操作
文章 2023-12-26 来自:开发者社区

Python大数据之PySpark(五)RDD详解

RDD详解为什么需要RDD?首先Spark的提出为了解决MR的计算问题,诸如说迭代式计算,比如:机器学习或图计算希望能够提出一套基于内存的迭代式数据结构,引入RDD弹性分布式数据集,如下图为什么RDD是可以容错?RDD依靠于依赖关系dependency relationshipreduceByKeyRDD-----mapRDD-----flatMapRDD另外缓存,广播变量,检查点机制等很多机制....

Python大数据之PySpark(五)RDD详解
文章 2023-12-26 来自:开发者社区

Python大数据之PySpark(四)SparkBase&Core

SparkBase&Core学习目标掌握SparkOnYarn搭建掌握RDD的基础创建及相关算子操作了解PySpark的架构及角色环境搭建-Spark on YARNYarn 资源调度框架,提供如何基于RM,NM,Continer资源调度Yarn可以替换Standalone结构中Master和Worker来使用RM和NM来申请资源SparkOnYarn本质Spark计算任务通过Yarn申....

Python大数据之PySpark(四)SparkBase&Core

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

云原生大数据计算服务 MaxCompute您可能感兴趣

产品推荐

大数据计算 MaxCompute

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

+关注