文章 2024-03-14 来自:开发者社区

从零到精通:学习这些R语言必学包成为数据分析高手!

一、操作数据 ❝ tidyverse ❞ tidyverse是一个强大的R语言数据分析工具集,包含了多个核心包。其中包括ggplot2用于数据可视化、dplyr用于数据处理和转换、tidyr用于数据整理和重塑、readr用于数据导入和读取、purrr用于函数式编程、stringr用于字符串处理等。 ❝ dpl...

从零到精通:学习这些R语言必学包成为数据分析高手!
文章 2024-03-01 来自:开发者社区

深入学习NumPy库在数据分析中的应用场景

在数据科学与机器学习领域,NumPy(Numerical Python)是一个经常被提及的重要工具。它是Python语言中一个非常强大的库,提供了高性能的多维数组对象以及用于处理这些数组的工具。NumPy不仅仅是一个用于数值计算的库,它还拥有广泛的应用,尤其在数据分析领域。本文将深入探讨NumPy库在数据分析中的...

文章 2023-12-22 来自:开发者社区

15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!

今天我们来介绍几个完全免费的数据集下载网站,相信大家一定能从中得到一些帮助!不过因为都是国外的网站,那么某些网站使用起来当然需要一些“手段”啦,正所谓,八仙过海各显神通,怎么进入这些网站,就看自己的本事了!FiveThirtyEightFiveThirtyEight 是一个非常流行的互动新闻和体育网站,是由 Nate Silver 创办的。网站上有许多非常有趣的数据分析文章,可以给我们提供很多学....

文章 2023-09-06 来自:开发者社区

沉浸式学习PostgreSQL|PolarDB 5: 零售连锁、工厂等数字化率较低场景的数据分析

作者digoal日期2023-08-26标签PostgreSQL , PolarDB , 数据库 , 教学背景欢迎数据库应用开发者参与贡献场景, 在此issue回复即可, 共同建设《沉浸式数据库学习教学素材库》, 帮助开发者用好数据库, 提升开发者职业竞争力, 同时为企业降本提效.系列课程的核心目标是教大家怎么用好数据库, 而不是怎么运维管理数据库、怎么开发数据库内核. 所以面向的对象是数据库的....

文章 2023-08-30 来自:开发者社区

从北京疫情处理中学习如何做数据分析

这是我的第13篇原创一叶知秋以下所有信息均来自于2020年07月09日北京日报《与病毒赛跑!北京疾控中心揭秘锁定“新发地”全过程》处处留心,天下无不可学之事。在“与病毒赛跑”中,我们可以看到一个生动的数据分析案例。让我们看穿本质,一叶而知秋。复盘开始,情景重现1疫情警报6月11日凌晨0时30分收到信息:“西城区疾控中心报告1例核酸检测阳性病例。”2确认异常早上6时,四种试剂复核样本复核结果均为阳....

从北京疫情处理中学习如何做数据分析
文章 2023-05-15 来自:开发者社区

【Python学习】一文总结:数据分析库pandas基础

本文目录1. pandas是什么2. pandas的优势3. pandas的核心数据结构DataFrame3.1 DataFrame结构3.1.1 DataFrame的创建语法3.1.2 DataFrame的常用属性3.1.3 DataFrame的常用方法3.1.4 DataFrame索引的设置3.2 MultiIndex与Panel3.3 Series3.3.1 创建Series3.3.2 获....

【Python学习】一文总结:数据分析库pandas基础
文章 2022-10-19 来自:开发者社区

动手学习数据分析(五)——数据建模及模型评估

数据建模及模型评估1.特征工程1.1 缺失值填充对分类变量缺失值:填充某个缺失值字符(NA)、用最多类别的进行填充对连续变量缺失值:填充均值、中位数、众数2.模型搭建处理完前面的数据我们就得到建模数据,下一步是选择合适模型在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习.除了根据我们任务来选择模型外,还可以根据数据样本量以及特征的稀疏性来决定刚开始我们总是先尝试使用一个基本....

文章 2022-10-19 来自:开发者社区

动手学习数据分析(四)——数据可视化

数据可视化导入相关库:import pandas as pd import numpy as np import matplotlib.pyplot as plt导入数据:text = pd.read_csv(r'result.csv') text.head() # 可视化展示泰坦尼克号数据集中男女中生存人数分布情况 sex = text.groupby('Sex')['Survived'].s....

动手学习数据分析(四)——数据可视化
文章 2022-10-19 来自:开发者社区

动手学习数据分析(三)——数据重构

数据重构首先导入numpy、pandas包和数据文件import numpy as np import pandas as pd # 载入data文件中的:train-left-up.csv text = pd.read_csv(r'C:\Users\hp\hands-on-data-analysis-master\hands-on-data-analysis-master\第二章项目集合\da....

文章 2022-10-19 来自:开发者社区

动手学习数据分析(二)——数据处理

数据处理总结:缺失值处理该数据集缺失的都是类别特征里的,且部分类别特征与某些匿名变量线性相关性强考虑填充新的值,比如-1填充众数、平均数(需要取整),knn邻近(速度慢)异常值处理识别:箱型图识别3σ识别处理:边界值替换映射到新维度μ,μ(正常值)=0,μ(异常值)= function(异常值)不处理,与原数据一起归一化|标准化分桶法(分箱法),单正常值要一起处理特征选择:PCA相关性分析,剔除....

动手学习数据分析(二)——数据处理

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

友盟+

友盟+,国内领先的第三方全域数据智能服务商。以“数据智能,驱动业务增长”为使命,基于卓越的技术与算法能力,结合实时更新的全域数据资源,覆盖191个行业分类、输出300+应用或行业的分析指标,通过AI赋能的一站式互联网数据产品与服务体系,帮助企业实现深度用户洞察、实时业务决策和持续业务增长。 截至2019年6月已累计为180万移动应用和815万家网站提供近九年的专业数据服务典型客户包括:中国移动、CCTV、人民日报客户端、今日头条、飞常准、喜马拉雅、唱吧、美拍、斗鱼、智慧树等。

+关注