文章 2024-03-12 来自:开发者社区

实战|使用Spark Streaming写入Hudi

1. 项目背景 传统数仓的组织架构是针对离线数据的OLAP(联机事务分析)需求设计的,常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。 然而实时同步数仓从一开始就面临如下几个挑战: ...

实战|使用Spark Streaming写入Hudi
文章 2023-12-25 来自:开发者社区

手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark

引言大家好,我是ChinaManor,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,一个平凡而不平庸的人。1.第一章 综合实战概述数据管理平台(Data ManagementPlatform,简称DMP),能够为广告投放提供人群标签进行受众精准定向,并通过投放数据建立用户画像,进行人群标签的管理以及再投放。各大互联网公司都有自己的DMP平台,用户广告精准投....

手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
文章 2023-06-15 来自:开发者社区

[实战系列]SelectDB Cloud Spark Connector 最佳实践

前言企业正在经历其数据资产的爆炸式增长,这些数据包括批式或流式传输的结构化、半结构化以及非结构化数据,随着海量数据批量导入的场景的增多,企业对于 Data Pipeline 的需求也愈加复杂。新一代云原生实时数仓 SelectDB Cloud 作为一款运行于多云之上的云原生实时数据仓库,致力于通过开箱即用的能力为客户带来简单快速的数仓体验。在生态方面,SelectDB Cloud 提供了丰富的数....

[实战系列]SelectDB Cloud Spark Connector 最佳实践
文章 2023-01-14 来自:开发者社区

日志分析实战之清洗日志小实例3:如何在spark shell中导入自定义包

加载包上一篇文章,生成了包,那么这个包该如何加载到spark环境中,并且为我们所使用。那么首先改如何加载这个包。首先将这个包放到spark中的lib文件夹下。在复制到Linux中,首先需要修改的就是权限。我们看到用户和组的权限为500,并且用户,所属组,及其它用户都为满权限,可以通过下面命令来实现sudo chown 500:500 ScalaApacheAccessLogParser-mast....

日志分析实战之清洗日志小实例3:如何在spark shell中导入自定义包
文章 2023-01-14 来自:开发者社区

日志分析实战之清洗日志小实例1:使用spark&Scala分析Apache日志

about云日志分析,那么过滤清洗日志。该如何实现。这里参考国外的一篇文章,总结分享给大家。使用spark分析网站访问日志,日志文件包含数十亿行。现在开始研究spark使用,他是如何工作的。几年前使用hadoop,后来发现spark也是容易的。下面是需要注意的: 如果你已经知道如何使用spark并想知道如何处理spark访问日志记录,我写了这篇短的文章,介绍如何从Apache访问日志文...

日志分析实战之清洗日志小实例1:使用spark&Scala分析Apache日志
文章 2022-05-20 来自:开发者社区

大数据入门与实战-Spark上手

1 Spark简介1.1 引言行业正在广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于简单的编程模型(MapReduce),它使计算解决方案具有可扩展性,灵活性,容错性和成本效益。在这里,主要关注的是在查询之间的等待时间和运行程序的等待时间方面保持处理大型数据集的速度。Spark由Apache Software Foundation引入,用于加速Hadoop计算计算软件过程。与....

大数据入门与实战-Spark上手
文章 2022-05-06 来自:开发者社区

实战|使用Spark Structured Streaming写入Hudi

1. 项目背景传统数仓的组织架构是针对离线数据的OLAP(联机事务分析)需求设计的,常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高,按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的(准)实时同步系统的开发。然而实时同步数仓从一开始就面临如下几个挑战:小文件问题。不论是spark的micro....

实战|使用Spark Structured Streaming写入Hudi
文章 2020-10-19 来自:开发者社区

大数据上手实战!Spark 实战训练营第三季开启

8月18日,阿里巴巴大数据训练营“九营齐开”正式开营,来自数据计算、数据分析、数据仓库、搜索、机器学习、数据智能等多个领域的技术大佬亲身上阵教学,解读各技术领域基础原理,剖析行业实践案例,帮助开发者实现大数据从0到1的上手学习。 首期大数据“9营齐开”计划吸引了10000+开发者报名参与,成为今夏最火爆的大数据训练营!伴随着第一季训练营的完美落幕,大数据训练营“九营齐开”第二季已蓄势待发! ...

大数据上手实战!Spark 实战训练营第三季开启
文章 2020-04-16 来自:开发者社区

实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

本文转载自公众号: eBay技术荟作者 | 金澜涛原文链接:https://mp.weixin.qq.com/s/L64xhtKztwWhlBQrreiDfQ 摘要 大数据处理技术朝传统数据库领域靠拢已经成为行业趋势,目前开源的大数据处理引擎,如Apache Spark、Apache Hadoop、Apache Flink等等都已经支持SQL接口,且SQL的使用往往占据主导地位。各个公司使用以.....

实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作
文章 2019-06-01 来自:开发者社区

大数据实战之spark安装部署

楔子 我是在2013年底第一次听说Spark,当时我对Scala很感兴趣,而Spark就是使用Scala编写的。一段时间之后,我做了一个有趣的数据科学项目,它试着去预测在泰坦尼克号上幸存。对于进一步了解Spark内容和编程来说,这是一个很好的方式。对于任何有追求的、正在思考如何着手 Spark 的程序员,我都非常推荐这个项目。 今天,Spark已经被很多巨头使用,包括Amazon、eBay...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注