文章 2019-10-15 来自:开发者社区

使用Spark Streaming SQL进行PV/UV统计

1.背景介绍 PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析,例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析,比如分析用户的网页点击行为,此时就需要对UV做统计。使用Spark Streaming SQL,并结合Redis可以很方便进行PV/UV的统计。本文将介绍通过Streaming SQL消费Loghub....

文章 2019-10-14 来自:开发者社区

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

主题:Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理 点击这里是直播间直达链接(回看链接) 时间10月17日:19:00-20:00 直播介绍:Tablestore是阿里云自研的云原生结构化大数据存储服务,本议题会详细介绍如何基于Tablestore的CDC技术,将大表内实时数据更新对接Spark Streaming来实现数据的实时....

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】
文章 2019-09-26 来自:开发者社区

通过EMR Spark Streaming实时读取Tablestore数据

本文将介绍如何在E-MapReduce中实时流式的处理Tablestore中的数据。 场景设计 随着互联网的发展,企业中积累的数据越来越多,数据的背后隐藏着巨大的价值,在双十一这样的节日中,电子商务企业都会在大屏幕上实时显示订单总量,由于订单总量巨大,不可能每隔一秒就到数据库中进行一次SQL统计,此时就需要用到流计算,而传统的方法都是需要借助Kafka消息队列来做流式计算,数据订单需要写入数据库....

问答 2019-09-17 来自:开发者社区

文件从Spark Streaming移动?

我可以使用下面的代码从spark scala实现这个,但是我想从火花流中做同样的事情 fs.rename(new Path(filepath + filename), new Path(ArchivePath + filename)) 我想通过火花流式传输这个类似的东西。该怎么做?谢谢

文章 2019-08-26 来自:开发者社区

8月28日社区直播【Spark Streaming SQL流式处理简介】

直播间直达链接:(回看链接) https://developer.aliyun.com/live/1408?spm=5176.8068049.0.0.1ea56d19o3DBMN 或钉钉扫描海报上二维码,进群直接观看。 时间 8月28日19:00 主讲人: 云魄,阿里云E-MapReduce 高级开发工程师,专注于流式计算,Spark Contributor,开源爱好者 简介: 本次直播将简要介....

8月28日社区直播【Spark Streaming SQL流式处理简介】
文章 2019-08-26 来自:开发者社区

8月28日社区直播【Spark Streaming SQL流式处理简介】

直播间直达链接:(回看链接) https://tianchi.aliyun.com/course/live?liveId=41084 或钉钉扫描海报上二维码,进群直接观看。 时间 8月28日19:00 主讲人: 云魄,阿里云E-MapReduce 高级开发工程师,专注于流式计算,Spark Contributor,开源爱好者 简介: 本次直播将简要介绍EMR Spark Streaming SQ....

文章 2019-08-05 来自:开发者社区

用Flink取代Spark Streaming!知乎实时数仓架构演进

作者 | 知乎数据工程团队 “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数仓在这一过程中起到了不可替代的作用。 本文主要讲述....

用Flink取代Spark Streaming!知乎实时数仓架构演进
文章 2019-08-05 来自:开发者社区

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

作者:伯箫,阿里云高级开发工程师。现在在阿里云表格存储团队,负责管控系统的开发,对NOSQL类数据库系统有一些了解。 前言 从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,.....

文章 2019-08-05 来自:开发者社区

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

前言 从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,将流计算结果数据实时写入Tablestore,展示一个简单的日志监控场景。 场景设计 假设有一个商品表Goods,商品信....

文章 2019-07-20 来自:开发者社区

Spark Streaming应该如何消费Kafka?

前言 在项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在Spark Str....

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注