文章 2020-03-21 来自:开发者社区

【观察】常用的流式框架(二)-- Spark与Flink

Spark由加州大学伯克利分校于2009年开发,第二年开源,2014年成为Apache顶级项目。作为MapReduce的继任者,Spark可以提供高水准API(如RDD--可恢复分布式数据集;Dstream--离散无序的RDD),其社区在2015年就有超过1000名贡献者,知名的用户包括亚马逊、eBay、雅虎、IBM、百度等。 2013年Spark Streaming成为Spark的核心...

文章 2020-03-08 来自:开发者社区

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

原文链接:https://databricks.com/blog/2020/03/04/how-to-monitor-data-stream-quality-using-spark-streaming-and-delta-lake.html 在这个一切都需要进行加速的时代,流数据的使用变得越来越普遍。我们经常不再听到客户问:“我可以流式传输这些数据吗?”,更多的是问:“我们能以多快的速度流式传输....

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍
文章 2019-08-26 来自:开发者社区

8月28日社区直播【Spark Streaming SQL流式处理简介】

直播间直达链接:(回看链接) https://developer.aliyun.com/live/1408?spm=5176.8068049.0.0.1ea56d19o3DBMN 或钉钉扫描海报上二维码,进群直接观看。 时间 8月28日19:00 主讲人: 云魄,阿里云E-MapReduce 高级开发工程师,专注于流式计算,Spark Contributor,开源爱好者 简介: 本次直播将简要介....

8月28日社区直播【Spark Streaming SQL流式处理简介】
文章 2019-08-26 来自:开发者社区

8月28日社区直播【Spark Streaming SQL流式处理简介】

直播间直达链接:(回看链接) https://tianchi.aliyun.com/course/live?liveId=41084 或钉钉扫描海报上二维码,进群直接观看。 时间 8月28日19:00 主讲人: 云魄,阿里云E-MapReduce 高级开发工程师,专注于流式计算,Spark Contributor,开源爱好者 简介: 本次直播将简要介绍EMR Spark Streaming SQ....

文章 2019-06-27 来自:开发者社区

使用Spark SQL进行流式机器学习计算(上)

作者:余根茂,阿里巴巴计算平台事业部EMR团队的技术专家,参与了Hadoop,Spark,Kafka等开源项目的研发工作。目前主要专注于EMR流式计算产品的研发工作。 今天来和大家聊一下如何使用Spark SQL进行流式数据的机器学习处理。本文主要分为以下几个章节: 什么是流式机器学习 机器学习模型获取途径 系统演示 1. 什么是流式机器学习 通常,当我们听到有人提到实时数据机器学习时,其实...

问答 2018-12-12 来自:开发者社区

Spark从本地文件流式传输到hdfs。textFileStream

我正在尝试将本地目录内容流式传输到HDFS。脚本将修改此本地目录,并且每5秒添加一次内容。我的spark程序将流式传输本地目录内容并将其保存到HDFS。但是,当我开始流式传输时,没有任何事情发生。我检查了日志,但我没有得到提示。 让我解释一下这个场景。shell脚本将在本地目录中每5秒移动一个带有一些数据的文件。流上下文的持续时间对象也是5秒。当脚本移动一个新文件时,如果我没有错,则保持原子性。....

问答 2018-05-27 来自:开发者社区

基于Spark的流式处理引擎在Pandora大数据产品中的应用

赵宏尧在CCTC2017中国云计算技术大会上做了主题为《企业级区块链开发平台》的演讲,就Pandora介绍,计算平台架构简介,流处理技术服务化需要考虑的用户的使用接口和技术细节的屏蔽问题做了深入分析。 https://yq.aliyun.com/download/317?spm=a2c4e.11154804.0.0.48016a79knMXel

文章 2017-08-01 来自:开发者社区

流式大数据处理的三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓扑中包括spo....

文章 2017-02-13 来自:开发者社区

【Spark Summit EU 2016】寻找流式数据中的异常:一种有趣的可伸缩方法

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Casey Stella在Spark Summit EU上的演讲,主要介绍了流数据分析和其优缺点以及异常数据分析的方法,还介绍了在分布式计算....

文章 2016-09-11 来自:开发者社区

使用Spark SQL 构建流式处理程序

前言 今天介绍利用 StreamingPro 构建流式(Spark Streaming)计算程序 准备工作 下载StreamingPro README中有下载地址 我们假设您将文件放在了/tmp目录下。 填写配置文件 实例一,Nginx日志解析后存储到ES gist 测试样例, 模拟数据,并且单机跑起来 gist 假设你使用的是第二个配置文件,名字叫做test.j...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注