Spark-streaming在京东的项目实践|IT大本营-开发者...

选中1篇 全选 最新帖子 精华区 开发者论坛>IT大本营>刘永平-Spark-streaming在京东的项目实践 发表主题 回复主题 « 返回列表 «12345678910»共10页Go上一主题下一主题 新帖 138阅读 11回复 刘永平-Spark-...
来自: 阿里云 >网站

Spark核心技术与实践-云栖社区-阿里云

2016中国spark技术峰会见闻摘要·Spark Streaming 流式计算实战·利用 Spark DataSource API 实现Rest数据源·协同过滤算法多语言实现·Spark 数据倾斜的一些表现·Spark性能优化·Spark性能优化——和shuffle搏斗·...
来自: 阿里云 >网站

Spark-Spark Streaming例子整理(一)

Scala和Java二种方式实战Spark Streaming开发 一、Java方式开发 1、开发前准备:假定您以搭建好了Spark集群。2、开发环境采用eclipse maven工程,需要添加Spark Streaming依赖。3、Spark streaming 基于Spark Core...
来自: 阿里云 >网站

阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!
广告

Spark-Spark Streaming例子整理(三)

SQL、Spark Streaming、Spark ML、Spark Graphx、Spark R等),在其后加入了各种子框架来满足不同的需求。而分析这些子框架发现,选择Spark Streaming框架来研究,是最明智的选择,通过研究Spark Core上的Spark ...
来自: 阿里云 >网站

为什么越来越多的公司在使用Spark Streaming

最近Spark Streaming的主要开发人员Tathagata Das在DataNami上发表了一篇文章,从需求、功能以及用户场景等方面对此进行了介绍。流分析的需求现在,几乎所有的公司都是一家软件公司,它们实时地监控传感器、物联网...
来自: 阿里云 >网站

如何基于Spark Streaming构建实时计算平台

vs JStorm Spark Streaming设计与封装 Spark Streaming在携程的实践 曾经踩过的坑 未来展望 2、Spark Streaming vsJStorm 携程实时平台在接入Spark Streaming之前,JStorm已稳定运行有一年半,基本能够满足大部分的...
来自: 阿里云 >网站

开源大数据处理技术-圈子-云栖社区-阿里云

hadoop、spark、flink、hbase、hive等技术的研究 最新动态 文章(60)问答(108)vitoliao评论了该文章 2017-08-31 13:18:05 使用Hive进行OSS数据处理的一个最佳实践 你好,我是在自己搭建的CDH环境(服务器是用的阿里云...
来自: 阿里云 >网站

IT大本营-开发者论坛

刘永平-Spark-streaming在京东的项目实践 dancingfish219 发表于 2017-05-30 最后回复 kenopsky 04-07 浏览 137 回复 11 Go并发编程实战 1 2 lzyou 发表于 2017-02-16 最后回复 xumaojun 04-05 浏览 572 回复 15 ...
来自: 阿里云 >网站

满满的技术干货!Spark顶级会议Apache Spark Summit...

2017】Spark化数据引擎【Spark Summit East 2017】Kafka、YARN与Spark Streaming作为一个服务【Spark Summit East 2017】加速云上Spark基因测序的数据驱动方法以及案例研究【Spark Summit East 2017】为Walmart ...
来自: 阿里云 >网站

Spark

在实时流处理、图技术、机器学习、NoSQL查询等方面具有显著的优势,我们使用Spark的时候大部分时间都是在使用其上的框架例如Shark、Spark Streaming等:1, Spark Streaming是非常出色的实时流处理框架,要掌握其...
来自: 阿里云 >网站

Spark核心技术与高级应用》——1.2节Spark的重要...

1.2.2 Spark Streaming*Spark Streaming属于核心Spark API的扩展,它支持高吞吐量和容错的实时流数据处理,它可以接受来自Kafka、Flume、Twitter、ZeroMQ或TCP Socket的数据源,使用复杂的算法表达和高级功能来进行...
来自: 阿里云 >网站

Spark核心技术与高级应用》——导读

6.4 分布式的SQL Engine 6.5 性能调优 6.6 数据类型 6.7 本章小结 第7章 深入了解Spark Streaming 7.1 基础知识 7.2 DStream操作 7.3 性能调优 7.4 容错处理 7.5 一个例子 7.6 本章小结 第8章 Spark ...
来自: 阿里云 >网站

Spark 生态系统组件

批处理、流处理与交互式分析的一体化:Spark Streaming 是将流式计算分解成一系列短小的批处理作业,也就是把Spark Streaming 的输入数据按照批处理大小(如几秒)分成一段一段的离散数据流(DStream),每一段数据...
来自: 阿里云 >网站

Spark-基础-Spark及其生态圈简介

Spark Streaming构架 l计算流程:Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core,也就是把Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据...
来自: 阿里云 >网站

Spark之殇

Streaming不行,但是他们似乎已然放弃Spark Streaming的努力,包括从Spark Streaming诞生就被广受吐槽的checkpoint 问题,也从来没有得到关注,也没有得到改善。让你带着爱被虐着,然后就眼睁睁的看着流式时代在自己...
来自: 阿里云 >网站

Spark大数据处理:技术、应用与性能优化》——第1章...

本节书摘来自华章计算机《Spark大数据处理:技术、应用与性能优化》一书中的第1章,第1.1节,作者:高彦杰 更多章节内容可以访问云栖社区“华章计算机”公众号查看。第1章 Spark 简 介 本章主要介绍Spark大数据计算...
来自: 阿里云 >网站

Spark大数据处理:技术、应用与性能优化》——1.2 ...

(4)Spark Streaming Spark Streaming通过将流数据按指定时间片累积为RDD,然后将每个RDD进行批处理,进而实现大规模的流数据处理。其吞吐量能够超越现有主流流处理框架Storm,并提供丰富的API用于流数据计算。(5...
来自: 阿里云 >网站

Spark大数据处理:技术、应用与性能优化》——1.5 ...

Streaming:淘宝在云梯构建基于Spark Streaming的实时流处理框架。Spark Streaming适合处理历史数据和实时数据混合的应用需求,能够显著提高流数据处理的吞吐量。其对交易数据、用户浏览数据等流数据进行处理和分析...
来自: 阿里云 >网站

Apache Spark技术实战(二)KafkaWordCount&...

Streaming中涉及到和许多第三方程序的整合,源码中的例子如何真正跑起来,文档不是很多也不详细。本篇主要讲述如何运行KafkaWordCount,这个需要涉及Kafka集群的搭建,还是说的越仔细越好。搭建Kafka集群 步骤1:...
来自: 阿里云 >网站

Spark与Hadoop两大技术趋势解析

4、实时流式处理 Apache Spark支持实时流式处理,它可以在进行数据操作的同时使用Spark Streaming。5、与现有Hadoop及其上的数据整合 Spark可以在Hadoop Yarn集群管理器上独立操作,包括读取Hadoop上的数据。该特性...
来自: 阿里云 >网站

Spark与Hadoop两大技术趋势解

4、实时流式处理 Apache Spark支持实时流式处理,它可以在进行数据操作的同时使用Spark Streaming。5、与现有Hadoop及其上的数据整合 Spark可以在Hadoop Yarn集群管理器上独立操作,包括读取Hadoop上的数据。该特性...
来自: 阿里云 >网站

使用Spark框架中文分词统计

Spark Streaming进行词频统计 Spark Streaming是基于Spark平台上提供的流计算引擎,可以处理多种数据来源的流数据,并进行统计分析。在Spark Streaming的sample程序中,就提供了从MQTT,Kafka,Network socket等来源...
来自: 阿里云 >网站

Hadoop+Spark 大数据开发项目最佳实践

Spark为基础,上层包括Spark SQL,MLib,Spark Streaming和GraphX),并成为Apache的顶级项目。Spark的核心概念是弹性分布式存储(Resilient Distributed Datasets, RDD)间,它是Spark对分布式内存进行的抽象,使用者...
来自: 阿里云 >网站

【转】Spark 2.0 技术预览版:更简单、更快速、更智

因此,性能优化一直是我们在开发Spark时所考虑的重点。在开始Spark 2.0的规划前,我们思考过这个问题:&Spark的速度已经很快了,但能否突破极限,让Spark达到原本速度的10倍呢?带着这个问题,我们切实考虑了在构建...
来自: 阿里云 >网站

Spark大数据分析:核心概念、技术及实践》一导读

在我开发Spark应用时,我发现了一个有用的资源—Spark官方API文档,其访问地址为http://spark.apache.org/docs/latest/api/scala初学者可能觉得它难以理解,不过一旦你学习了基本概念后,会发现它很有用。另一个...
来自: 阿里云 >网站

Spark设计理念与基本架构

Spark StreamingSpark Streaming与Apache Storm类似,也用于流式计算。SparkStreaming支持Kafka、Flume、Twitter、MQTT、ZeroMQ、Kinesis和简单的TCP套接字等多种数据输入源。输入流接收器(Receiver)负责接入...
来自: 阿里云 >网站

Spark是什么?用Spark进行数据分析

在2011年,AMP实验室开始开发Spark上的上层组件,如Shark和Spark流。所有这些组件有时被称为伯克利数据分析栈(Berkeley Data Analytics Stack,BDAS)。Spark在2010年3月开源,在2014年6月移入Apache软件基金会,...
来自: 阿里云 >网站

【PDF大放送】Spark&Hadoop Summit精选分享PDF合集

2016】从使用Spark Streaming中所学到的经验【Spark Summit EU 2016】基于Spark的分布式计算,提升业务洞察力 【Spark Summit EU 2016】Spark如何赋能聚合型应用新浪潮【Spark Summit EU 2016】Apptopia:仅凭勇气、...
来自: 阿里云 >网站

Spark大数据分析实战》——3.1节SQL on Spark

本节书摘来自华章社区《Spark大数据分析实战》一书中的第3章,第3.1节SQL on Spark,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看*3.1 SQL ...Streaming用于支撑大规模流式处理分析任务。
来自: 阿里云 >网站

初窥Spark

MapReduce比较适合以批处理方式处理需要分析整个数据集的问题,随着MapReduce技术的发展,除了批处理类型的工作负载外,越来越多独立系统被开发出处理不同的工作负载。Google就开发了Pregel来处理图形计算,Dremel来...
来自: 阿里云 >网站

《循序渐进学Spark》一导读

6.2 Spark Streaming&6.2.1 Spark Streaming概述&6.2.2 Spark Streaming的架构分析 6.2.3 Spark Streaming编程模型&6.2.4 数据源Data Source&6.2.5 DStream操作& 6.3 SparkR&6.3.1 R语言概述&6.3.2 SparkR...
来自: 阿里云 >网站

在内存计算时代,看阿里如何用Spark来进行实践与探索

Mllib进行机器学习,到12年的Spark on Yarn,规模达到100-400台,使用Spark Streaming、Spark Graphx技术;从14年实现内存计算,到现在发展出了E-MapReduce for Spark,开始对公共云提供服务,这一系列的快速的发展是...
来自: 阿里云 >网站

《循序渐进学SparkSpark架构与集群环境

Streaming、MLlib和GraphX,接着简要描述了Spark的架构,便于读者认识和把握,最后描述了Spark集群环境搭建及Spark开发环境的构建方法。1.1 Spark概述与架构 随着互联网规模的爆发式增长,不断增加的数据量要求应用...
来自: 阿里云 >网站

Apache Spark源码走读(九)如何进行代码跟读&使用...

有关编译出错问题的解决可以看一下这个链接,http://apache-spark-user-list.1001560.n3.nabble.com/Errors-occurred-while-compiling-module-spark-streaming-zeromq-IntelliJ-IDEA-13-0-2-td1282.html 调试...
来自: 阿里云 >网站

Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳...

Spark为基础,上层包括Spark SQL,MLib,Spark Streaming和GraphX),并成为Apache的顶级项目。Spark的核心概念是弹性分布式存储(Resilient Distributed Datasets, RDD)间,它是Spark对分布式内存进行的抽象,使用者...
来自: 阿里云 >网站

专访携程李亚锋:大数据技术融合下的Spark更具魅力

streaming,可以取代storm。每一块解决不同的问题,不同的模块可以有不同的集群,它可以独立扩容。Spark对资源是有一定的浪费,但浪费也是相对的,要看你使用的频率高不高。如果这个集群很繁忙,经常不断地有人提交...
来自: 阿里云 >网站

用Apache Spark进行大数据处理—入门篇

Streaming:Spark Streaming&基于微批量方式的计算和处理,可以用于处理实时的流数据。它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。Spark SQL:Spark SQL&可以通过JDBC API将Spark数据...
来自: 阿里云 >网站

大数据分析平台解析:什么是Apache Spark

Spark Streaming Spark Streaming是Apache Spark的早期添加物,它帮助在需要实时或接近实时处理的环境中获得牵引力。以前,Apache Hadoop领域的批处理和流处理是分开的。可以为批处理需求编写MapReduce代码,并使用...
来自: 阿里云 >网站

Spark与Hadoop大数据分析》——2.2 Apache Spark...

在2011年,AMPLab开始在Spark上开发更高级的组件,如Shark和Spark Streaming。这些组件有时被称为Berkeley数据分析框架(Berkeley Data Analytics Stack,BDAS)。Spark于2010年3月首次开源,并于2013年6月被转移到...
来自: 阿里云 >网站

Spark 官方文档》Spark编程指南

注意,技术上来说,你也可以传递一个类对象实例上的方法(不是单件对象),不过这回导致传递函数的同时,需要把相应的对象也发送到集群中各节点上。例如,我们定义一个MyClass如下: class MyClass def doStuff(rdd:...
来自: 阿里云 >网站

《Machine Learning with Spark》书评与作者访谈

ML模型可以集成于Spark Streaming程序,比如,使用新的数据不断更新的模型,或者我们模型的性能实时监控数据。Nick还谈到机器学习的未来,以及如何使用Spark MLlib库开发机器学习的应用程序。Pentreath:*尽管机器...
来自: 阿里云 >网站

Spark连续重大更新 热度急增

Streaming),机器学习(MLlib),图计算(GraphX)提供一个统一的数据处理平台,这相对于Hadoop(Map/Reduce)有很大优势。并且,由于Hadoop自身还存在着一些缺陷,例如表达力欠缺、无整体逻辑、时延高等等,所以,网络上...
来自: 阿里云 >网站

基于hadoop+spark+mongodb+mysql+c#开发医院临床知识...

Spark为基础,上层包括Spark SQL,MLib,Spark Streaming和GraphX),并成为Apache的顶级项目。Spark的核心概念是弹性分布式存储(Resilient Distributed Datasets, RDD)间,它是Spark对分布式内存进行的抽象,使用者...
来自: 阿里云 >网站

加速企业级大数据方案落地 IBM聚力发挥Spark优势

开源领域新兴成果层出不穷,然而从技术代码到企业级应用、从开发成果到企业级产品的历程,仍然存在着一段距离。除贡献于Spark社区,IBM同时基于Spark构建自身的产品及服务,辅助企业将开源成果转化为其能够良好应用...
来自: 阿里云 >网站

共筑Spark大数据引擎的七大工具

Spark的设计让它得以支持许多处理方法,包括流处理――Spark Streaming因此得名。关于Spark Steaming的传统观点是,它还半生不熟,这意味着只有你不需要瞬间延迟,或者如果你还没有投入到另一种流数据处理解决方案...
来自: 阿里云 >网站

强者联盟——Python语言结合Spark框架

4.Spark Streaming:实时计算框架。5.Spark GraphX:图计算框架。6.PySpark(SparkR): Spark之上的Python与R框架。从RDD的离线计算到Streaming的实时计算;从DataFrame及SQL的支持,到MLlib机器学习框架;从GraphX的图...
来自: 阿里云 >网站

Spark与Hadoop MapReduce大比拼,谁实力更强

Spark 很好地支持实时的流计算,依赖Spark Streaming 对数据进行实时处理。Spark Streaming 具备功能强大的 API,允许用户快速开发流应用程序。而且不像其他的流解决方案,比如Storm,Spark Streaming 无须额外的...
来自: 阿里云 >网站

Spark入门必学:预测泰坦尼克号上的生还情况

Spark Streaming API与Spark Core紧密结合,使得开发人员可以轻松地同时驾驶批处理和流数据。MLlib MLlib是一个提供多种算法的机器学习库,目的是使用分类,回归,聚类,协同过滤等算法能够在集群上横向扩展(可以...
来自: 阿里云 >网站

看大片 深入理解Spark的概念和编程方式

Spark Streaming API与Spark Core紧密结合,使得开发人员可以轻松地同时驾驶批处理和流数据。MLlib MLlib是一个提供多种算法的机器学习库,目的是使用分类,回归,聚类,协同过滤等算法能够在集群上横向扩展(可以...
来自: 阿里云 >网站

Spark大数据处理系列之Machine Learning

使用到的技术 这里采用Java开发Spark MLlib程序,并在stand-alone模型下执行。使用到的MLlib Java类:org.apache.spark.mllib.recommendation。ALSMatrixFactorizationModelRating 图3 Spark机器学习的例子程序架构...
来自: 阿里云 >网站

Spark点燃近实时大数据之火

Spark Streaming:可对来自推特的流数据进行分析,并且让Spark具备批处理能力。机器学习库(MLlib):一种分布式机器学习架构,交付高质量算法的速度比MapReduce快100倍。Graph X:帮助用户以图形的形式表现文本和列表...
来自: 阿里云 >网站

Spark架构在大数据环境的核心位置找到用武之地

但是,Databricks公司是一家初创供应商,它是Spark开发背后的驱动力,公司负责人表示有超过500家企业已经在应用程序的生产中部署了该项技术。而且Spark显然已经与Hadoop一并跻身大数据聚光灯之下,它和Hadoop经常但...
来自: 阿里云 >网站

一文教你看懂大数据的技术生态圈 Hadoop,hive,spark

于是又一种计算模型被开发出来,这就是 Streaming(流)计算。Storm是最流行的流计算平台。流计算的思路是,如果要达到更实时的更新,我何不在数据流进来的时候就处理了?比如还是词频统计的例子,我的数据流是一个...
来自: 阿里云 >网站

继续支持开源,IBM新型主机平台能够更好支持Spark

Spark推出的IBM z/OS平台具备Apache Spark core、Spark SQL、Spark Streaming、Machine Learning Library (MLlib)和Graphx等开源功能,可提供业内唯一的主机常驻Spark数据提取解决方案。新的平台帮助企业通过以下...
来自: 阿里云 >网站

深入理解Spark:核心思想与源码分析

本书不会教你如何开发Spark应用程序,只是用一些经典例子演示。本书简单介绍Hadoop MapReduce、Hadoop YARN、Mesos、Tachyon、ZooKeeper、HDFS、Amazon S3,但不会过多介绍这些框架的使用,因为市场上已经有丰富的这...
来自: 阿里云 >网站

Spark与Hadoop大数据分析》——导读

书中还讲解了如何使用 Spark Streaming 配合 Apache Kafka 和 HBase 进行实时数据分析,以帮助构建流式应用程序(streaming application)。新的结构化流(Structured Streaming)概念会通过物联网(Internet of ...
来自: 阿里云 >网站

Apache Spark 2.0简介,那些你想知道的事都在这里了

Streaming)Spark Streaming在大数据领域第一次尝试将批处理和流计算进行了统一。在Spark 0.7版本开始引入的第一个流式API称为DStreams,它为开发者提供了几项强大的特性:恰好一次的语义、大规模容错、强一致性保证...
来自: 阿里云 >网站

借助 Redis,让 Spark 提速 45 倍!

Streaming。使用Spark的内存处理功能只能让你达到一定的规模。然而有了Redis后,你可以更进一步:不仅可以通过利用Redis的数据结构来提升性能,还可以更轻松自如地扩展Spark,即通过充分利用Redis提供的共享分布式...
来自: 阿里云 >网站

新手入门:Spark 部署实战入门

Spark简介 整体认识 ...作者:张景龙 畅移(上海)信息科技有限公司CTO,CCFYOCSEF上海委员,京东今夜酒店特价APP技术奠基人和首任CTO,中国第一代智能手机开发者。文章转载自 开源中国社区[http://www.oschina.net]*
来自: 阿里云 >网站

Apache Spark的Lambda架构示例应用

Spark Streaming架构是纯微型批处理架构: 所以处理流应用程序时,我使用DStream连接使用TwitterUtils的Twitter: 在每个微批次(使用可配置的批处理间隔),对新的tweets中hashtags的统计信息的计算,并使用...
来自: 阿里云 >网站

Apache Spark的Lambda架构示例应用

Spark Streaming架构是纯微型批处理架构: 所以处理流应用程序时,我使用DStream连接使用TwitterUtils的Twitter: 在每个微批次(使用可配置的批处理间隔),对新的tweets中hashtags的统计信息的计算,并使用...
来自: 阿里云 >网站

Spark生态系统中的图数据分析知识

本文是Info对该书作者的访谈,内容包括图数据及分析技术、GraphX高效程序开发、图数据分析的趋势等。如何定义图数据?Michael Malak:就事论事,图结构看上去并非像股价图那样,而是边和点的集合。但这只是一种模糊的...
来自: 阿里云 >网站

大数据系列之并行计算引擎Spark介绍

3.通用性:Spark 提供了大量的库,包括SQL、DataFrames、MLlib、GraphX、Spark Streaming开发者可以在同一个应用程序中无缝组合使用这些库。4.支持多种资源管理器:Spark 支持 Hadoop YARN,Apache Mesos,及其...
来自: 阿里云 >网站

Spark 官方文档》机器学习库(MLlib)指南

虽然还有些降维技术spark.ml中尚不可用,不过用户可以将spark.mllib中的的相关实现和spark.ml中的算法无缝地结合起来。依赖项 MLlib使用的线性代数代码包是Breeze,而Breeze又依赖于&netlib-java&优化的数值处理。...
来自: 阿里云 >网站

深入理解Spark:核心思想与源码分析.导读

本书不会教你如何开发Spark应用程序,只是用一些经典例子演示。本书简单介绍Hadoop MapReduce、Hadoop YARN、Mesos、Tachyon、ZooKeeper、HDFS、Amazon S3,但不会过多介绍这些框架的使用,因为市场上已经有丰富的这...
来自: 阿里云 >网站

大数据分析平台Hadoop与Spark之争

Spark提供的基于RDD的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等模型统一到一个平台下,并以一致的API公开,并提供相同的部署方案,使得Spark的工程应用领域变得更加广泛...
来自: 阿里云 >网站

数据处理平台架构中的SMACK组合:Spark、Mesos、Akka...

数据消费:Spark Streaming 尽管Akka也能够用于消耗来自Kafka的流数据,但将Spark纳入生态系统以引入Spark Streaming能够切实解决以下难题:•其支持多种数据源•提供“至少一次”语义•可在配合Kafka Direct与幂等...
来自: 阿里云 >网站

英特尔马子雅:Spark与Hadoop合体变大生态系统

Core这一个模块,它现在已经几乎变成一个大的生态系统,跟Hadoop紧密的结合,包括Spark Streaming,SQL Engine,尤其是Spark分析这一块,已经开始扩展到上层的这些模块。规模化是英特尔解决数据分析的一个重要问题 ...
来自: 阿里云 >网站

大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略...与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。...
来自: 阿里云 >网站

从0到1构建数据生态系列(二):拆解架构蓝图

Storm是由BackType和Twitter开发的,而Spark Streaming则是由UC Berkeley开发的。在语言支持上,Storm提供了Java API,同时也支持多语言。(译者注:在多语言的支持上,虽然支持,但是通常除了Clojure、Java、Python...
来自: 阿里云 >网站

跟我一起数据挖掘(22)——spark入门

作为Spark的原生语言,scala是开发Spark应用程序的首选,其优雅简洁的代码,令开发过mapreduce代码的码农感觉象是上了天堂。可以架构在hadoop之上,读取hadoop、hbase数据。spark的部署方式 1、standalone模式,即...
来自: 阿里云 >网站

Spark Release 2.0.0发版概序

移除的 变化的 过时的 已知问题 开发人员 API稳定性 Spark 2.0.0是spark 2.x产品线上第一个发行版. Spark保证它所有2.x发行版非实验性API的稳定性.虽然APIs和1.x有很多相似之处,同时Spark 2.0.0也有很多大的变化. ...
来自: 阿里云 >网站

开源大数据周刊-第60期

Streaming方面的技术架构,并着重讲解Spark Streaming两种计算模型:无状态和状态计算模型以及该两种模型的注意事项。接着介绍了Spark Streaming在监控方面所做的一些事情,最后总结了Spark Streaming的优缺点。...
来自: 阿里云 >网站

以及Flink和Spark的异同与优势

Streaming是把流转化成一个个小的批来处理,这种方案的一个问题是我们需要的延迟越低,额外开销占的比例就会越大,这导致了Spark Streaming很难做到秒级甚至亚秒级的延迟。Flink是把批当作一种有限的流,这种做法的...
来自: 阿里云 >网站

《Storm技术内幕与大数据实践》一1.2 其他流式处理...

1.2.2 Spark Streaming Spark是UC Berkeley AMP Lab开源的类Hadoop MapReduce的通用的并行计算框架。Spark基于MapReduce算法实现的分布式计算拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是,作业中间...
来自: 阿里云 >网站

阿里、Databricks、Intel的十位专家和...技术实践及生态

Streaming Storm、Flink、Gearpump等各引擎的评测。此次开源大数据专场,邀请到的重量级演讲嘉宾与策划的演讲话题分别是: 讲师:无谓/阿里云高级技术专家 个人简介:主要研究领域包括大数据、分布式系统和搜索引擎...
来自: 阿里云 >网站

2016年北京中国云计算技术大会见闻

Spark Streaming 在腾讯广点通的应用》林立伟 腾讯高级软件工程师,来自广点通业务线,特别提到了业务线同学面对Spark的代码在不能修改的情况下,怎么去修改功能。比如,修改字节码。[screenshot]...
来自: 阿里云 >网站

SDCC 2016 中国软件开发者大会盛大开幕

大数据专题,在基于Spark的大数据系统设计专题论坛上,苏宁云商IT总部技术总监俞恺的分享主题是《Spark Streaming在苏宁物流天眼全程监控系统中的应用》、汤森路透中国运营中心研发经理,研究员沈勇的分享《金融大...
来自: 阿里云 >网站

开源大数据技术专场(下午):Databricks、Intel、阿里...

阿里云技术专家毛玮:分布式流处理框架——功能对比和性能评估 毛玮给大家分享了主流的分布式流处理架构Spark Streaming、Storm、Storm Trident、Flink、Apache Gearpump及Heron的功能差异及性能评估情况。首先介绍...
来自: 阿里云 >网站

仁人帮探索大数据技术

Shark,是为了VS hadoop Hive,Spark Streaming是为了VS Storm。Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大...
来自: 阿里云 >网站

说说阿里增量计算框架Galaxy

key来做的,所以这件事情与spark streaming的updateStateByKey做的事情是一样的,但是细看的话,两者还是存在很大的差异。galaxy的state暴露给计算task是线程级别独享的,spark streaming的state是任务内全局共享的...
来自: 阿里云 >网站

4位专家解读2015大数据技术进展

在关键技术进展部分,从大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点,分别请了四位专家:Hulu的董西成、明略数据的梁堰波、精硕科技的卢亿雷、eBay的韩卿,来为大家解读2015里的...
来自: 阿里云 >网站

这5种必知的大数据处理框架技术,你的项目应该使用哪...

与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代...
来自: 阿里云 >网站

这5种必知的大数据处理框架技术,你的项目应该使用哪...

与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代...
来自: 阿里云 >网站

这5种必知的大数据处理框架技术,你的项目应该使用哪...

与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代...
来自: 阿里云 >网站

这5种必知的大数据处理框架技术,你的项目应该使用哪...

与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代...
来自: 阿里云 >网站

这5种必知的大数据处理框架技术,你的项目到底应该...

与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成...
来自: 阿里云 >网站

2016年大数据技术发展趋势概述

它可在实时操作数据的同时,使用Spark Streaming。能够与Hadoop及现有Hadoop数据相集成 Sparks能够独立执行,亦可结合Hadoop 2的YARN集群管理器并读取Hadoop数据。这意味着Spark适用于迁移任何现有纯Hadoop应用。...
来自: 阿里云 >网站

阿里封神谈hadoop生态学习之路

流式实时处理技术 主要包括Jstorm、Spark Streaming-官方文档:[JStorm Chinese Documentation](https://github.com/alibaba/jstorm/wiki/JStorm-Chinese-Documentation) 官方文档:[Spark Streaming]...
来自: 阿里云 >网站

大数据的2016全解析:持续火热、多点创新还不够,它...

Streaming在延迟方面被Flink乃至Apex一直吊打,痛定思痛,Spark社区决定引入结构化流式处理来应对。这也是Spark 2.0当中非常核心的一块儿增强,比较遗憾的是,Spark的结构化流式在2016年发布到现在,仍旧是一个实验...
来自: 阿里云 >网站

实时离线融合在唯品会的进展:在实时技术、数据、业务...

特别是现有的在流处理系统(Storm、Spark Streaming、Flink)在理论上还没有完全实现 end-to-end exactly once 的情况下。一般认为批处理系统(Hive、Spark)是非常可靠的,且支持 exactly once 语义。将基础数据...
来自: 阿里云 >网站

2016年终盘点大数据篇:跨越巅峰,迈向成熟

Streaming在延迟方面被Flink乃至Apex一直吊打,痛定思痛,Spark社区决定引入结构化流式处理来应对。这也是Spark 2.0当中非常核心的一块儿增强,比较遗憾的是,Spark的结构化流式在2016年发布到现在,仍旧是一个实验...
来自: 阿里云 >网站

基于用户画像的实时异步化视频推荐系统

这里还值得提的三点是:推荐效果评估,我们采用Spark Streaming+ElasticSearch的方案。也就是Spark Streaming 对上报的曝光点击数据进行预处理后存储到ES,然后ES提供查询接口供BI报表使用。这样避免预先计算指标导致...
来自: 阿里云 >网站

大数据分析你不能不懂的6个核心技术

Streaming)、数据查询分析计算(Shark)以及图计算(GraphX)。Spark 使用Scala 作为应用框架,采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。与Hadoop 不同的是,Spark 和Scala 紧密集成,Scala ...
来自: 阿里云 >网站

大数据分析你不能不懂的6个核心技术

Streaming)、数据查询分析计算(Shark)以及图计算(GraphX)。Spark 使用Scala 作为应用框架,采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。与Hadoop 不同的是,Spark 和Scala 紧密集成,Scala ...
来自: 阿里云 >网站

大数据分析你不能不懂的6个核心技术

Streaming)、数据查询分析计算(Shark)以及图计算(GraphX)。Spark 使用Scala 作为应用框架,采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。与Hadoop 不同的是,Spark 和Scala 紧密集成,Scala ...
来自: 阿里云 >网站

【云栖大会】再谈开源大数据

毛玮从流处理的核心概念,到功能的完备性,全方位对比了目前比较热门的流处理框架:Spark Streaming, Flink,Storm和Gearpump。同时从吞吐量个延时两个方面,对各个平台进行了性能评估。木艮:Hadoop存储与计算分离...
来自: 阿里云 >网站

那些年,追过的开源软件和技术

笔者也是在互联网软件行业里面摸爬滚打十年多了,回头想想青葱岁月,很多时间都花在各种技术热潮的追逐上,有些是有价值的,也有些因为没人指导走过弯路,下面我就把我自己接触到这么多优秀的开源软件给大家做个梳理...
来自: 阿里云 >网站

除Hadoop大数据技术外,还需了解的九大技术

除Hadoop外的9个大数据技术:1....以上大数据技术作为知识拓展,如果要尝试spark或hadoop大数据相关技术可以访问 阿里云的 E-MapReduce& 相关链接为:https://emr.console.aliyun.com/#/cluster/region/cn-hangzhou
来自: 阿里云 >网站

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

对于实时竞价等实时计算业务,可以充分利用ONS的超快响应(1ms以内),超大并发的特性,通过Spark Streaming进行计算,最后存储到Redis中。展望未来 Spark 2.0 发布了Release,Hadoop 3.0发布了Alpha,HBase 2.0 ...
来自: 阿里云 >网站
< 1 2 >
共有2页 跳转至: GO
产品推荐
云服务器 物联网无线连接服务 商标 SSL证书 负载均衡SLB 弹性公网IP 短信服务
这些文档可能帮助您
申请备案服务号 企业实名认证和个体工商户认证 首次备案流程 网站添加备案号FAQ 网站域名准备与检查 个人实名认证

你可能感兴趣

热门推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务