刘永平-Spark-streaming在京东的项目实践|IT大本营-...

选中1篇 全选 最新帖子 精华区 开发者论坛>IT大本营>刘永平-Spark-streaming在京东的项目实践 发表主题 回复主题 « 返回列表 «12345678910»共10页Go上一主题下一主题 新帖 138阅读 11回复 刘永平-Spark-...
来自: 阿里云 >网站

Hadoop Streaming

本文讲的是Hadoop Streaming,【IT168 资讯】Hadoop streaming是Hadoop的一个工具, 它帮助用户创建和运行一类特殊的map/reduce作业, 这些特殊的map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer...
来自: 阿里云 >网站

Spark Streaming 实现思路与模块概述

Spark Streaming 实现思路与模块概述[酷玩 Spark]Spark Streaming 源码解析系列,返回目录请 猛戳这里 腾讯·广点通」技术团队荣誉出品 本文内容适用范围:2016.01.04 update,Spark 1.6 全系列√(1.6.0) 2015.11.09...
来自: 阿里云 >网站

阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!
广告

Spark Streaming 流式计算实战

Spark Streaming 与 Storm 适用场景分析 为什么这里不使用 Storm呢?我们初期确实想过使用 Storm 去实现,然而使用 Storm 写数据到HDFS比较麻烦:*Storm 需要持有大量的 HDFS 文件句柄。需要落到同一个文件里的记录...
来自: 阿里云 >网站

Darwin Streaming Server 简介

Darwin Streaming Server 概要 Darwin Streaming Server简称DSS。DSS是Apple公司提供的开源实时流媒体播放服务器程序。整个程序使用C++编写,在设计上遵循高性能,简单,模块化等程序设计原则,务求做到程序高效,可...
来自: 阿里云 >网站

Spark-Spark Streaming例子整理(二)

Spark Streaming从Flume Poll数据 一、Spark Streaming on Polling from Flume实战 二、Spark Streaming on Polling from Flume源码 第一部分:推模式(Flume push SparkStreaming)VS 拉模式(SparkStreaming poll ...
来自: 阿里云 >网站

Spark-Spark Streaming例子整理(一)

(摘自王家林)流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流;既然是数据流处理,就会想到数据的流入、数据的加工、数据的流出。日常工作、生活中数据来源很多不同的地方。例如:工业时代的...
来自: 阿里云 >网站

StreamingPro 支持Spark Structured Streaming

前言 Structured Streaming 的文章参考这里:Spark 2.0 Structured Streaming 分析。2.0的时候只是把架子搭建起来了,当时也只支持FileSource(监控目录增量文件),到2.0.2后支持Kafka了,也就进入实用阶段了,目前只...
来自: 阿里云 >网站

Spark Streaming Dynamic Resource Allocation

property of Spark Streaming.&Spark DRA works when there are some executors being idle for&removeExecutorInterval time,then they will be removed or when there is a backlog of pending tasks waiting to ...
来自: 阿里云 >网站

Spark Streaming场景应用-Spark Streaming计算模型及...

Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合我们的应用场景,介结我们在使用Spark Streaming方面的技术架构,并着重讲解Spark Streaming两种...
来自: 阿里云 >网站

Spark Streaming 的玫瑰与刺

前言 说人话:其实就是讲Spark Streaming 的好处与坑。好处主要从一些大的方面讲,坑则是从实际场景中遇到的一些小细节描述。玫瑰篇 玫瑰篇主要是说Spark Streaming的优势点。玫瑰之代码复用 这主要得益于Spark的...
来自: 阿里云 >网站

Spark Streaming Programming Guide

streaming,这个比较有意思 SparkStreaming的原理,下面那幅图很清晰,将stream数据离散化,提出的概念DStream,其实就是sequence of&RDDs Spark Streaming is an extension of the core Spark API that allows ...
来自: 阿里云 >网站

Spark Streaming 的一些问题

Spark Streaming 的一些问题,做选型前关注这些问题可以有效的降低使用风险。checkpoint checkpoint 是个很好的恢复机制。但是方案比较粗暴,直接通过序列化的机制写入到文件系统,导致代码变更和配置变更无法生效。...
来自: 阿里云 >网站

Darwin Streaming Server 6.0.3安装、订制、插件或...

How to setup Darwin Streaming Server 6.0.3 on 32 or 64 bit Linux platforms,add custom functionality by developing plugins("modules"as Apple calls them),and results of some performance and load tests I...
来自: 阿里云 >网站

StreamingPro 再次支持 Structured Streaming

前言 之前已经写过一篇文章,StreamingPro 支持Spark Structured Streaming,不过当时只是玩票性质的,因为对Spark 2.0+版本其实也只是尝试性质的,重点还是放在了spark 1.6 系列的。不过时间在推移,Spark 2.0+ 版本...
来自: 阿里云 >网站

Spark Streaming 数据清理机制

这个内容我记得自己刚接触Spark Streaming的时候,老板也问过我,运行期间会保留多少个RDD?当时没回答出来。后面在群里也有人问到了,所以就整理了下。文中如有谬误之处,还望指出。DStream 和 RDD 我们知道Spark ...
来自: 阿里云 >网站

spark streaming接loghub数据的输出格式

spark streaming接loghub数据的输出格式
来自: 阿里云 >网站

基于HTTP Live Streaming(HLS)搭建在线点播系统

1、为何要使用 HTTP Live Streaming 可以参考wikipedia HTTP Live Streaming(缩写是 HLS)是一个由苹果公司提出的基于HTTP的流媒体 网络传输协议。是苹果公司QuickTime X和iPhone软件系统的一部分。它的工作原理是...
来自: 阿里云 >网站

Spark学习之Spark Streaming(9)

Spark学习之Spark Streaming(9)1.Spark Streaming允许用户使用一套和批处理非常接近的API来编写流式计算应用,这就可以大量重用批处理应用的技术甚至代码。2.Spark Streaming使用离散化(discretized steam)作为...
来自: 阿里云 >网站

Spark Streaming Dynamic Resource Allocation 文档...

必要配置 通过下面参数开启DRA spark.streaming.dynamicAllocation.enabled=true 设置最大最小的Executor 数目:spark.streaming.dynamicAllocation.minExecutors=0 spark.streaming.dynamicAllocation.maxExecutors...
来自: 阿里云 >网站

Darwin Streaming Server 核心代码分析

基本概念首先,我针对的代码是Darwin Streaming Server 6.0.3未经任何改动的版本。Darwin Streaming Server从设计模式上看,采用了Reactor的并发服务器设计模式,如果对Reactor有一定的了解会有助于对Darwin ...
来自: 阿里云 >网站

Darwin Streaming Server 安裝操作備忘

Darwin Streaming Server 安裝操作 Darwin Streaming Server 是蘋果公司 推出的開放源碼、跨平台多媒體串流伺服器,提供音樂(mp3)與影音(3gp、mp4、mov)串流播放功能,可由 Windows Media Player、VLC media player...
来自: 阿里云 >网站

测试LogService,spark Streaming 读取不到数据?

测试LogService,spark Streaming 读取不到数据?
来自: 阿里云 >网站

Supervised Learning Using Streaming Approximation

Distributed Semi-Supervised Learning Using Streaming Approximation Google 2016.10.06 官方 Blog 链接:https://research.googleblog.com/2016/10/graph-powered-machine-learning-at-google.html 今天讲的是...
来自: 阿里云 >网站

Darwin Streaming server 的 Task 类

Darwin Streaming Server 是一个开放源代码的streaming server,对于streaming server的编程和软件结构有着一定的参考价值,它是使用C++写的,其中的并发模式的核心就是Task类,下面写一下我的理解: 多任务的程序...
来自: 阿里云 >网站

Spark 2.0 Structured Streaming 分析

Streaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结果映射为另外一张表,完全以结构化的方式去操作流式数据,复用了其对象的Catalyst引擎。Spark 2.0 之前 作为Spark平台的流式实现,Spark ...
来自: 阿里云 >网站

Darwin Streaming Server Relay Setting

安装完Darwin Streaming Server,就可以使用VLC通过RTSP协议播放流媒体文件了。但是我现在有一个需求,需要将一台DSS(假设为A机)上的媒体文件发送到另一台DSS(假设为B机)上,客户端VLC通过访问B机来播放A机的...
来自: 阿里云 >网站

利用Spark Streaming实现分布式采集系统

而Spark Streaming 在上层概念上,完美融合了批量计算和流式计算,让他们你中有我,我中有你,这种设计使得Spark Streaming 作为流式计算的一个载体,同时也能作为其他一些需要分布式架构的问题提供解决方案。Spark ...
来自: 阿里云 >网站

Spark Streaming 数据清理机制

这个内容我记得自己刚接触Spark Streaming的时候,老板也问过我,运行期间会保留多少个RDD?当时没回答出来。后面在群里也有人问到了,所以就整理了下。文中如有谬误之处,还望指出。DStream 和 RDD 我们知道Spark ...
来自: 阿里云 >网站

Spark Streaming 数据产生与导入相关的内存分析

前言 我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。一个大致的数据接受流程 一些存储结构的介绍 哪些点可能导致内存问题,以及相关的配置参数 另外,有位大牛写了Spark Streaming 源码...
来自: 阿里云 >网站

Spark Streaming Crash 如何保证Exactly Once ...

前言 其实这次写Spark Streaming相关的内容,主要是解决在其使用过程中大家真正关心的一些问题。我觉得应该有两块: 数据接收。我在用的过程中确实产生了问题。应用的可靠性。因为SS是7*24小时运行的问题,我想知道...
来自: 阿里云 >网站

Spark_Streaming

org.apache.spark.streaming.flume.FlumeUtils import org.apache.spark.streaming. object FlumePushStreaming new String(x.event.getBody.array()).split("\\s")) map(x=>(x,1)).reduceByKey(_+_).print()/将得到...
来自: 阿里云 >网站

Spark Streaming+Spark SQL 实现配置化ETL流程

项目地址 前言 传统的Spark Streaming程序需要:构建StreamingContext 设置checkpoint 链接数据源 各种transform foreachRDD 输出 通常而言,你可能会因为要走完上面的流程而构建了一个很大的程序,比如一个main方法...
来自: 阿里云 >网站

【Spark Summit EU 2016】从使用Spark Streaming中所...

Streaming的总体架构设计,Spark Streaming与结构化的流计算相比的不同之处以及目前阶段Spark Streaming的5大问题:类型不匹配、无法找到主要偏移量、toDF不属于RDD成员、任务不是序列化的以及有关JSON记录的相关...
来自: 阿里云 >网站

Kafka、YARN与Spark Streaming作为一个服务

streaming应用程序的过程中遇到的挑战,并展示了如何使用ELK技术栈对Spark streaming应用程序进行日志记录和调试,以及如何使用Graphana和Graphite对应用进行监控以及优化以及使用Dr Elephant终止Spark streaming...
来自: 阿里云 >网站

Spark Streaming 妙用之实现工作流调度器

Streaming(基于Transfomer架构的理念),我们可能能简化这些工作。我在这块并没有什么经验,这只是一个存在于脑海中的东西。下面是Azkaban的架构图:也就是说要搭建一个稳定可靠的Azkaban的工作流调度器,你可能需要 ...
来自: 阿里云 >网站

《Spark官方文档》Spark Streaming编程指南(一)

Spark Streaming编程指南 概览&Spark Streaming是对核心Spark API的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据,如:Kafka、...
来自: 阿里云 >网站

《Spark官方文档》Spark Streaming编程指南(二)

Streaming的检查点中恢复回来的。所以如果你开启了检查点功能,并同时在使用累加器和广播变量,那么你最好是使用懒惰实例化的单例模式,因为这样累加器和广播变量才能在驱动器(driver)故障恢复后重新实例化。代码...
来自: 阿里云 >网站

如何基于Spark Streaming构建实时计算平台

本次分享将着重于介绍携程如何基于Spark Streaming构建实时计算平台,文章将从以下几个方面分别阐述平台的构建与应用:Spark Streaming vs JStorm Spark Streaming设计与封装 Spark Streaming在携程的实践 曾经踩过...
来自: 阿里云 >网站

为Walmart Search学习使用Streaming和DataFrames

Streaming和DataFrames构建的搜索产品的情况,Walmart Lab目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常...
来自: 阿里云 >网站

基于Elastic Spark Streaming的自动伸缩系统

本讲义出自PhuDuc Nguyen在Spark Summit East 2017上的演讲,主要介绍了不支持开箱...Streaming任务的同时能够添加或删除节点的功能。并介绍了Elastic Spark Streaming任务能够自动调整对于数据流的体积和流量的需求。
来自: 阿里云 >网站

Structured Streaming Programming Guide

Structured Streaming is a scalable and fault-tolerant stream processing engine built on the Spark SQL engine.&You can express your streaming computation the same way you would express a batch ...
来自: 阿里云 >网站

Linux编译安装Darwin Streaming Server 6.0.3

买回来VPS后就一直想在上面搭建一个流媒体服务,在网上搜索了很多资料,大部分都是介绍Linux中安装Darwin Streaming Server 5.5.5版本,因为这个版本提供了针对linux的安装脚本。但既然官网有了6.0.3版本,于是果断...
来自: 阿里云 >网站

Spark Streaming 1.6 流式状态管理分析

Streaming中的word-count 就涉及到更新原有的记录,比如在batch 1 中&A 出现1次,batch 2中出现3次,则总共出现了4次。这里就有两种实现:获取batch 1 中的 状态RDD&和当前的batch RDD 做co-group 得到一个新的状态...
来自: 阿里云 >网站

在e-mapreduce跑spark streaming,计划1分钟打印一条...

在e-mapreduce跑spark streaming,1分钟打印一条日志发现没有打印。
来自: 阿里云 >网站

使用Kafka Connect和Spark Streaming构建实时数据管道

Streaming构建大规模实时数据管道的挑战,Kafka项目最近推出了新的工具—— Kafka Connect,该工具将帮助简化从Kafka导入和导出数据,Ewen Cheslack Postava分享了如何使用Kafka Connect和Spark Streaming构建实时...
来自: 阿里云 >网站

Spark Streaming 不同Batch任务可以并行计算么?

关于Spark Streaming中的任务有如下几个概念:Batch Job Stage Task 其实Job,Stage,Task都是Spark Core里就有的概念,Batch则是Streaming特有的概念。同一Stage里的Task一般都是并行的。同一Job里的Stage可以并行,...
来自: 阿里云 >网站

Spark Streaming 误用.transform(func)函数导致的问题...

RDD,然后你以为是Cache RDD 不被释放,但是通过Spark Streaming 数据清理机制分析我们可以排除这个问题。接着通过给RDD的设置名字,名字带上时间,发现是延时的Batch 也会产生cache RDD。那这是怎么回事呢?另外还有...
来自: 阿里云 >网站

Linux编译安装Darwin Streaming Server 6.0.3。

Streaming Server.微软的windows media server只能在windows2000 server和windows 2003 server下使用,不在考虑之列。RealNetworks的Helixserver是一款跨平台的软件,功能也很强大,但并非免费软件。Darwin ...
来自: 阿里云 >网站

《Spark大数据分析实战》——3.2节Spark Streaming

Streaming,作者高彦杰 倪亚宇,更多章节内容可以访问云栖社区“华章社区”公众号查看*3.2 Spark Streaming*Spark Streaming是一个批处理的流式计算框架。它的核心执行引擎是Spark,适合处理实时数据与历史数据...
来自: 阿里云 >网站
< 1 2 3 4 ... 23 >
共有23页 跳转至: GO

你可能感兴趣

热门推荐

阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 2020阿里巴巴研发效能峰会 企业建站模板 云效成长地图 高端建站