金融大数据架构概述与应用

型的、记录型的。 社交媒体、移动、云服务不断发展,比较有代表性的就是微信和银行。微信不仅是提交一个数据存储,而是它有很多关系的产生,人和人之间、数据和人之间、人和系统之间、系统和系统之间都产生大量数据,这些数据存储、管理、后台的支撑、经常性的变化,它 ...
来自: 云栖社区 > 论坛 作者: 微妙和微波 浏览:171 回复:0

数据对统计思维的影响

则是一切可以记录和存储、源源不断扩充、超大容量的各种类型的数据。样本数据与大数据的这种区别,具有什么样的统计学意义? 我们知道,样本数据是按照特定研究目的、依据抽样方案获得的格式化的数据,不仅数据量有限,而且如果过程偏离方案,数据就不能满足要求。基于样本 ...
来自: 云栖社区 > 论坛 作者: 薇儿九纹龙 浏览:335 回复:1

facebook海量图片存储系统与淘宝TFS系统比较

配置"。当我们纠结于仅仅有图片ID不够时,可以给ID简单的动动手脚,比如ID是long类型,8个byte,左边给点byte用于存储逻辑卷ID,剩下的用于存储真实的图片ID(某些场景下还可以多截几段给更多的元数据),于是既避免了保存大量的映射数据,又 ...
来自: 云栖社区 > 论坛 作者: 安静的小维维 浏览:386 回复:0

结构化数据存储,如何设计才能满足需求?

很高的技术门槛。 数据系统的核心组件包含数据管道、分布式存储和分布式计算,数据系统架构的搭建会是使用这些组件的组合拼装。每个组件各司其职,组件与组件之间进行上下游的数据交换,而不同模块的选择和组合是架构师面临的最大的挑战。 本篇文章主要面向数据系统的研发 ...
来自: 云栖社区 > 博客 作者: 技术小能手 浏览:662 回复:0

数据中台之结构化大数据存储设计

,需要掌握大数据、分布式技术及复杂环境下定位问题的能力,仍然具备很高的技术门槛。数据系统的核心组件包含数据管道、分布式存储和分布式计算,数据系统架构的搭建会是使用这些组件的组合拼装。每个组件各司其职,组件与组件之间进行上下游的数据交换,而不同模块的选择和组合 ...
来自: 云栖社区 > 博客 作者: 木洛 浏览:1842 回复:1

基于MongoDB改进RDBMS存储大量非结构化数据

大量“非结构化数据”。 假设系统采用的是关系型数据库,简单的设计,“固定资产明细表”表设计如下:   可以考虑将每个id对应的item的所有参数与规格信息作为一个大文本存储在 ...
来自: 云栖社区 > 论坛 作者: 呪文张宜人 浏览:158 回复:0

从0到N建立高性价比的大数据平台

的处理专职人员了,1到2个人。需要有ETL工具和一定数据量级的数据存储。这个时候,向小企业隆重推荐一个继承解决方案就是SQL Server。提到SQL Server其实也有很多人在鄙视,听上去一点都不高大上,怎么能叫大数据?但其实大家知道吗?无论是现在已经 ...
来自: 云栖社区 > 论坛 作者: 517mike 浏览:374 回复:3

药品监管系统架构揭秘:海量溯源数据存储与查询

生产药品过程中的状态、运输过程的轨迹、医院药店存储和使用数据等。 图3 常见状态数据 药品流通会产生大量的状态数据,这些数据需要持续的记录下来,后续才可以做到真正的药品溯源。我们先来罗列一下药品状态数据: 药企的状态数据:这里主要指药品依赖的原材料溯源 ...
来自: 云栖社区 > 博客 作者: chen1255 浏览:497 回复:0

海量结构化数据存储技术揭秘:Tablestore存储和索引引擎详解

,Filter模式在过滤大量数据时效率不高,甚至变成全表扫描。通常来说,数据查询的效率与底层扫描的数据量正相关,而底层扫描的数据量取决于数据分布和结构。数据默认仅按照主键有序存储,那么要按照某一属性列查询,符合条件的数据必然分布于全表的范围内,需要扫描后筛选。全 ...
来自: 云栖社区 > 博客 作者: 亦征 浏览:224 回复:0

数据漫谈(二)大数据价值点在哪里

。那大数据究竟有多少价值?又怎么来体现价值?大数据的范围比较广,可以是一个有限的集合,比如政府、企业所掌握的私有的数据库,也可以是一个无限的集合,比如社交网站、博客、论坛等等上面的信息。大数据技术就是从各种各样的,大量数据中,快速获得有价值信息的技术,包括 ...
来自: 云栖社区 > 论坛 作者: caddieyang 浏览:283 回复:0

常见的大数据术语表

; 这类数据也被称为元数据(meta data),是描述数据数据 云计算(Cloud computing) – 构建在网络上的分布式计算系统,数据存储于机房外的(即云端) 聚类分析(Clustering analysis) &ndash ...
来自: 云栖社区 > 论坛 作者: 翩翩紫百合 浏览:144 回复:1

达观数据分析平台架构和Hive实践

中,rcfile总是成为不二的选择,达观数据平台在选择文件存储格式时也大量选择了rcfile方案。 3.2 统计分析 本节将从排序和窗口函数两个方面的介绍Hive的统计分析功能。 排名 热门排名在实际的业务场景中经常遇见。例如最受欢迎的书籍、销量TOP ...
来自: 云栖社区 > 论坛 作者: py153103185 浏览:261 回复:2

经典大数据架构案例:酷狗音乐的大数据平台重构

hive0.14 版本中,利用函数ROW_NUMBER() OVER对数据进行数据处理后,导致大量的作业出现延时很大的现象,经异常排查后,发现在数据记录数没变的情况,数据存储容量扩大到原来的5倍左右,导致MapReduce执行很慢造成的。改为自己实现类似的 ...
来自: 云栖社区 > 论坛 作者: Nicole娃娃 浏览:319 回复:5

开源MySQL数据仓库解决方案:Infobright

,但只能校验最终的数据一致性,使得从机在数据加载时停服务的时间较长;横向扩展方面,它本身就不是分布式的存储系统。 与MySQL对比 1.infobright适用于数据仓库场合:即非事务、非实时、非多并发;分析为主;存放既定的事实,例如日志,或汇总的大量数据 ...
来自: 云栖社区 > 论坛 作者: 一生是水stella 浏览:281 回复:2

数据工具大全--大数据开源处理工具汇总(100工具)

那样分库拆表,在应用代码层进行大量的改动。 二、CouchDB是面向文档的数据库,存储半结构化的数据,比较类似lucene的index结构,特别适合存储文档,因此很适合CMS,电话本,地址本等应用,在这些应用场合,文档数据库要比关系数据库更加方便,性能更好 ...
来自: 云栖社区 > 论坛 作者: 爱慕 浏览:651 回复:9

浅议DAS、NAS、SAN三种存储架构

; NAS是将目光集中在应用、用户和文件以及它们共享的数据上。SAN是将目光集中在磁盘、磁带以及联接它们的可靠的基础结构。将来从桌面系统到数据集中管理到存储设备的全面解决方案将是NAS加SAN。 怎样制定完善的企业网络存储备份方案 企业的运作需要大量数据的 ...
来自: 云栖社区 > 论坛 作者: 很多烦恼啊 浏览:261 回复:0

【云能量沙龙杭州站】伞兴:阿里云开放存储服务API介绍与Web应用案例分享

?”我说这个我也很难描述得清楚,也许有的人对于这个话题有很深刻的见解,但对我来说,云存储——比如阿里云开放存储服务,我的理解就是它像一个银行一样,你把数据给我,我帮你存好,你想支走的时候就支走,这个银行不会倒闭,没有礼拜天 ...
来自: 云栖社区 > 论坛 作者: sleepbird 浏览:13045 回复:4

存储基础设施管理 —— IBM Total Storage Productivity Center (TPC)

。Productivity Center存储中控台是最早根据SNIA标准设计的存储管理软件,包括三个部分:TPC for Fabric实现存储域网络的管理;TPC for Disk和TPC for Replication实现对于不同的存储设备的配置管理、性能监控和数据复制管理 ...
来自: 云栖社区 > 论坛 作者: nancyyuchen 浏览:180 回复:7

EMC Symmetrix企业智能存储系统 介绍

信息集中到企业核心数据中心,从而使企业在保留应用计算分布式好处的同时实现信息存储、管理集中化。 广泛的连接性 Symmetrix企业智能存储系统可以同时连接当今商业企业的主要计算环境,包括异构主机平台、网络、文件服务器、网络服务器和管理平台。 高层次信息 ...
来自: 云栖社区 > 论坛 作者: alex66323768 浏览:375 回复:0

关于sqlserver2016的列存储索引的增强

http://www.infoq.com/cn/articles/SQL-Server-ColumnStore现如今的大数据处理方案需要在比以往更短的时间内应对越来越大的数据量。MS SQL 2012版本首次引入了列存储(CS)索引技术,这也是SQL ...
来自: 云栖社区 > 论坛 作者: minami25 浏览:335 回复:0
< 1 2 3 4 5 7 >
共有4398页 跳转至:GO
对搜索结果不满意?试试论坛 高级搜索>