Apache spark如何在数据湖中更新海量原始数据?
我正在设计一个分析型大数据系统。我将拥有大量数据。问题在于大量原始数据将经常被更新(每次大约20,000,000个事件)。 我想做的就是将最新数据放入数据湖(Hadoop)中的新文件中,然后运行(Spark)作业,它将新的原始数据与旧的合并。这将花费太长时间。 您对如何改善此过程有任何想法吗?
数据湖恶化成了数据沼泽?你一定没有注意这3点
多年来,在Apache Hadoop等技术的支持下,组织一直在寻求构建数据湖——企业范围的数据管理平台,允许以原生格式存储所有数据。数据湖可通过提供给一个单一的数据存储库来打破信息孤岛问题,整个组织都可以使用从业务分析到数据挖掘的所有东西。原始和不受约束,数据湖被认为是一个包罗万象的大数据。 但是,商业智能(BI)软件专家,金字塔分析公司的首席技术官Avi Perez说,他看到许多客户的数据湖正....

EMC首席数据治理官:“受托人”是数据湖问责的关键
据EMC公司自己的首席数据治理官Barbara Latulippe称,今天的首席数据官(CDO)想要成功的话就需要得到高级管理层的认可和接受。今年在美国麻省理工学院举行的首席数据官CDO论坛上,Latulippe分享了促进数据所有权和数据访问的最佳实践,以及EMC在数据湖方面尝试的方法。 治理当前的数据湖 治理是Latulippe第一个详细谈到的问题,她把自己团队在数据管理方面的逐步成熟归功于E....
如何保证Hadoop数据湖不变成“数据洪水”
1、数据湖:一不留神变数据洪 数据湖的提出距今已经有了几年时间了,特别是在当今时代中,基于Hadoop建立的数据湖在大数据处理中占有的位置越来越重要。但是如何保证数据湖不像南方水灾一样泛滥,依然是一个耐人寻味的话题。 数据湖已满,如何防泛滥 数据湖洪水泛滥 数据湖十分灵活,同时具备可扩展和低成本的特点。其最初建立的目的十分简单,就是将所有形式的数据集中在同一处,这些数据包括了结构化数据、非...
如何保证Hadoop数据湖不变成“数据洪水”
数据湖的提出距今已经有了几年时间了,特别是在当今时代中,基于Hadoop建立的数据湖在大数据处理中占有的位置越来越重要。但是如何保证数据湖不像南方水灾一样泛滥,依然是一个耐人寻味的话题。 数据湖已满,如何防泛滥 数据湖洪水泛滥 数据湖十分灵活,同时具备可扩展和低成本的特点。其最初建立的目的十分简单,就是将所有形式的数据集中在同一处,这些数据包括了结构化数据、非结构化数据以及半结构化数据。这些数.....
还在运行数据孤岛?再不考虑数据湖就真Out啦!
预计未来十年,数字宇宙将以每年约40%的速度增长,这是个惊人的数字,更重要的是,数字宇宙中囊括了绝大多数企业业务的数据需求。在这种环境下,通过使用数据分析提高竞争力,企业需要有能力满足“信息一代”的需求,这对企业来说至关重要。从帮助预测购买行为到驱动创新项目以增强客户服务或提高生产力,数据湖能整理、存储并分析海量数据,拥有变革业务的巨大能量。分析能力正从企业的“愿望清单”中移除,转而成为必需。 ....
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。