从Greenplum、Hadoop到现在的阿里大数据技术

Hadoop做类似的事情。第三件事情,就是启动了飞天操作系统的研发,目标是打造一个属于自己的大数据平台。中间的历程非常坎坷,到2010年的时候, Greenplum这条路因为规模和可用性的问题以及计算准确性问题被放弃,2013年的时候, Hadoop平台也因为数据中心 ...
来自: 开发者社区 > 博客 作者: 沉默术士 浏览:220 回复:0

请问有人用过greenplum+hadoop的架构吗?

请问如何将oracle的数据导入 greenplum中,到处csv文件再导入的方式太慢了,数据量很大。 或者换个思路能否从hdfs上将数据导入gp?查了一下貌似只有gp的外部表可以用,但是外部表的 性能肯定不理想。 ...
来自: 开发者社区 > 论坛 作者: 焦普鸥 浏览:181 回复:4

PivotalR between R & PostgreSQL-like Databases(for exp : Greenplum, hadoop access by hawq)

PivotalR是R的一个包, 这个包提供了将R翻译成SQL语句的能力, 即对大数据进行挖掘的话. 用户将大数据存储在数据库中, 例如PostgreSQL , Greenplum.&用户在R中使用R的语法即可, 不需要直接访问数据库, 因为 ...
来自: 开发者社区 > 博客 作者: 德哥 浏览:1248 回复:0
推荐

阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!
广告

详解:从Greenplum、Hadoop到现在的阿里大数据技术

;第二条路是因为担心 Greenplum不靠谱,我们也使用 Hadoop做类似的事情。第三件事情,就是启动了飞天操作系统的研发,目标是打造一个属于自己的大数据平台。中间的历程非常坎坷,到2010年的时候, Greenplum这条路因为规模和可用性的问题以及计算准确性 ...
来自: 开发者社区 > 博客 作者: 云学习小组 浏览:5819 回复:0

基于Greenplum Hadoop 分布式平台的大数据解决方案

问题导读: 1、什么是 Greenplum? 2、如何理解 Greenplum的架构? 3、 Greenplum架构中Master Host、Segment、Interconnect分别是什么? 1_ Greenplum架构1.png (42.55 KB, 下载次数: 5) 下载附件  保存到相册 2015-4-3 23:18 上传 ...
来自: 开发者社区 > 论坛 作者: 紫乌乌 浏览:195 回复:0

EMC升级Greenplum 4.2 实现Hadoop处理

本文讲的是EMC升级 Greenplum 4.2 实现 Hadoop处理,大数据的问题不仅是因为它很大,还因为它一直在膨胀。比起传统的数据仓库,它需要更现代的 Hadoop MapReduce 数据处理。EMC最近更新了自己的 Greenplum数据库,使其能够 ...
来自: 开发者社区 > 博客 作者: 燕儿199606 浏览:130 回复:0

《Hadoop实战手册》一1.10 在Greenplum外部表中使用HDFS

社区“异步社区”公众号查看。###1.10 在 Greenplum外部表中使用HDFS Greenplum是一个并行数据库,数据的存储与查询基于一个或多个PostgreSQL实例。它补充了 Hadoop,提供对大数据的实时或准实时 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:287 回复:0

Greenplum 点查(按PK查询)性能与提升空间

规格评估 - 微观、宏观、精准 多视角估算数据库 性能(选型、做预算不求人)》《数据库选型之 - 大象十八摸 - 致 架构师、开发者》《数据库选型思考》《空间对象 圈人 + 透视 - 暨PostgreSQL 10与 Greenplum的对比和选择 ...
来自: 开发者社区 > 博客 作者: 德哥 浏览:21 回复:0

Greenplum 2000亿 近似度查询 性能 以及注意事项

greenplum和PostgreSQL一样,都是通过pg_trgm来支持近似度查询的。 原理是将字符串前加2空格,末尾加1空格,然后按照3个连续的字符串为一组,打散成多个字符串。然后计算字符串的重复度来计算两个字符串的相似度。 计算重复度时 ...
来自: 开发者社区 > 博客 作者: 德哥 浏览:8347 回复:1

Deepgreen & Greenplum DBA小白普及课之四(性能问题解答)

不积跬步无以至千里,要想成为一名合格的数据库管理员,首先应该具备扎实的基础知识及问题处理能力。本文参考Pivotal官方FAQ,对在管理Deepgreen & Greenplum时经常会遇到的问题提出解决思路/答案,本篇主要讲 性能方面的问题。不积 ...
来自: 开发者社区 > 博客 作者: 阿福chris 浏览:679 回复:0

Greenplum merge insert 用法与性能 (insert on conflict)

union all select * from t_tmp2; Greenplum merge insert 性能硬件:使用一台64线程机器,单机启动48个segment。1、全量数据20亿。create table t ...
来自: 开发者社区 > 博客 作者: 德哥 浏览:19 回复:0

Deepgreen与Greenplum TPC-H性能测试对比(使用VitesseData脚本)

前两天发了一篇基于[德哥测试脚本]的测试对比文章《Deepgreen与 Greenplum TPC-H 性能测试对比(使用德哥脚本)》,由于测试数据量少,两个数据库有几轮测试都是1秒持平,但是大多数测试Deepgreen均优于 Greenplum,有的甚至快至 ...
来自: 开发者社区 > 博客 作者: 阿福chris 浏览:2511 回复:0

Greenplum insert的性能(单步\批量\copy) - 暨推荐使用gpfdist、阿里云oss外部表并行导入

OLAP 性能,支持多节点并行计算,实现PB级数据量的实时分析。除了分析能力,数据写入吞吐也是 Greenplum的重要指标, Greenplum支持从master节点写入,也支持从segment节点并行写入。从segment并行加载的话, 性能是线性提升的 ...
来自: 开发者社区 > 博客 作者: 德哥 浏览:119 回复:0

greenplum 性能问题

Greenplum 4.3.16.1#单个SQL执行计划explain select count(*) s_cnt from history where acctstarttime between to_date('2017 ...
来自: 开发者社区 > 问答 作者: 6月春风 浏览:104 回复:0

GreenPlum 如何用sql语句查询其运行的性能指标

例如:如何通过执行 GreenPlum的sql 去获取一条查询语句的执行时间, 去获取慢查询的sql,获取其缓存命中率等等 ...
来自: 开发者社区 > 问答 作者: lin_feng_upc 浏览:42 回复:0

HybridDB for PostgreSQL , Greenplum 写入性能优化实践

null标签PostgreSQL , Greenplum , HybridDB for PostgreSQL , insert , 性能背景 Greenplum写入数据的 性能优化实践。1 链路尽量缩短客户端和数据库的链路,不要太多的跳数 ...
来自: 开发者社区 > 博客 作者: 德哥 浏览:3123 回复:0

Deepgreen与Greenplum TPC-H性能测试对比(使用德哥脚本)

测试TPC-H的结果让大家加以比较:本次对比需要注意的几点:测试参照德哥2015年发的【 Greenplum的TPC-H】测试,只做了压缩类型的简单修改由于测试机器 性能问题,可能无法最大化展示二者 性能greenplum部分测试timeout ...
来自: 开发者社区 > 博客 作者: 阿福chris 浏览:1146 回复:0

Greenplum 大宽表 OR 分层关系 - 大量nestloop,补齐其他字段的性能损耗

标签PostgreSQL , Greenplum , 宽表 , 关系 , 循环 , 性能背景GPDB中,使用关系存储,还是使用大宽表呢?关系存储,在查询其他表的内容时,需要JOIN补齐。JOIN可能需要重分布数据,维度表可以解决大量数据重 ...
来自: 开发者社区 > 博客 作者: 德哥 浏览:35 回复:0

《Hadoop MapReduce性能优化》一2.2 Hadoop MapReduce性能指标

本节书摘来异步社区《 Hadoop MapReduce 性能优化》一书中的第2章,第2.2节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。###2 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:222 回复:0

Hadoop(2)MapReduce 性能调优:理解性能瓶颈,诊断map性能瓶颈

问题导读: 1.MapReduce作业 性能的影响因子有哪些? 2.Map的 性能问题有哪些? 101341276483443.jpg (87.16 KB, 下载次数: 4) 下载附件  保存到相册 2015-10-10 12:34 上传 ...
来自: 开发者社区 > 论坛 作者: ksltner 浏览:252 回复:0

SQL on Hadoop,hadoop查询性能优化

://madlib.net/ ): 性能相关: Scott Yara( Greenplum老大)公开承认Hawq比pure GPDB要慢。这么做的目的无非就是更好的利用HDFS的可扩展性,统一存储管理。 和其他SQL on Hadoop产品的 性能对比方面,Hawq在 ...
来自: 开发者社区 > 论坛 作者: 小丽宝贝 浏览:161 回复:1

《Hadoop MapReduce性能优化》一2.1 研究Hadoop参数

本节书摘来异步社区《 Hadoop MapReduce 性能优化》一书中的第2章,第2.1节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。###2 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:352 回复:0

《Hadoop MapReduce性能优化》一第 1 章 了解Hadoop MapReduce

本节书摘来异步社区《 Hadoop MapReduce 性能优化》一书中的第1章,第1.1节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。###第 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:197 回复:0

《Hadoop MapReduce性能优化》一1.2 Hadoop MapReduce概述

本节书摘来异步社区《 Hadoop MapReduce 性能优化》一书中的第1章,第1.2节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。###1 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:226 回复:0

《Hadoop MapReduce性能优化》一第 2 章 Hadoop参数概述

本节书摘来异步社区《 Hadoop MapReduce 性能优化》一书中的第2章,第2.1节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。###第 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:252 回复:0

《Hadoop MapReduce性能优化》一1.3 Hadoop MapReduce的工作原理

本节书摘来异步社区《 Hadoop MapReduce 性能优化》一书中的第1章,第1.3节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。###1 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:198 回复:0

《Hadoop MapReduce性能优化》一2.4 用Apache Ambari监测Hadoop

本节书摘来异步社区《 Hadoop MapReduce 性能优化》一书中的第2章,第2.4节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:281 回复:0

《Hadoop MapReduce性能优化》一2.3 性能监测工具

本节书摘来异步社区《 Hadoop MapReduce 性能优化》一书中的第2章,第2.3节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:262 回复:0

《Hadoop MapReduce性能优化》一1.4 影响MapReduce性能的因素

本节书摘来异步社区《 Hadoop MapReduce 性能优化》一书中的第1章,第1.4节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。###1 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:261 回复:0

Hadoop(1)MapReduce 性能调优:性能测量(Measuring)

问题导读: 1. Hadoop自带测试MapReduce和环境 性能指标的工具有哪些? 2.怎么用 Hadoop CLI 抽取 性能指标? 3.常见的 性能监控工具有哪些? img1.png (76.34 KB, 下载次数: 1) 下载附件  保存到相册 2015-10-10 11:41 上传 ...
来自: 开发者社区 > 论坛 作者: 皮豚宝宝 浏览:194 回复:0

Hadoop(7)MapReduce 性能调优:减小数据倾斜的性能损失

倾斜的 性能损失。 讨论 用一系列的方法减小数据倾斜的风险,例如使用自定义的分区器,使用map端连接等。 方案 在这个方案中将讨论多个减轻reduce数据倾斜的 性能损失的方法。 方法1:抽样和范围分区 Hadoop默认的分区器是基于map输出键的哈希值分区 ...
来自: 开发者社区 > 论坛 作者: 射手双燕 浏览:197 回复:2

Hadoop(3)MapReduce 性能调优:诊断reduce性能瓶颈

问题导读: 1.Reduce的 性能问题有哪些? 2.怎样解决Reduce的 性能问题? 111056409697223.png (66.53 KB, 下载次数: 2) 下载附件  保存到相册 2015-10-10 14:13 上传 ...
来自: 开发者社区 > 论坛 作者: kzbbzx346819301 浏览:164 回复:0

自建Greenplum迁移到AnalyticDB PostgreSQL版 - 云原生数仓 AnalyticDB PostgreSQL

云原生数据仓库AnalyticDB PostgreSQL版完全兼容开源 Greenplum,支持应用平滑迁移。本文主要描述如何从自建 ...

《Hadoop MapReduce性能优化》一导读

.com/def530fdf7afa8bc3178c504e619f4c0d64aa826.png)###前 言 Hadoop MapReduce 性能优化MapReduce是一个重要的并行处理模型,用于大规模、数据密集型应用,比如数据挖掘和 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:284 回复:0

如何提升Hadoop MapReduce性能

文章, http://blog.cloudera.com/blog/20 ... ression-for- hadoop/ 记得要把mapred.compress.map.output设为true。 性能对比: 禁用LZO只在测试中轻微延长了运行时间。但是文件 ...
来自: 开发者社区 > 论坛 作者: zhlucy 浏览:261 回复:0

SQL on Hadoop性能瓶颈点分析及解决方法总结

问题导读: 1. CPU、网络、硬盘等在在 Hadoop系统进行SQL运算时负责的工作有哪些? 2. 在 Hadoop集群中提升SQL的执行 性能需要注意哪几点? 3. 如何在SQL中减少数据访问? 4. 如何在SQL中返回更少的数据? 5. 如何在SQL中 ...
来自: 开发者社区 > 论坛 作者: total2000 浏览:277 回复:0

SQL on Hadoop TPCDS性能测试

上传 执行query和测试数据源 Impala - Hive 性能测试和查询优化 SQL-on- Hadoop && SQL-on-NOSQL && SQL on Hadoop Join RDBMS/NOSQL SQL-on ...
来自: 开发者社区 > 论坛 作者: 时尚大Queen 浏览:647 回复:0

《Hadoop MapReduce性能优化》一1.5 小结

本节书摘来异步社区《 Hadoop MapReduce 性能优化》一书中的第1章,第1.5节,作者: 【法】Khaled Tannir 译者: 范欢动 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。###1 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:213 回复:0

Ganglia监控Hadoop及Hbase集群性能(安装配置)

问题导读: 1、如何安装Ganglia监控 Hadoop及Hbase集群? 2、它的效能如何? 444444.png (182.4 KB, 下载次数: 9) 下载附件  保存到相册 2014-6-15 07:49 上传 333333333.png ...
来自: 开发者社区 > 论坛 作者: nannan99 浏览:205 回复:9

实践Hadoop MapReduce 任务的性能翻倍之路

eBay每天产生PB量级的CAL日志,其数据量每天都在增加。对于日益增长的数据量, Hadoop MapReduce job的优化将会大大节省计算资源。本文将分享eBay团队如何对这些 Hadoop job进行优化,希望为开发者带来启发,解决 Hadoop ...
来自: 开发者社区 > 博客 作者: 曹龙 浏览:76 回复:0

[转载]聊聊Greenplum的那些事

原文   http://dbaplus.cn/news-21-341-1.html 聊聊Greenplum的那些事 李巍 2016-04-01 14:15:00 1024   开卷有益——作者的话    有时候真的感叹人生岁月匆匆,特别是当一个IT人沉浸于某个技术领域十来年后,蓦然回首,...

《Greenplum企业应用实战》一导读

前 言 为什么写作本书 阿里巴巴是国内最早使用Greenplum作为数据仓库计算中心的公司。从2009年到2012年Greenplum都是阿里巴巴B2B最重要的数据计算中心,它替换掉了之前的Oracle RAC,有非常多的优点。 Greenplum的性能在数据量为TB级别时表现非常优秀,单机性能相...

大数据的逆袭:传统数据库市场的变革

文章讲的是大数据的逆袭:传统数据库市场的变革,大数据是什么?Gartner认为,大数据是超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。麦肯锡认为,大数据是指大小超出了典型数据库软件工具收集、存储。管理和分析能力的数据集。对于大数据而言,每个时代都有它自己的定义,大...

《Greenplum企业应用实战》一1.4 Greenplum特性及应用场景

本节书摘来自华章出版社《Greenplum企业应用实战》一书中的第1章,第1.4节,作者 何勇 陈晓峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看 1.4 Greenplum特性及应用场景 1.4.1 Greenplum特性 (1)支持海量数据存储和处理当今是个数据迅速增长的时代,数据量...

从零到壹构建行为日志聚合

摘要 行为日志在这个大数据时代的作用日益重要,怎样更好的收集、存储、管理日志也是值得研究的一个问题,大型互联网公司一般都有成熟的日志聚合方案,但是每个公司尤其是中小型公司都要针对自己的应用场景来做技术选型,本文主要针对中小型公司如何以较小的成本快速构建一个行为日志聚合体系以及在建立日志聚合过程中要...

基于PostggreSQL的PB级开源企业级分布式HTAP数据库

本文由阿里云开发者社区直播整理而来。讲师介绍:姚延栋,pivotal中国研发中心副总经理,Greenplum中文社区发起人。 今天和大家分享的标题是《新一代PB级分布式HTAP数据库》,我加了个副标题为:Greenplum能做什么?过去,我们做的分享大多是从产品的角度,分享Greenplum有哪...

云HBase X-Pack解决传统数据仓库瓶颈,赋能客户计算分析业务

  某游戏公司随着业务快速发展,用户行为日志快速增长,需要从海量的点击流日志和激活日志中挖掘数据的价值,比如广告转化率、激活率,每日安装用户成本等等。 业务挑战   原来使用GreenPlum做实时计算和统计分析。但是GreenPlum存在以下缺陷,难以应对业务的快速发展: GreenPlum架...

阿里云ApsaraDB RDS用户 - OLAP最佳实践

背景 随着大数据分析型产品越来越丰富、细化,用户可能会看得眼花缭乱,如果对产品没有深度的理解,选错了岂不是劳民伤财? 本文将给大家分析一下RDS用户应该如何选择适合自己的大数据的分析产品,以及最佳实践方案。 用户环境分析 以最常用的服务举例,通常云用户会购买的产品如下 ECS,虚拟机 R...

Greenplum:你不可不知的实施与维护最佳实践

近两年,国内的大数据市场逐渐成熟,有真实的大数据处理需求的企业数量呈现爆炸性的增长,从传统的数据库产品往MPP数据库转型的增长势头十分迅猛。Greenplum作为MPP产品的领头羊,具有较低的学习成本,得到了国内大量客户的青睐。 目录 GP实施之道 1、前期规划的重要性 2、数据模型设计的重...

Greenplum技术浅析

说起Greenplum这个产品,最早是SUN来推他们的数据仓库产品DWA时接触到的,对这个由PgSQL堆叠出来的数据库产品还不是很了解,当时的焦点还在DWA本身的硬件上,当然不可否认,DWA还是有一些特点的。 后来,我们发现普通的PC+SAS磁盘具备非常好的吞吐能力,完全不逊于某些昂贵的存储...
< 1 2 3 4 ... 1158 >
共有1158页 跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折