详解:从Greenplum、Hadoop到现在的阿里大数据技术

;第二条路是因为担心 Greenplum不靠谱,我们也使用 Hadoop做类似的事情。第三件事情,就是启动了飞天操作系统的研发,目标是打造一个属于自己的大数据平台。中间的历程非常坎坷,到2010年的时候, Greenplum这条路因为规模和可用性的问题以及计算准确性 ...
来自: 开发者社区 > 博客 作者: 云学习小组 浏览:5819 回复:0

基于Greenplum Hadoop 分布式平台的大数据解决方案

问题导读: 1、什么是 Greenplum? 2、如何理解 Greenplum的架构? 3、 Greenplum架构中Master Host、Segment、Interconnect分别是什么? 1_ Greenplum架构1.png (42.55 KB, 下载次数: 5) 下载附件  保存到相册 2015-4-3 23:18 上传 ...
来自: 开发者社区 > 论坛 作者: 紫乌乌 浏览:195 回复:0

《Hadoop实战手册》一1.10 在Greenplum外部表中使用HDFS

社区“异步社区”公众号查看。###1.10 在 Greenplum外部表中使用HDFS Greenplum是一个并行数据库,数据的存储与查询基于一个或多个PostgreSQL实例。它 补充Hadoop,提供对大数据的实时或准实时 ...
来自: 开发者社区 > 博客 作者: 异步社区 浏览:287 回复:0
推荐

阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!
广告

EMC升级Greenplum 4.2 实现Hadoop处理

本文讲的是EMC升级 Greenplum 4.2 实现 Hadoop处理,大数据的问题不仅是因为它很大,还因为它一直在膨胀。比起传统的数据仓库,它需要更现代的 Hadoop MapReduce 数据处理。EMC最近更新了自己的 Greenplum数据库,使其能够 ...
来自: 开发者社区 > 博客 作者: 燕儿199606 浏览:130 回复:0

从Greenplum、Hadoop到现在的阿里大数据技术

Hadoop做类似的事情。第三件事情,就是启动了飞天操作系统的研发,目标是打造一个属于自己的大数据平台。中间的历程非常坎坷,到2010年的时候, Greenplum这条路因为规模和可用性的问题以及计算准确性问题被放弃,2013年的时候, Hadoop平台也因为数据中心 ...
来自: 开发者社区 > 博客 作者: 沉默术士 浏览:220 回复:0

PivotalR between R & PostgreSQL-like Databases(for exp : Greenplum, hadoop access by hawq)

PivotalR是R的一个包, 这个包提供了将R翻译成SQL语句的能力, 即对大数据进行挖掘的话. 用户将大数据存储在数据库中, 例如PostgreSQL , Greenplum.&用户在R中使用R的语法即可, 不需要直接访问数据库, 因为 ...
来自: 开发者社区 > 博客 作者: 德哥 浏览:1248 回复:0

请问有人用过greenplum+hadoop的架构吗?

请问如何将oracle的数据导入 greenplum中,到处csv文件再导入的方式太慢了,数据量很大。 或者换个思路能否从hdfs上将数据导入gp?查了一下貌似只有gp的外部表可以用,但是外部表的性能肯定不理想。 ...
来自: 开发者社区 > 论坛 作者: 焦普鸥 浏览:181 回复:4

自建Greenplum迁移到AnalyticDB for PostgreSQL - 云原生数仓 AnalyticDB PostgreSQL

PostgreSQL完全兼容开源 Greenplum,支持应用平滑 。本文主要描述如何从自建 Greenplum迁移到阿里云ADBPG 数仓平台 ...

商标订单补充申请人 - 阿里云商标服务

在进行商标注册申请时,如您跳过商标注册申请人的填写,您需在商标注册申请提交成功后在阿里云商标服务控制台 补充申请人信息,否则您的商标注册订单将不会进入阿里云初审。本文将为您介绍在控制台 补充 ...

公告:补充负载均衡实例购买、变配、续费事件 - 操作审计

操作审计即将 补充发布负载均衡(Server Load Balancer)实例的购买、变配和续费事件。此前由于阿里云售卖实现路径有多种 ...

《Greenplum企业应用实战》一第1章 Greenplum简介1.1 Greenplum的起源和发展历程

企业。针对数据密集型计算中的海量数据处理这一问题,研究者开始考虑如何利用大规模集群系统所具有的可伸缩性和容错性的优势,实现高效的数据管理功能。比较典型的解决方案有Teradata、 GreenplumHadoop Hive、Oracle Exadata ...
来自: 开发者社区 > 博客 作者: 华章计算机 浏览:191 回复:0

《Greenplum企业应用实战》一第2章 Greenplum快速入门2.1 软件安装及数据库初始化

:```javascript[gpadmin@inc-dw- hadoop-151-7 ~]$ gpstart --helpCOMMAND NAME: gpstartStarts a Greenplum Database system ...
来自: 开发者社区 > 博客 作者: 华章计算机 浏览:331 回复:0

《Greenplum企业应用实战》一1.4 Greenplum特性及应用场景

机器并行计算,极大地提高了对海量数据的处理能力。采取MPP架构的数据库系统才能对海量数据进行管理。(2)高性价比 Greenplum数据库可以搭建在业界各种开放式硬件平台上,在硬件选型上有很强的自由性。相比其他封闭式数据仓库专用系统及 Hadoop ...
来自: 开发者社区 > 博客 作者: 华章计算机 浏览:297 回复:0

《Greenplum企业应用实战》一2.2 安装Greenplum的常见问题

本节书摘来自华章出版社《 Greenplum企业应用实战》一书中的第2章,第2.2节,作者 何勇 陈晓峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看###2.2 安装 Greenplum的常见问题安装 ...
来自: 开发者社区 > 博客 作者: 华章计算机 浏览:397 回复:0

《Greenplum企业应用实战》一2.3 畅游Greenplum

本节书摘来自华章出版社《 Greenplum企业应用实战》一书中的第2章,第2.3节,作者 何勇 陈晓峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看###2.3 畅游 Greenplum本节只介绍一些常用的 ...
来自: 开发者社区 > 博客 作者: 华章计算机 浏览:436 回复:0

《Greenplum企业应用实战》一1.3 PostgreSQL与Greenplum的关系

本节书摘来自华章出版社《 Greenplum企业应用实战》一书中的第1章,第1.3节,作者 何勇 陈晓峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看###1.3 PostgreSQL与 Greenplum的关系 ...
来自: 开发者社区 > 博客 作者: 华章计算机 浏览:410 回复:0

专访Pivotal公司Greenplum研发总监姚延栋:Greenplum开源的这一年

(2014年独立为Pivotal),现担任 Pivotal 数据部门研发总监,代领中国研发团队,负责分布式数据库 Greenplum Database 和& SQL-on- Hadoop 产品HAWQ 的研发工作。 Greenplum 5.0 ...
来自: 开发者社区 > 博客 作者: 云学习小组 浏览:2541 回复:0

《Greenplum企业应用实战》一第3章 Greenplum实战3.1 历史拉链表

本节书摘来自华章出版社《 Greenplum企业应用实战》一书中的第3章,第3.1节,作者 何勇 陈晓峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看##第3章 Greenplum实战从本章开始我们结合实际 ...
来自: 开发者社区 > 博客 作者: 华章计算机 浏览:463 回复:0

问题请教,ASCP模块下的来源补充规则跟PO下的来源补充规则有什么不同

各位高手,在R12中,ASCP模块下的来源 补充规则跟PO下的来源 补充规则有什么不同呢?这两个功能界面一样,但后台table却不是一样的,为什么两个模块都有呢?奇怪? 模块, table ...
来自: 开发者社区 > 论坛 作者: 十字星裙 浏览:394 回复:1

13.Django之数据库models&orm连表操作补充以及其他知识点补充(二)

.user_set.filter(username='admin'))3.关于django orm的一些 补充说明。#!返回单条记录的时候,返回的是一个和表同名的对象!##!在返回多条记录时,一定会返回一个 ...
来自: 开发者社区 > 博客 作者: 技术小胖子 浏览:15 回复:0

问题请教,ASCP模块下的来源补充规则跟PO下的来源补充规则有什么不同

各位高手,在R12中,ASCP模块下的来源 补充规则跟PO下的来源 补充规则有什么不同呢?这两个功能界面一样,但后台table却不是一样的,为什么两个模块都有呢?奇怪? 模块, table ...
来自: 开发者社区 > 论坛 作者: 十字星裙 浏览:394 回复:1

13.Django之数据库models&orm连表操作补充以及其他知识点补充(二)

.user_set.filter(username='admin'))3.关于django orm的一些 补充说明。#!返回单条记录的时候,返回的是一个和表同名的对象!##!在返回多条记录时,一定会返回一个 ...
来自: 开发者社区 > 博客 作者: 技术小胖子 浏览:15 回复:0

通过HDP 2.6 Hadoop读取和写入OSS数据 - 对象存储 OSS

Platform) 是由Hortonworks发行的大数据平台,包含了 Hadoop、Hive、HBase等开源组件。HDP最新版本3.0.1中的 Hadoop 3.1.1版本已经支持OSS,但是低版本的HDP不支持OSS。本文以 ...

Hadoop - 云原生数据湖分析 DLA

本文主要介绍如何使用DLA Spark访问用户VPC中的 HADOOP集群(开启kerberos认证的集群暂不支持 ...

通过DataWorks将Hadoop数据同步至Elasticsearch - 阿里云Elasticsearch

当您基于 Hadoop进行交互式大数据分析查询,遇到查询延迟的问题时,可以将数据同步至阿里云Elasticsearch中再进行查询分析 ...

Hadoop Streaming - E-MapReduce

本章节介绍如何使用 Python 写 Hadoop ...

自建Hadoop数据迁移到阿里云E-MapReduce - E-MapReduce

客户在IDC或者公有云环境自建 Hadoop集群 ...

通过ES-Hadoop将HDFS中的数据写入Elasticsearch - 阿里云Elasticsearch

ES- Hadoop是Elasticsearch推出的专门用于对接 Hadoop生态的工具,可以让数据在Elasticsearch和 ...

通过CDH5 Hadoop读取和写入OSS数据 - 对象存储 OSS

CDH(Cloudera's Distribution, including Apache Hadoop)是众多 Hadoop ...

通过ES-Hadoop实现Hive读写阿里云Elasticsearch数据 - 阿里云Elasticsearch

ES- Hadoop是Elasticsearch推出的专门用于对接 Hadoop生态的工具,可以让数据在Elasticsearch和 ...

【漏洞公告】CVE-2017-7669:Apache Hadoop远程权限提升漏洞 - 安全公告和技术

Apache Hadoop是支持数据密集型分布式应用,并以Apache 2.0许可协议发布的软件框架。近期,国外安全研究人员发现,在Apache Hadoop 2.8.0版本、3.0.0-alpha1版本和3.0.0-alpha2版本中存在安全漏洞,该 ...

通过ES-Hadoop实现Spark读写阿里云Elasticsearch数据 - 阿里云Elasticsearch

Spark是一种通用的大数据计算框架,拥有 Hadoop MapReduce所具有的计算优点,能够通过内存缓存数据为大型数据集提供快速的 ...

【漏洞公告】Hadoop YARN 资源管理系统 REST API未授权访问 - 安全公告和技术

Hadoop是一款由Apache基金会推出的分布式系统框架,它通过著名的 MapReduce 算法进行分布式处理,Yarn是 Hadoop集群的资源管理系统。 Hadoop YARN 资源管理系统配置不当导致可以未经授权进行访问,从而被攻击者恶意利用。攻击 ...

迁移Hadoop文件系统数据至JindoFS - E-MapReduce

本文以OSS为例,介绍如何将 Hadoop文件系统上 ...

Hadoop生态外表联邦分析 - 云原生数仓 AnalyticDB PostgreSQL

云原生数据仓库 AnalyticDB PostgreSQL (简称 ADB PG)支持访问 Hadoop 生态的外部数据源 ...

Hadoop数据迁移MaxCompute最佳实践 - DataWorks

DataWorks数据同步功能,迁移HDFS数据至MaxCompute,或从MaxCompute迁移数据至HDFS。无论您使用 Hadoop还是Spark,均可以与MaxCompute进行双向同步 ...

Hadoop数据迁移MaxCompute最佳实践 - MaxCompute

DataWorks数据同步功能,迁移HDFS数据至MaxCompute,或从MaxCompute迁移数据至HDFS。无论您使用 Hadoop还是Spark,均可以与MaxCompute进行双向同步 ...

Hadoop环境安全加固 - 安全公告和技术

Hadoop 介绍 Hadoop 是一个由 Apache 基金会所开发的一个开源、高可靠、可扩展的分布式计算框架。 Hadoop 的框架最核心的设计就是 HDFS 和 MapReduce 模块。HDFS 为海量的数据提供了存储,MapReduce 则为海量 ...

Hadoop MapReduce作业配置 - E-MapReduce

本文介绍如何配置 Hadoop MapReduce类型的作业 ...

汲取Linux灵感 Pivotal开源大数据套件

Pivotal公司将把旗下大数据套件中的主要组成部分加以开源,而这正是从Linux发展概念中汲取到的灵感。 此次决策将把HAWQ、Greenplum数据库以及Pivotal GemFire的“核心”代码发布给任何一位有意愿将时间投入相关开发工作的技术人士。虽然个人的力量看似微不足道,但众志成城之下...
来自: 开发者社区 >博客

Hadoop和大数据:60款顶级开源工具

虽然此文尽力做到全面,但难免遗漏,欢迎大家补充,点击文末右下角“写评论”,分享你的观点。 说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。...
来自: 开发者社区 >博客

单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

背景介绍 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 1、详单采用Parquet格式存储,数据表使用时间+MSISDN号码做分区,使用Impala查询,利用不上分区的查询场景,则查询性能比较差...
来自: 开发者社区 >博客

大数据与机器学习:实践方法与行业案例.1.2数据平台

1.2数据平台 数据平台是存放分析数据的平台,也是支持大多数数据分析和数据挖掘应用的底层平台,它使用了统一的数据清洗与处理规则,因而可以保证从基础平台上输出的数据内容是一致的。 传统的数据平台基本等同于大家熟悉的“数据仓库”,但互联网浪潮让人们对数据采集、存储和应用提出了越来越高的要求,传统数据...
来自: 开发者社区 >博客

DBAplus Newsletter:这也许是最全的技术圈动态解读

目录: 【DBAplus Newsletter】 推出DBAplus Newsletter的想法 做Newsletter的目的 做Newsletter的底线 对Newsletter的态度 Newsletter发布周期 Newsletter简单声明 DB-Engines数据库排行榜解读 ...
来自: 开发者社区 >博客

玩转大数据,你需要了解这8种项目类型!

【编者按】本文作者为大数据咨询公司 Mammoth Data 的创始人 Andrew Oliver,主要介绍适宜应用大数据的8大项目类型。文章系国内 ITOM 管理平台 OneAPM 编译呈现,以下为正文。 在过去的 12 个月里,笔者一直在大数据的战壕里挖掘。好吧,其实大部分时间我只是坐在比我更...
来自: 开发者社区 >博客

玩转大数据,你需要了解这8种项目类型!

在过去的 12 个月里,笔者一直在大数据的战壕里挖掘。好吧,其实大部分时间我只是坐在比我更聪明的人旁边,看他们怎么在战壕里挖掘数据,再把所做的事情进行简化以上报给管理层。 很少有真正独具一格的 IT 项目,那些听起来比较特别的项目最终也只是大同小异。不过你们今天有眼福了,因为我决定出来冒个泡儿,跟...
来自: 开发者社区 >博客

带你读《Greenplum:从大数据战略到实现》之三:数据处理平台的演进

点击查看第一章点击查看第二章 第3章 数据处理平台的演进 在上一章中,我们回顾了云原生应用的数字化战略,进而提出大数据和机器学习是未来企业构筑竞争优势和壁垒的高地,最后从人才和技术角度介绍如何建立合适的数据平台。本章将着重介绍数据处理平台的发展历程,根据其演进的内在动力、外在环境和当前趋势,提出集...
来自: 开发者社区 >博客

找对业务G点, 体验酸爽 - PostgreSQL内核扩展指南

通用数据库就像带装修的房子一样,如果按数据库的功能划分,可以分为豪华装修、精装、简装。 PostgreSQL从SQL兼容性、功能、性能、稳定性等方面综合评价的话,绝对算得上豪华装修级别的,用户拎包入住就可以。 不过通用的毕竟是通用的,如果G点不对的话,再豪华的装修你也爽不起来,这是很多通用...
来自: 开发者社区 >博客
< 1 2 3 4 ... 469 >
共有469页 跳转至: GO

新品推荐

你可能感兴趣

热门推荐

云计算服务器排行榜 大数据产品榜单