文章 2022-06-14 来自:开发者社区

《离线和实时大数据开发实战》(二)大数据平台架构 & 技术概览2

二、实时数据平台的架构、技术和设计离线数据平台产出数据的周期一般是天,也就是说,今天看到的是昨天的数据,对于大部分的分析和“看”数据的场景来说,这种 T+1 的离线数据可以满足业务分析的需求,但是随着业务运营日渐精细化,对数据的时效性要求越来越高,越来越多的业务场景需要马上看到业务效果,尤其是在业务促销活动等(典型的如双 11 大促、 618 大促等)场景下。更重要的是,随着人工智能浪潮的兴起,....

《离线和实时大数据开发实战》(二)大数据平台架构 & 技术概览2
文章 2022-06-14 来自:开发者社区

《离线和实时大数据开发实战》(二)大数据平台架构 & 技术概览1

前言接着上一章 构建大数据开发知识体系图谱,本次继续分享邦中老师的《离线和实时大数据开发实战》读书笔记 。到底什么样的平台才能算是大数据平台呢?带着这个问题,我们开始今天的内容 ( •̀ ω •́ )✧什么是数据平台呢?或者更时髦点,什么是大数据平台呢?目前业界并没有对数据平台的精确定义,但通常所说的数据平台主要包含以下三部分:数据相关的工具、产品和技术:比如批量数据采集传输的 Sqoop 、离....

《离线和实时大数据开发实战》(二)大数据平台架构 & 技术概览1
文章 2022-05-20 来自:开发者社区

大数据入门与实战-SQL基础教程

学习资料为:sql基础教程【日】MICK第1章数据库和SQL1.SQL书写的基本规则SQL分句以分号结尾SQL语句不区分大小写创建数据库CREATE DATABASE shop;创建表USE shop; CREATE TABLE shoin( product_id CHAR(4) NOT NULL COMMENT "商品id", product_name VARCHAR(100) NOT NU.....

大数据入门与实战-SQL基础教程
文章 2022-05-20 来自:开发者社区

大数据入门与实战-Hive 常见SQL、技巧与问题

1 常见SQL取数据库前100条数据select * from table order limit 100;-随机取100条数据select * from table order by rand() limit 100;select * from table limit 100;IF语法:IF(expr1,expr2,expr3)其中,expr1是判断条件,expr2和expr3是符合expr1....

大数据入门与实战-Hive 常见SQL、技巧与问题
文章 2022-05-20 来自:开发者社区

大数据入门与实战-PySpark的使用教程

1 PySpark简介Apache Spark是用Scala编程语言编写的。为了用Spark支持Python,Apache Spark社区发布了一个工具PySpark。使用PySpark,您也可以使用Python编程语言处理RDD。正是由于一个名为Py4j的库,他们才能实现这一目标。这里不介绍PySpark的环境设置,主要介绍一些实例,以便快速上手。2 PySpark - SparkContex....

大数据入门与实战-PySpark的使用教程
文章 2022-05-20 来自:开发者社区

大数据入门与实战-Spark上手

1 Spark简介1.1 引言行业正在广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于简单的编程模型(MapReduce),它使计算解决方案具有可扩展性,灵活性,容错性和成本效益。在这里,主要关注的是在查询之间的等待时间和运行程序的等待时间方面保持处理大型数据集的速度。Spark由Apache Software Foundation引入,用于加速Hadoop计算计算软件过程。与....

大数据入门与实战-Spark上手
文章 2022-05-20 来自:开发者社区

大数据入门与实战-Hive操作与SQL 查询

Hive的SQL基本上和我们原先的MYSQL的SQL查询效果差不多,下面是一些实例:基本查询创建数据库 create databases hivedb;我们可以看到会在/user/hive/warehouse 下面出现hivedb.db文件使用指定数据库 use hivedb;创建表create table test(id int,name string);删除表drop table test;....

大数据入门与实战-Hive操作与SQL 查询
文章 2022-05-20 来自:开发者社区

大数据入门与实战-Hive

1 Hive是什么Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。 最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。它用在好多不同的公司。例如,亚马逊使用它在 Amazon Elastic MapReduce。2 Hive不是一....

大数据入门与实战-Hive
文章 2022-05-20 来自:开发者社区

大数据入门与实战-Hadoop生态圈技术总览

1 Hadoop生态圈技术纵览2 分布式概念3 HDFS 读写过程HDFS 读过程HDFS 写过程4 伪分布式集群5 MapReduceMapReduce是一个编程框架,允许我们在分布式环境中对大型数据集执行分布式和并行处理:MapReduce由两个不同的任务组成  Map和Reduce。正如MapReduce的名称所示,reducer阶段发生在mapper阶段完成之后。因此,第一个是....

大数据入门与实战-Hadoop生态圈技术总览
文章 2022-05-19 来自:开发者社区

大数据入门与实战-HDFS的常用操作

1 命令1.1 dfs命令bin/hdfs dfs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [...

大数据入门与实战-HDFS的常用操作

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

云原生大数据计算服务 MaxCompute更多实战相关

云原生大数据计算服务 MaxCompute您可能感兴趣

产品推荐

阿里巴巴大数据计算

阿里大数据官方技术圈

+关注