阿里云搜索结果产品模块_X-Pack Spark

请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?

请问:spark 处理 hive 仓库数据,用 sparksql 好?还是hivesql好? sparksql 操作 hive 的分区分桶表麻烦吗? ...
来自: 开发者社区 > 问答 作者: hbase小能手 浏览:6 回复:1

Hive/Impala 作业读取 SparkSQL 导入的 Parquet 表报错

Hive/Impala 作业读取 SparkSQL 导入的 Parquet 表报错(表包含 Decimal 格式的列):Failed with exception java.io.IOException:org.apache.parquet.io ...
来自: 开发者社区 > 问答 作者: 曹龙 浏览:11 回复:1

关于sparksql on yarn生成大量.hive-staging文件问题

使用spark-sql on yarn 跑sql 程序,在hdfs 下生成了大量的. hive-staging文件, spark-sql --master yarn --deploy-mode client --conf spark.shuffle ...
来自: 开发者社区 > 论坛 作者: ELLEN小姐 浏览:388 回复:3
推荐

阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!
广告

SparkSQL自适应执行 - E-MapReduce

阿里云E-MapReduce 3.13.0版本的 SparkSQL支持自适应执行功能,可以用来解决Reduce个数的动态调整、数据倾斜和 ...

SparkSQL(Spark-1.4.0)实战系列(三)——SparkSQL应用案例

.theyear sort by c.theyear").collect().foreach(println) //执行过程 //执行结果 “`透过上述代码可以感受到 SparkSQL的强大,其它更为复杂的查询可以 ...
来自: 开发者社区 > 博客 作者: 周志湖 浏览:1597 回复:0

Hive简介、什么是Hive、为什么使用Hive、Hive的特点、Hive架构图、Hive基本组成、Hive与Hadoop的关系、Hive与传统数据库对比、Hive数据存储(来自学习资料)

1.1 Hive简介1.1.1   什么是 Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.1.2   为什么使用 Hive ...
来自: 开发者社区 > 博客 作者: 涂作权 浏览:567 回复:0

sparkSQL1.1入门之三:sparkSQL组件之解析(sqlContext的关键的概念和组件)

的SQL语句进行扫描、去空、去注释、校验、分词等动作。SQL语法表达式query,其作用定义SQL语法表达式,同时也定义了SQL语法表达式的具体实现,即将不同的表达式生成不同 sparkSQL的Unresolved LogicalPlan。函数phrase ...
来自: 开发者社区 > 论坛 作者: ztxclxzt 浏览:162 回复:3

sparkSQL1.1入门之一:为什么sparkSQL

;使用 hive/console更深入了解各种计划是如何生成的 第五节:测试环境之搭建   介绍后面章节将使用的环境搭建和测试数据 第六节: sparkSQL之基础应用   介绍sqlContext的RDD、Json ...
来自: 开发者社区 > 论坛 作者: 小狐狸cc 浏览:339 回复:1

sparkSQL1.1入门之二:sparkSQL运行架构

;保存到相册 2015-3-24 16:25 上传 3:hiveContext的运行过程       在分布式系统中,由于历史原因,很多数据已经定义了 hive的元数据,通过这些 hive元数据, sparkSQL使用 ...
来自: 开发者社区 > 论坛 作者: heshengck1 浏览:232 回复:4

sparkSQL1.1入门之四:深入了解sparkSQL运行计划

hive。下面看看这些数据源的schema: 3.1 json文件       json文件支持嵌套表, sparkSQL也可以读入嵌套表,如下面形式的json数据,经修整(去空格和换行符)保存后,可以使用jsonFile ...
来自: 开发者社区 > 论坛 作者: 我就爱墨迹 浏览:199 回复:3

HIVE的安装配置、mysql的安装、hive创建表、创建分区、修改表等内容、hive beeline使用、HIVE的四种数据导入方式、使用Java代码执行hive的sql命令

1.上传tar包这里我上传的是apache- hive-1.2.1-bin.tar.gz2.解压        mkdir -p /home/tuzq/software/ hive/ tar ...
来自: 开发者社区 > 博客 作者: 涂作权 浏览:1185 回复:0

使用Hive读Delta table - E-MapReduce

table,提供DeltaInputFormat和 SparkSQL两种读取方式,其中DeltaInputFormat为E-MapReduce独有的方式。本文介绍如何使用 Hive读Delta table ...

Hive授权 - E-MapReduce

Hive内置有基于底层HDFS的权限(Storage Based Authorization)和基于标准SQL的grant等命令 ...

使用Hive访问 - 云原生多模数据库 Lindorm

本章节主要介绍如何使用 hive访问文件引擎。准备工作开通文件引擎,详情请参见 开通指南。在计算节点上安装JDK,版本不能低于1.8。下载 Apache Derby ,下载地址: 官网地址 ...

通过Hive访问HBase增强版 - 云数据库 HBase

本文主要介绍如何通过 Hive访问HBase增强版。HBase增强版支持 Hive访问。但是 Hive调用HBase的方式并非标准用法,而是直接调用了HBase内部类。因此无法采用直接加入 ...

Hive Writer - DataWorks

Hive Writer插件实现了从 Hive写出数据至HDFS的功能,本文为您介绍 Hive Writer的工作原理、参数和示例 ...

Hive监控 - E-MapReduce

本文介绍 Hive监控的概览和详细信息。 前提条件 ...

Hive数据脱敏 - E-MapReduce

Ranger支持对 Hive数据的脱敏处理(Data Masking),即可以对Select的返回结果脱敏,以屏蔽敏感信息 ...

Hive - E-MapReduce

Zeppelin的 Hive解释器是使用JDBC连接HiveServer2。本文为您介绍如何在Zeppelin中使用 Hive ...

自建Hive数据仓库迁移到阿里云E-MapReduce - E-MapReduce

,数据集中保存在HDFS文件系统,同时借助 Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR ...

一个SparkSQL作业的一生可能只是一集琅琊榜

SparkSQLHive On MapReduce比起来到底有何区别。SQL On Hadoop的解决方案已经玲琅满目了,不管是元祖级的 Hive,Cloudera的Impala,MapR的 Drill,Presto, SparkSQL甚至Apache ...
来自: 开发者社区 > 博客 作者: 知与谁同 浏览:107 回复:0

SparkSQL – 从0到1认识Catalyst(转载)

字符串切分成一个一个Token,再根据一定语义规则解析为一棵语法树。Parser模块目前基本都使用第三方类库ANTLR进行实现,比如 Hive、 Presto、 SparkSQL等。下图是一个示例性的SQL语句(有两张表,其中people表主要存储用户基本信息 ...
来自: 开发者社区 > 博客 作者: 技术小甜 浏览:9 回复:0

SparkSQL – 有必要坐下来聊聊Join

hash join之前需要先shuffle还是先broadcast。其实,这些算法并不是什么新鲜玩意,都是数据库几十年前的老古董了(参考),只不过换上了分布式的皮而已。不过话说回来, SparkSQL/ Hive…等等,所有这些大数据技术哪一样不是来自 ...
来自: 开发者社区 > 博客 作者: 知与谁同 浏览:163 回复:0

SparkSQL – 从0到1认识Catalyst

Parser简单来说是将SQL字符串切分成一个一个Token,再根据一定语义规则解析为一棵语法树。Parser模块目前基本都使用第三方类库ANTLR进行实现,比如 Hive、 Presto、 SparkSQL等。下图是一个示例性的SQL语句(有两张表,其中people ...
来自: 开发者社区 > 博客 作者: 知与谁同 浏览:125 回复:0

Spark RDDs vs DataFrames vs SparkSQL

null简介Spark的 RDD、DataFrame 和 SparkSQL的性能比较。2方面的比较单条记录的随机查找aggregation聚合并且sorting后输出使用以下Spark的三种方式来解决 ...
来自: 开发者社区 > 博客 作者: 橘子红了呐 浏览:5 回复:0

配置Hive Metastore - 实时计算Flink版

本文为你介绍如何在Flink全托管模式下配置 Hive Metastore功能 ...

是英雄还是狗熊?大数据那些事之SparkSQL

SparkSQL是Spark新推出来的一个模块。关于 SparkSQL的八卦其实知道的不多,但是技术上倒能说几句。早先我文章提到了Shark是个失败的作品。这个观点从Shark出来不久我就这样觉得了。 SparkSQL的论文承认Spark团队也认为 ...
来自: 开发者社区 > 博客 作者: 知与谁同 浏览:108 回复:0

为什么在spark1.0.0_cdh5.1.3中启用找不到SparkSQL?

我部署了cdh5.1.3,对应的spark组件版本是1.0.0,进bin目录没有发现 sparksql,看了一下官网的文档,感觉cloudera在spark1.0.0中去除了 sparksql,请问我除了升级cdh版本,还有其它方法吗? 如果要升级cdh,我是不是升级到5.3.2? 谢谢。 ...
来自: 开发者社区 > 论坛 作者: 木头201 浏览:153 回复:3

使用E-MapReduce Hive关联云HBase - E-MapReduce

本文介绍如何使用E-MapReduce(简称EMR)上的 Hive关联阿里云HBase的表。阿里云HBase需要借助外部 Hive对多表 ...

sparksql读取 parquet文件时候,进行表关联查询,可以像rdb那样使用索引进行部分文件读取么

sparksql读取 parquet文件时候,进行表关联查询,可以像rdb那样使用索引进行部分文件读取么 ...
来自: 开发者社区 > 问答 作者: hbase小能手 浏览:7 回复:1

Hive读写HBase指南 - 云数据库 HBase

云HBase支持使用 Hive读写数据,本文介绍如何配置 Hive读写HBase ...

Spark-SparkSQL深入学习系列九(转自OopsOutOfMemory)

_cachedColumnBuffers是否为null,如果不是null,则已经Cache了当前table,重复cache不会触发cache操作。2、child是SparkPlan,即执行 hive table scan,测试我拿sbt/sbt ...
来自: 开发者社区 > 博客 作者: 小金子 浏览:26 回复:0

使用Hive查询JindoFS上的数据 - E-MapReduce

Apache Hive是Hadoop生态中广泛使用的SQL引擎之一,让用户可以使用SQL实现分布式的查询, Hive中数据主要以 ...

Spark-SparkSQL深入学习系列六(转自OopsOutOfMemory)

方法,如果设置了spark.sql.join.broadcastTables这个参数的表(表面逗号隔开)  就会用spark的Broadcast Variables方式先将一张表给查询出来,然后广播到各个机器中,相当于 Hive中的map ...
来自: 开发者社区 > 博客 作者: 小金子 浏览:22 回复:0

Spark-SparkSQL深入学习系列二(转自OopsOutOfMemory)

;   3. apply方法分支:         3.1 如果sql命令是set开头的就调用SetCommand,这个类似 Hive里的参数设定,SetCommand其实是一个Catalyst里 ...
来自: 开发者社区 > 博客 作者: 小金子 浏览:25 回复:0

同步EMR Kafka数据至Hive - E-MapReduce

Flume同步EMR Kafka集群的数据至EMR Hadoop集群的 Hive ...

SparkSQL在有赞的实践

有赞数据平台从2017年上半年开始,逐步使用 <em>SparkSQL</em> 替代 <em>Hive</em> 执行离线任务,目前 <em>SparkSQL</em> 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 <em>Spa...

钉钉群直播【Migration to Apache Spark】

摘要:Spark因其统一引擎、性能、易用性等特点备受青睐,将大数据处理引擎迁移到Spark已经成为一种趋势(比如将<em>Hive</em>迁移到<em>SparkSQL</em>),很多大公司也正在实践。本次分享将围绕<em>Hive</em>迁移到<em>SparkSQL</em>进行展开,内...

SparkSQL ThriftServer 安全相关功能的现状分析

<em>SparkSQL</em> Thrift Server 是 Spark SQL基于 Apache <em>Hive</em>的 HiveServer2开发的,通过<em>SparkSQL</em> Thrift Server 可以使 Spark SQL支持 JDBC/ODBC 的连接方式,...

Spark(三) -- Shark与SparkSQL

第一,也是根本<em>SparkSQL</em>产生的根本原因,其完全脱离了<em>Hive</em>的限制 第二,<em>SparkSQL</em>支持查询原生的RDD,这点就极为关键了。RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础 第三,能够在Scala....

钉钉群直播【Migration to Apache Spark】

摘要:Spark因其统一引擎、性能、易用性等特点备受青睐,将大数据处理引擎迁移到Spark已经成为一种趋势(比如将<em>Hive</em>迁移到<em>SparkSQL</em>),很多大公司也正在实践。本次分享将围绕<em>Hive</em>迁移到<em>SparkSQL</em>进行展开,内...

SparkSQL DatasourceV2 之 Multiple Catalog

那该如何将这2者相结合,使得应用SparkSQL+Iceberg可以和<em>SparkSQL</em>+<em>Hive</em>一样方便,如,基于SQL直接访问数据或进行DDL操作: select c1 from iceberg_db.t;drop table iceberg_db.t;Spa...

倾情大奉送--Spark入门实战系列

这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件<em>SparkSQL</em>、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是...

倾情大奉送--Spark入门实战系列

这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件<em>SparkSQL</em>、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是...

SparkSQL的解析详解

<em>SparkSQL</em>继承自<em>Hive</em>的接口,由于<em>hive</em>是基于MapReduce进行计算的,在计算过程中大量的中间数据要落地于磁盘,从而消耗了大量的I/O,降低了运行的效率,从而基于内存运算的<em>SparkSQL</em>应运而生。首先说下传统数...

SparkSQL-从DataFrame说起

<em>SparkSQL</em> 历史回顾 对<em>SparkSQL</em>了解的童鞋或多或少听说过Shark,不错,Shark就是<em>SparkSQL</em>的前身。2011的时候,<em>Hive</em>可以说是SQL On Hadoop的唯一选择,负责将SQL解析成MR任务运行...
< 1 2 3 4 ... 69 >
共有69页 跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折
阿里云搜索结果产品模块_X-Pack Spark