阿里云搜索结果产品模块_X-Pack Spark

[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子

null[ Spark][ Hive][Python][SQL] Spark 读取 Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx$ hive hive&gt ...
来自: 开发者社区 > 博客 作者: 嗯哼9925 浏览:8 回复:0

大佬们咨询个问题,就是使用Spark On Hive时,动态的将数据插入到Hive中,但是在Hive的数据表下会有很多文件,这个可以怎么设置一下呢

大佬们咨询个问题,就是使用 Spark On Hive时,动态的将数据插入到 Hive中,但是在 Hive的数据表下会有很多文件,这个可以怎么设置一下呢 ...
来自: 开发者社区 > 问答 作者: 社区小助手 浏览:11 回复:2

Apache Spark源码走读(四)Hive on Spark运行环境搭建 &hiveql on spark实现详解

; Hive on Spark运行环境搭建楔子 Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎 ...
来自: 开发者社区 > 博客 作者: 许鹏 浏览:1931 回复:0
推荐

阿里云高校特惠,助力学生创业梦!0元体验,快速入门云计算!

建个炫酷的简历网页,制作一个浪漫的表白网页,打造个人专属网盘,多种动手场景应用免费学!!!
广告

一个5g的表,在hive和spark查询的用时。在本地导入hive的用时是否过长??

将一个5G的employee_100big.txt从本地导入 hive里面,用了700S的时间,这样速度如何?同时在 hivespark-sql分别测试了对全表做sum操作的所有时间。 employee_100big的数据是如下数据不断的重复: 1 ...
来自: 开发者社区 > 论坛 作者: 儿童节的礼物 浏览:158 回复:1

请问:spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作hive 的分区分桶表麻烦吗?

请问: spark 处理 hive 仓库数据,用sparksql 好?还是hivesql好?sparksql 操作 hive 的分区分桶表麻烦吗? ...
来自: 开发者社区 > 问答 作者: hbase小能手 浏览:6 回复:1

[Spark][Hive]外部文件导入到Hive的例子

null外部文件导入到 Hive的例子:[training@localhost ~]$ cd ~[training@localhost ~]$ pwd/home/training[training@localhost ...
来自: 开发者社区 > 博客 作者: 嗯哼9925 浏览:4 回复:0

如何配置hive,使hive能使用spark引擎

大家好:          我在使用 hive时,把 hive的执行引擎配置为 spark,如图, hive 配置.png (14.05 KB, 下载次数: 2) 下载附件  保存到相册 ...
来自: 开发者社区 > 论坛 作者: 公主的蔷薇rain 浏览:228 回复:3

[Spark][Hive]Hive的命令行客户端启动:

null[ Spark][ Hive] Hive的命令行客户端启动:[training@localhost Desktop]$ chkconfig hive-metastore 0:off 1:off 2:off 3:on 4:on 5:on 6 ...
来自: 开发者社区 > 博客 作者: 嗯哼9925 浏览:5 回复:0

Spark入门实战系列--5.Hive(下)--Hive实战

null【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送-- Spark入门实战系列》获取1、 Hive操作演示1.1&内部表1.1.1&创建表并加载数据第一步&&&启动HDFS、YARN ...
来自: 开发者社区 > 博客 作者: 技术小甜 浏览:11 回复:0

Apache Spark源码走读之12 -- Hive on Spark运行环境搭建

问题导读   如何搭建 Hive On Spark的测试环境? 楔子 Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析 ...
来自: 开发者社区 > 论坛 作者: 飞天小珠 浏览:153 回复:1

大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)

;内存计算中的 Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的 ...
来自: 开发者社区 > 博客 作者: 桃子红了呐 浏览:9 回复:0

Hive数据分析——Spark是一种基于rdd(弹性数据集)的内存分布式并行处理框架,比于Hadoop将大量的中间结果写入HDFS,Spark避免了中间结果的持久化

使用和优化 Hive的根本。技术的发展日新月异,随着 Spark的日益完善和流行, hive社区正考虑将 spark作为 hive的执行引擎之一。 Spark是一种基于rdd(弹性数据集)的内存分布式并行处理框架,内部集成了 Spark SQL模块来实现对结构化数据 ...
来自: 开发者社区 > 博客 作者: 桃子红了呐 浏览:12 回复:0

spark编程,使用java开发调用spark的执行hive的sql查询或insert操作

); HiveContext sqlContext = new org.apache. spark.sql. hive.HiveContext(sc.sc); } 其中的org.apache. spark.sql. hive.HiveContext没有这个class文件呀,这个jar该去哪找? 有没有java方面的在 spark中调用执行 hive的sql的demo? 谢谢大神~! ...
来自: 开发者社区 > 论坛 作者: 今天很高兴 浏览:231 回复:2

How to configue session timeout in Hive

article explains how to configure the following settings in Hive: hive.server2. session.check.intervalhive.server2.idle.operation ...
来自: 开发者社区 > 博客 作者: @dailidong@ 浏览:24 回复:0

请问Flink on Yarn的模式是否需要部署Flink 集群?个人理解下来,Flink on Yarn会从启动session的节点上传jar和配置文件,但是每次想到spark on yarn部署了集群心里总是不安。还请在生产中使用Flink的前辈确认一下,谢谢!

转自钉钉群21789141:Flink on Yarn的模式是否需要部署Flink 集群?个人理解下来,Flink on Yarn会从启动 session的节点上传jar和配置文件,但是每次想到 spark on yarn部署了集群心里总是不安。还请在生产中使用Flink的前辈确认一下,谢谢! ...
来自: 开发者社区 > 问答 作者: 赵慧 浏览:8 回复:1

Spark-1.3.1与Hive整合实现查询分析

.6 (Final)JDK-1.7.0_25Maven-3.2.1Hadoop-2.2.0 Spark-1.3.1 Hive-0.12.0MySQL-Server-5.5.8另外还要搭建好Hadoop集群,以及安装配置好 Hive客户端 ...
来自: 开发者社区 > 博客 作者: shiyanjuncn 浏览:1783 回复:0

一文读懂Hadoop、HBase、Hive、Spark分布式系统架构

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算, spark用于分布式机器学习, hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs ...
来自: 开发者社区 > 博客 作者: 行者武松 浏览:280 回复:0

idea上运行local的spark sql hive

问题导读 1、idea上运行local的 spark sql hive流程是怎样的? 2、如何安装配置安装 remote metastore? 3、如何解决org.apache. spark的问题? 在本机上通过idea跑 spark sql进行 hive查询等 ...
来自: 开发者社区 > 论坛 作者: 纠结的小鸟 浏览:692 回复:2

SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid

MapReduce、TeZ 或者 Spark 引擎去执行查询,而且它并不运行SQL,而是HiveQL,一种类似SQL 的语言,非常接近SQL。“SQL-in-Hadoop” 也不适用,虽然 Hive 和Impala 主要使用Hadoop,但是 Spark ...
来自: 开发者社区 > 博客 作者: 桃子红了呐 浏览:8 回复:0

Spark-1.3.1与Hive

问题导读 1. Spark为什么减少了读写磁盘I/O操作带来的延时? 2. Spark+ Hive整合是在执行hsql的时候是转换成RDD还是mapreduce? 3. Spark+ Hive如何实现整合? 在大数据应用场景下,使用过 Hive做查询统计分析的应该 ...
来自: 开发者社区 > 论坛 作者: 卡洛米 浏览:181 回复:1
< 1 2 3 4 ... 1503 >
共有1503页 跳转至: GO
产品推荐
Databricks 数据洞察 云服务器 物联网无线连接服务 商标 SSL证书 短信服务 对象存储 负载均衡SLB
这些文档可能帮助您
什么是Databricks数据洞察 Databricks数据洞察快速使用 Notebook概述 管理Notebook 使用Notebook 查看数据库信息

新品推荐

你可能感兴趣

热门推荐

阿里云企典 企典文档内容 阿里云云电脑-无影 行业资讯 云通信网络加速 三维空间重建 系统可信
阿里云搜索结果产品模块_X-Pack Spark