文件存储 HDFS

阿里云文件存储HDFS(Apsara File Storage for HDFS)是面向阿里云ECS实例及容器服务等计算资源的文件存储服务。文件存储HDFS允许您就像在Hadoop分布式文件系统(Hadoop Distributed File System)中管理和访问数据。您无需对现有大数据分析...

数据库文件存储

数据库文件存储(DBFS),是一款针对数据库场景的云原生共享文件存储服务。它基于共享存储架构设计,通过文件协议提供数据库定制功能,具备企业级存储特性。主要服务于云上自建数据库,基于传统SAN的应用等,为用户提供极致IO性能和高可用...

文件存储HDFS上使用Presto

Presto中以maven-shade-plugin的方式引入了Hadoop,使用relocation的方式对引入的Hadoop jar包地址进行重命名,因为文件存储HDFS的sdk与Hadoop共用了protobuf-xxx.jar包,在Presto通过hive metastore读取文件存储HDFS上的数据时,文件存储...

文件存储 NAS

阿里云文件存储NAS是一个可共享访问,弹性扩展,高可靠,高性能的分布式文件系统。兼容POSIX文件接口,可支持上千台弹性计算ECS、容器服务ACK等计算节点共享访问,您无需修改应用程序,即可无缝迁移业务系统上云。

Hive连接器

背景信息 Hive数仓系统由以下三部分内容组成:不同格式的数据文件,通常存储在Hadoop分布式文件系统(HDFS)或对象存储系统(例如,阿里云OSS)中。存储着数据文件到Schema和Table映射的元数据。该元数据存储在数据库(例如,MySQL)中,并...

文件存储 CPFS

CPFS(Cloud Paralleled File System)是一种并行文件系统。CPFS的数据存储在集群中的多个数据节点,并可由多个客户端同时访问,从而能够为大型高性能计算机集群提供高IOPS、高吞吐、低时延的数据存储服务。

管理Hive Metastore

因此您要保证vvp和flink这两个用户都有访问Hive元数据和文件系统(例如HDFS)上的Hive表数据的权限。一个Flink全托管实例仅支持一个Hive Metastore,多项目无法设置多Hive Metastore。Hive Metastore只读,即您不能通过Flink全托管开发控制...

创建Hive数据源

创建Hive数据源用于实现Dataphin能够读取Hive的业务数据,及能够向Hive写入数据。在引入Hive的业务数据至Dataphin和将Dataphin的数据写入至Hive的场景中,您需要先创建Hive数据源。本文为您介绍如何创建Hive类型的数据源。背景信息 Hive是...

配置CDH6使用文件存储HDFS

本文介绍如何配置CDH上的HDFS服务、HIVE服务、SPARK服务、HBase服务来使用文件存储HDFS。前提条件 已完成数据迁移,详情请参见CDH6数据迁移。配置HDFS服务 配置链接。在系统主页,选择配置>高级配置代码段,进入高级配置代码段页面。...

使用Hive访问

本章节主要介绍如何使用hive访问文件引擎。准备工作开通文件引擎,详情请参见 开通指南。在计算节点上安装JDK,版本不能低于1.8。下载 Apache Derby,下载地址:官网地址,本文档中使用的Apache Derby 版本为 10.13.1.1。下载Hive压缩包,...

配置Hive数据源

当底层存储为OSS时,请注意以下问题:defaultFS的配置请以oss:/为前缀。例如,`oss:/IP:PORT`或`oss:/nameservice`。您需要在高级参数中配置连接OSS服务时需要的参数,示例如下。{&"hiveConfig":{&"fs.oss.accessKeyId":"<...

迁移开源HDFS的数据到文件存储HDFS

本文档介绍如何将开源HDFS的数据平滑地迁移到文件存储HDFS。背景信息 当前业界有很多公司是以Hadoop技术构建数据中心,而越来越多的公司和企业希望将业务顺畅地迁移到云上。文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许...

配置E-MapReduce服务使用文件存储HDFS

本文介绍如何配置E-MapReduce上的HDFS服务、HIVE服务、SPARK服务、HBase服务来使用文件存储HDFS。前提条件 已完成数据迁移,详情请参见E-MapReduce数据迁移。配置HDFS服务 登录阿里云 E-MapReduce 控制台。在集群管理页面,找到需要挂载...

对象存储 OSS

对象存储服务(Object Storage Service,OSS)是一种海量、安全、低成本、高可靠的云存储服务,适合存放任意类型的文件。容量和处理能力弹性扩展,多种存储类型供选择,全面优化存储成本。

环境准备

export HADOOP_HOME=data/hadoop/hadoop-2.6.0 export PATH=$PATH:$HADOOP_HOME/bin 下载及安装Hive环境 下载类型为bin.tar.gz的Hive安装包,具体下载路径请参见Hive安装包。按照如下示例解压安装包。mkdir/home/admin/hive-2.1.0$tar-zxvf...

存储网关

存储网关,是一款可在用户IDC和阿里云上部署的软网关,以阿里云OSS为后端存储,通过低成本的虚拟机服务器,给云上和云下应用提供业界标准的NFS和CIFS文件存储服务。

EMR Hive功能增强

本文为您介绍E-MapReduce(简称EMR)各版本对应的Hive组件版本,以及各版本中Hive相对开源增强的功能。Hive针对开源功能增强的功能如下表。EMR版本 组件版本 功能增强 EMR-5.2.1 Hive 3.1.2 修复使用DLF元数据执行show create table命令,...

Hive授权

hadoop fs-chmod 1771/user/hive/warehouse 也可以通过如下命令配置,其中1表示stick bit(不能删除别人创建的文件或文件夹)。hadoop fs-chmod 1777/user/hive/warehouse 执行以下命令,切换为has用户。sudo su has 修改用户或用户组的...

HDFS Writer

是 无 fileType 文件的类型,目前仅支持您配置为text、orc和parquet:text:表示Hive中的存储表,TextFile文件格式。orc:表示Hive中的压缩表,ORCFile文件格式。parquet:表示普通Parquet File文件格式。是 无 path 存储到Hadoop HDFS文件...

混合云存储阵列

混合云阵列(Hybrid Cloud Storage Array)是部署在IDC的一款硬件存储设备,提供本地文件和块存储服务,并且可以无缝的将数据迁移到云端。

使用Presto访问

说明 本文中Presto是通过连接Hive的元数据服务来读取文件存储HDFS上的数据,在文件引擎上使用Presto时需要额外配置一些依赖包,详细操作步骤请参见配置Presto。准备工作搭建和使用Presto读写文件引擎,需要先完成以下准备工作。开通文件...

通过Hive访问HBase增强版

将访问HBase的Hive机器IP加入HBase白名单所有访问HBase的Hive机器的IP,必须加入HBase集群的白名单中,否则无法访问,添加白名单请参考设置白名单。在Hive中配置连接参数在Hive中配置连接HBase的参数有两种方式,一种是直接配置在hive-site...

Hive Reader

您可以基于HDFS文件和Hive JDBC两种方式读取数据:基于HDFS文件读取数据 Hive Reader插件通过访问HiveMetastore服务,解析出您配置的数据表的HDFS文件存储路径、文件格式、分隔符等信息后,再通过读取HDFS文件的方式读取Hive中的表数据。...

开启native查询加速

JindoTable通过Native Engine,支持对Spark、Hive或Presto上ORC或Parquet格式文件进行加速。本文为您介绍如何开启native查询加速,以提升Spark、Hive和Presto的性能。前提条件 已创建集群,且ORC或Parquet文件已存放至JindoFS或OSS,创建...

管理Hive组件

本文为您介绍如何配置、复制、删除Hive组件。背景信息 Hive输出组件适用于将Dataphin加工后的数据写入至Hive数据库,进行数据消费的场景。配置属性 登录Dataphin控制台。在Dataphin控制台页面,选择工作区地域后,单击进入Dataphin>gt;...

通过Hive访问Lindorm

连接前的准备 获取连接地址 获取用户名密码 将访问Lindorm的Hive机器IP加入白名单 所有访问Lindorm的Hive机器的IP,必须加入Lindorm集群的白名单中,否则无法访问,添加白名单请参见设置白名单。在Hive中配置连接参数 在Hive中配置连接...

管理Hive组件

本文为您介绍如何配置、复制、删除Hive组件及如何选择数据的发送方式。背景信息 Hive输入组件适用于从Hive中读取数据至Dataphin平台,进行数据的整合和再加工的场景。配置属性 登录Dataphin控制台。在Dataphin控制台页面,选择工作区地域后...

Hive作业调优

Hive的文件基本上都是存储在HDFS上,而HDFS上的文件,都是分块的,所以具体的Hive数据文件在HDFS上分多少块,可能对应的是默认Hive起始的Task的数量,使用default_mapper_num参数表示。使用数据总大小除以dfs默认的最大块大小来决定初始...

Hive概述

Hive MetaStore 元数据管理模块,此模块被其他引擎所依赖,用于存储Database和Table等元信息。例如,Spark和Presto均依赖此模块作为其元数据管理。Hive Client Hive客户端,直接利用该客户端提交SQL作业,根据其设置运行引擎配置,可以将...

Hive访问EMR Phoenix数据

本文通过示例为您介绍如何使用EMR上的Hive处理EMR Phoenix数据。前提条件 已创建Hadoop集群,并且选择了HBase、Zookeeper和Phoenix服务,详情请参见创建集群。说明 因为当前EMR-4.x和EMR-5.x系列版本未支持Phoenix服务,所以此文档仅适用于...

准备工作

使用闪电立方从HDFS上传数据到OSS时,存储路径格式为oss:/bucket_name/database_name/table_name/partition_name/。说明 MMA2.0默认以2.0新数据类型创建表(即set odps.sql.type.system.odps2=true;详情请参见2.0数据类型版本。基于...

Hive访问EMR HBase数据

本文通过示例为您介绍,如何使用EMR上的Hive处理EMR HBase数据。前提条件 已创建Hadoop集群,并且选择了HBase和Zookeeper服务,详情请参见创建集群。Hive通过内表访问HBase 如果HBase中没有已经创建好的表,则可以在Hive中创建表,Hive会...

开源地理空间UDF

cp hive/target/spatial-sdk-hive-2.1.1-SNAPSHOT.jar./spatial-sdk-hive.jar 执行如下命令下载项目所依赖的JAR包。wget ...

与MySQL、Oracle内建函数对照表

函数类型 MaxCompute HIVE MySQL Oracle 在MaxCompute SQL中是否支持分区剪裁 日期函数 DATEDIFF DATEDIFF DATEDIFF MONTHS_BETWEEN MaxCompute模式下:支持。Hive模式下:不支持。DATE_ADD DATE_ADD DATE_ADD 无 MaxCompute模式下:不支持...

概览

文件存储HDFS SDK实现了Hadoop FileSystem 接口,提供一种Hadoop兼容的文件系统,对外输出为一个单独的JAR文件,即aliyun-sdk-dfs-x.y.z.jar。借助该SDK,Apache Hadoop的计算分析应用(如MapReduce、Hive、Spark、Flink等)可以无需修改...

在EMR集群运行TPC-DS Benchmark

cd~/hive-testbench spark-beeline-u jdbc:hive2:/emr-header-1:10001/tpcds_bin_partitioned_orc_$SF \-f./ddl-tpcds/bin_partitioned/analyze.sql 切换到Spark SQL用例所在的文件目录。cd spark-queries-tpcds/执行SQL。通过以下命令执行...

安装和配置

thrift_addr=*Hive Metastore Service的Thrift地址*/table_mapping.txt该配置文件呈现待迁移Hive表与MaxCompute表的对应关系,文件中每一行对应一个Hive表到MaxCompute表的迁移任务。格式如下。lt;hive db>lt;hive table>lt;...

Hive配置

权限设置:Hive官方自带的Hive授权针对HiveServer2使用场景进行权限控制。Ranger中对Hive的表或列级别的权限控制也是针对HiveServer2的使用场景。如果您还可以通过Hive Client或者HDFS访问Hive数据,仅对表或列层面做权限控制还不够,需要...

Hive作业配置

在页面左侧,在需要操作的文件夹上单击右键,选择新建作业。在新建作业对话框中,输入作业名称和作业描述,从作业类型下拉列表中选择Hive作业类型。表示创建的作业是一个Hive作业。这种类型的作业,实际是通过以下方式提交Hive作业运行。...

Hive开发手册

本文介绍如何在E-MapReduce集群中开发Hive作业流程。在Hive中使用OSS 在Hive中读写OSS时,先创建一个external的表。CREATE EXTERNAL TABLE eusers(userid INT)LOCATION 'oss:/emr/users';当上面的方式无法支持,或者您希望使用非本账号的...
< 1 2 3 4 ... 200 >
跳转至: GO

新品推荐

你可能感兴趣

热门推荐

新人福利专场 阿里云试用中心 企业支持计划 飞天会员助力企业低成本上云 智能财税30天免费试用 云解析DNS新用户首购低至36元/年起 ECS限时升级特惠6.5折