文章 2022-10-09 来自:开发者社区

SPARK Parquet嵌套类型的向量化支持以及列索引(column index)

背景本文基于Spark 3.3.0列式存储Parquet文件越来越受到工业界的青睐,在delta以及Spark中应用广泛,具体的项目见:parquet-mr分析Parquet格式关于parquet的格式存储以及读取,可以参考大数据列存标准格式 - Parquet,总结一下就是:Parquet采用类似Protobuf的协议来描述数据的Schema,字段的描述有三种(逻辑上):required 有.....

SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
文章 2022-06-14 来自:开发者社区

云计算集群搭建记录[Hadoop|Zookeeper|Hbase|Spark | Docker]更新索引 |动态更新

为了能够更好的查看所更新的文章,讲该博文设为索引小约定为了解决在编辑文件等操作的过程中的权限问题,博主一律默认采用root账户登录对于初次安装的用户可以采用如下命令行:sudo passwd root 输入当前用户密码之后,然后输入想要更改的密码 退出登陆之后就可以使用root登录了 另外推荐一款终端工具:Tabby,既能够连接自己的服务器,也能够连接自己本地的虚拟机,还能够进行SFTP文件的传....

云计算集群搭建记录[Hadoop|Zookeeper|Hbase|Spark | Docker]更新索引 |动态更新
文章 2020-08-25 来自:开发者社区

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

主题: OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能 直播时间: 8月27日 19:00 观看方式: 届时进入直播间(回看链接也是这个):https://developer.aliyun.com/live/43848?spm=5176.8068049.0.0.27366d19Q1XzyT 或扫描下方钉钉群二维码进群观看 讲师介绍: 陈海锋,英特尔亚太研发有限公司大数据部门的高....

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】
文章 2020-08-21 来自:开发者社区

Spark访问多元索引-快速开始

本文介绍如何在E-MapReduce集群中使用Spark SQL访问表格存储的多元索引。 前置准备 创建E-MapReduce Hadoop集群,步骤参见E-MapReduce快速入门。创建时挂载公网地址,用于后续的Shell远程登陆。 步骤一 创建Tablestore表和多元索引 创建Tablestore源表详细开通步骤请参考官方文档,本文demo中所创建出来的表名为geo_table, 主.....

Spark访问多元索引-快速开始
文章 2020-08-21 来自:开发者社区

Spark访问多元索引-细则剖析

背景 表格存储可以为Spark提供KV查询(主表,全局二级索引表)、多元索引查询两套数据访问方式,以支持海量结构化数据快速读写和丰富的SQL查询分析能力。其分布式存储的特点和强大的索引引擎能够支持PB级存储、千万TPS以及毫秒级延迟的服务能力。 KV访问方式指的是主表和全局二级索引访问方式,其中主表指的是Tablestore的源数据主表,全局二级索引和多元索引的介绍见文章海量结构化数据存储技术揭....

Spark访问多元索引-细则剖析
问答 2019-08-22 来自:开发者社区

请问有人知道通过spark写phoenix 带索引的表,写的很慢有没有相关的优化方法呢?

本问题来自阿里云开发者社区的【11大垂直技术领域开发者社群】。https://developer.aliyun.com/article/706511 点击链接欢迎加入感兴趣的技术领域群。

问答 2019-08-12 来自:开发者社区

通过spark写入phoenix,同时构建索引,之后有节点掉,还有死掉的core,是因为集群问题?

本问题来自阿里云开发者社区的【11大垂直技术领域开发者社群】。https://developer.aliyun.com/article/706511 点击链接欢迎加入感兴趣的技术领域群。

文章 2017-12-12 来自:开发者社区

[Spark][Python]Spark Python 索引页

Spark Python 索引页 为了查找方便,建立此页 === RDD 基本操作:    [Spark][Python]groupByKey例子 本文转自健哥的数据花园博客园博客,原文链接:http://www.cnblogs.com/gaojian/p/spark_python_index.html,如需转载请自行联系原作者

文章 2017-02-20 来自:开发者社区

【Spark Summit East 2017】WalmartLabs近实时搜索索引的Lambda处理

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Snehal Nagmote在Spark Summit East 2017上的演讲,WalmartLabs每天都在获取数以百万计的产品信...

文章 2017-02-20 来自:开发者社区

【Spark Summit East 2017】工程快速索引

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps。 本讲义出自Daniel Lemire在Spark Summit East 2017上的演讲,主要介绍了当代计算机硬件提供了大量新的性能的机会。然而...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注