问答 2019-05-05 来自:开发者社区

请教一下,delta是不是可以理解为,是基于hdfs的行级别的数据库?然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制?

delta是不是可以理解为,是基于hdfs的行级别的数据库?然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制?

文章 2019-04-07 来自:开发者社区

如何从根源上解决 HDFS 小文件问题

我们知道,HDFS 被设计成存储大规模的数据集,我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据(比如文件由哪些块组成、这些块分别存储在哪些节点上)全部都是由 NameNode 节点维护,为了达到高效的访问, NameNode 在启动的时候会将这些元数据全部加载到内存中。而 HDFS 中的每一个文件、目录以及文件块,在 NameNode 内存都会有记录,每一条信....

问答 2019-03-28 来自:开发者社区

大佬们,请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的?

大佬们,请教下structed streaming 时 checkpoint 频繁在HDFS写小文件,这个一般是怎么处理的?

问答 2019-01-30 来自:开发者社区

使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达百万级别 ,这个怎么优化下

请教各位大神们: 使用spark 2.3 structed streaming 时 checkpoint 频繁在HDFS写小文件,块数到达千万级别 ,这个怎么优化下

问答 2018-12-12 来自:开发者社区

想了解Spark ShuffleMapTask计算的输出文件,是如何把大于内存的输入数据(HDFS数据源)进行合并相同key,并进行排序的

[问题]).ShuffleMapTask输出数据文件前,key合并,和排序是如何做到的,如果数据远大于内存?).SPARK 1.6.0-cdh5.15.0[复现]).scala worldcount: val distFile:org.apache.spark.rdd.RDD[String] = sc.textFile("hdfs://standalone.com:9000/opt/data...

文章 2018-12-09 来自:开发者社区

Spark HadoopRDD读取HDFS文件

Spark HadoopRDD读取HDFS文件 更多资源 SPARK 源码分析技术分享(bilibilid视频汇总套装视频): https://www.bilibili.com/video/av37442139/ github: https://github.com/opensourceteams/spark-scala-maven csdn(汇总视频在线看): https://blog....

问答 2018-12-06 来自:开发者社区

Flink 1.6 bucketing sink HDFS文件卡在.in-progress中

我正在将Kafka数据流写入HDFS路径中的bucketing sink。卡夫卡发出了字符串数据。使用FlinkKafkaConsumer010从Kafka使用-rw-r--r-- 3 ubuntu supergroup 4097694 2018-10-19 19:16 /streaming/2018-10-19--19/_part-0-1.in-progress-rw-r--r-- ...

问答 2018-12-05 来自:开发者社区

spark-submit --files hdfs://文件在驱动程序的/ tmp中缓存

我正在运行这样的spark-submit:spark-submit --deploy-mode client --master yarn --conf spark.files.overwrite=true --conf spark.local.dir='/my/other/tmp/with/more/space' --c...

问答 2018-11-28 来自:开发者社区

如何使用Apache Flink读取HDFS中的parquet文件?

我只找到TextInputFormat和CsvInputFormat。那么如何使用Apache Flink在HDFS中读取parquet文件?

问答 2018-10-18 来自:开发者社区

大家好,业务场景是这样的,从kafka拉来的数据需要对原始日志进行备份,使用 BucketingSink bk=new BucketingSink("hdfs-path");写入HDFS,不同的文件写入不同的目录,有性能问题吗,每个新到的文件就新new一个BucketingSink,

转自钉钉群21789141:大家好,业务场景是这样的,从kafka拉来的数据需要对原始日志进行备份,使用BucketingSink bk=new BucketingSink("hdfs-path");写入HDFS,不同的文件写入不同的目录,有性能问题吗,每个新到的文件就新new一个BucketingSink

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

云存储

阿里云存储基于飞天盘古2.0分布式存储系统,产品多种多样,充分满足用户数据存储和迁移上云需求。

+关注