问答 2024-01-17 来自:开发者社区

阿里云E-MapReduce的jindodata写数据到oss,是单线程还是多线程阿?

阿里云E-MapReduce的jindodata写数据到oss,是单线程还是多线程阿?

问答 2023-11-12 来自:开发者社区

阿里云E-MapReduce会 继续把之前write到本地磁盘的数据 异步上传到oss 是吗?

阿里云E-MapReduce如果flume客户端意外宕机了(没来的及close/flush),之后重新启动后,会 继续把之前write到本地磁盘的数据 异步上传到oss 是吗?

问答 2023-11-12 来自:开发者社区

阿里云E-MapReduce flush之前,write的数据是在哪里,客户端内存缓存吗?

阿里云E-MapReduce flush之前,write的数据是在哪里,客户端内存缓存吗,还是在磁盘上?

问答 2023-08-28 来自:开发者社区

阿里云E-MapReduce在文档中看到了把数据从EMR同步到oss的方法;请问是否有方法把oss?

阿里云E-MapReduce在文档中看到了把数据从EMR同步到oss的方法;请问是否有方法把oss数据同步到EMR,然后用workflow处理?

问答 2023-08-09 来自:开发者社区

阿里云E-MapReduce中用户实际使用这个的话,最大的同步历史数据条数/库数量/表数量是多少呢?

阿里云E-MapReduce中用户实际使用这个的话,最大的同步历史数据条数/库数量/表数量是多少呢?

文章 2023-08-04 来自:开发者社区

Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(二)

3、Join应用3.1 Reduce Join(1)Map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录。然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出。(2)Reduce端的主要工作:在Reduce端以连接字段作为key的分组已经完成,我们只需要在每一个分组当中将那些来源于不同文件的记录(在Map阶段已经打标志)分开,最后进行合并....

Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(二)
文章 2023-08-04 来自:开发者社区

Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)

1、OutputFormat数据输出1.1 OutputFormat接口实现类OutputFormat是MapReduce输出的基类,所以实现MapReduce输出都实现了OutputFormat接口。1、MapReduce默认的输出格式是TextOutputFormat2、也可以自定义OutputFormat类,只要继承就行。1.2 自定义OutputFormat案例实操1、需求过滤输入的 l....

Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
问答 2023-07-31 来自:开发者社区

有大佬在阿里云E-MapReduce线上用过Flink cdc CDAS 同步数据到SR的吗?

有大佬在阿里云E-MapReduce 线上用过 Flink cdc CDAS 从 mysql 分库分表同步数据到SR的吗?库和表比较多的话性能ok吗?

问答 2023-07-13 来自:开发者社区

阿里云E-MapReduce有ck大佬吗 ?现在dwd的数据都放在了ck 而且都是有变化的数据 导?

阿里云E-MapReduce有ck大佬吗 ?现在dwd的数据都放在了ck 而且都是有变化的数据 导致每次查ck的数据是要加final或者要先聚合一遍 数据量上来了就导致非常慢 请问大佬们有什么好办法吗 ?感觉是我这边没把ck用好

问答 2023-07-13 来自:开发者社区

阿里云E-MapReduce clickhouse消费kafka的数据 kafka发生重启 ?

阿里云E-MapReduce clickhouse消费kafka的数据 kafka发生重启 clickhouse消费可能丢数据 有啥参数可以配置? 各位大神有遇到吗

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

阿里云E-MapReduce

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

+关注