问答 2022-02-15 来自:开发者社区

如何计算和获取Spark Dataframe中唯一ID的值总和?

我有以下Dataframe,我希望按ID汇总,并为每个唯一ID总和'value'列:import org.apache.spark.sql.functions._import spark.implicits._// some data...val df = Seq( (1, 2), (1, 4), (1, 1), (2, 2), (2, 2), (3, 2), (3, 1), (...

问答 2022-02-15 来自:开发者社区

计算`Spark Dataframe的连续行上的编辑距离

我有一个数据框如下: import org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.Columnimport org.apache.spark.sql.functions._import spark.implicits._ // some data...val df = Seq( (1, "AA", "BB".....

问答 2022-02-15 来自:开发者社区

如何计算数据框每行中缺失值的数量-spark scala?

我想计算spark scala中数据帧每行中缺失值的数量。码:val samplesqlDF = spark.sql("SELECT * FROM sampletable")samplesqlDF.show()输入数据帧:------------------------------------------------------------------| name | age...

问答 2022-02-15 来自:开发者社区

计算spark数据帧中真假条件的数量

MATLAB背景,我可以简单地做到这一点 age_sum_error = sum(age > prediction - 4 & age 这将计算为真的age值的数量prediction (+4/-4),我想在spark数据框中做类似的事情。 假设下面是我的spark数据框 age gender prediction 35 M 30 40 F 42 45 F 38 26 F ...

问答 2022-02-15 来自:开发者社区

如何计算spark Scala中2行之间的时间差

我试图在两行相同的列之间找到时间,包括日期和时间,如下所示,column1 1/1/2017 12:01:00 AM1/1/2017 12:05:00 AM 所以我想得到column1的第1行和第2行的两行之间的时间变化,因为它们都属于同一个日期。请让我知道实现它的最佳方法是什么?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注