文章 2017-11-16 来自:开发者社区

Spark入门实战系列--5.Hive(下)--Hive实战

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、Hive操作演示 1.1 内部表 1.1.1 创建表并加载数据 第一步   启动HDFS、YARN和Hive,启动完毕后创建Hive数据库 hive>create database hive; hive>show databases; h...

Spark入门实战系列--5.Hive(下)--Hive实战
文章 2017-11-16 来自:开发者社区

Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合...

Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战
文章 2017-11-08 来自:开发者社区

Spark入门实战系列--7.Spark Streaming(下)--实时流计算Spark Streaming实战

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、实例演示 1.1 流数据模拟器 1.1.1 流数据说明 在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据...

Spark入门实战系列--7.Spark Streaming(下)--实时流计算Spark Streaming实战

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

Apache Spark 中国技术社区

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,问答区数个 Spark 技术同学每日在线答疑,只为营造 Spark 技术交流氛围,欢迎加入!

+关注