SparkMLlib-Advanced-Topics

发表于 2018-01-23 | 分类于 Spark > MLlib | | 热度: ℃

字数统计: 823

线性方法的优化

三种线性方法的优化方法：

SparkMLlib-ML-Tuning

发表于 2018-01-23 | 分类于 Spark > MLlib | | 热度: ℃

字数统计: 2,005

模型选择, 超参调整

ML Tuning: model selection(模型选择) and hyperparameter tuning(超参调整)
本节介绍如何使用MLlib的工具来调整ML算法和管道。内置的交叉验证和其他工具允许用户优化算法和管道中的超参数。

发表于 2018-01-23 | 分类于 Spark > MLlib | | 热度: ℃

字数统计: 873

Frequent Pattern Mining

Frequent Pattern Mining：频繁项目，项目集，子序列或其他子结构的挖掘通常是分析大规模数据集的第一步，这已经成为数据挖掘领域的一个活跃的研究课题。我们将用户引用到Wikipedia的关联规则学习中以获取更多信息。

发表于 2018-01-22 | 分类于 Spark > MLlib | | 热度: ℃

字数统计: 1,748

推荐算法

协同过滤常被用于推荐系统。这类技术目标在于填充“用户－商品”联系矩阵中的缺失项。Spark.ml目前支持基于模型的协同过滤，其中用户和商品以少量的潜在因子来描述，用以预测缺失项。Spark.ml使用交替最小二乘（ALS）算法来学习这些潜在因子。

发表于 2018-01-22 | 分类于 Spark > MLlib | | 热度: ℃

字数统计: 2,301

聚类算法

本节介绍MLlib中的聚类算法(KMeans, LDA, GMM)。在基于RDD-API聚类指南里还提供了有关这些算法的相关信息。