SparkMLlib-Classification-and-Regression

发表于 2018-01-22 | 分类于 Spark > MLlib | | 热度: ℃

字数统计: 9,335

本节涵盖分类和回归算法。它还包括讨论特定类别算法的部分，例如线性方法，树和集成方法。

SparkMLlib-Working-with-Features

发表于 2018-01-21 | 分类于 Spark > MLlib | | 热度: ℃

字数统计: 13,773

Extracting, Transforming and Selecting features(特征的提取、转换、选择)

本节介绍用于处理特征的算法，大致分为以下几组：

发表于 2018-01-19 | 分类于 Spark > MLlib | | 热度: ℃

字数统计: 2,810

Spark中的管道pipeline

ML Pipelines

MLlib对机器学习算法的API进行了标准化，使得将多种算法合并成一个流水线或工作流变得更加容易。本部分涵盖了Pipelines API引入的关键概念，其中流水线概念主要受scikit-learn项目的启发。

DataFrame：这个ML API使用Spark SQL中的DataFrame作为一个ML数据集，它可以容纳各种数据类型。例如，一个DataFrame可以具有存储文本，特征向量，真实标签和预测的不同列。
Transformer：一个Transformer是可以将一个DataFrame变换成成另一个DataFrame的算法。例如，一个ML模型是一个Transformer将一个DataFrame特征转化为一个DataFrame预测的模型。
Estimator：一个 Estimator是一个可以被应用在DataFrame上来产生一个Transformer的算法。例如，一个学习算法是一种Estimator，它可以在DataFrame上训练并生成模型。
Pipeline：Pipeline将多个Transformers和Estimators连接起来以指定ML工作流程。
Parameter：所有Transformers和Estimators现在对于指定参数共享通用API。