本节涵盖分类和回归算法。它还包括讨论特定类别算法的部分,例如线性方法,树和集成方法。
SparkMLlib-Working-with-Features
Extracting, Transforming and Selecting features(特征的提取、转换、选择)
本节介绍用于处理特征的算法,大致分为以下几组:
- Extraction(提取):从“原始”数据中提取特征
- Transformation(转换):缩放,转换或修改特征
- Selection(选择):从一大组特征集中选择一个子集
- Locality Sensitive Hashing局部敏感散列(LSH):这类算法将特征变换的各个方面与其他算法相结合。
SparkMLlib-Pipeline
Spark中的管道pipeline
ML Pipelines
管道中的主要概念
MLlib对机器学习算法的API进行了标准化,使得将多种算法合并成一个流水线或工作流变得更加容易。本部分涵盖了Pipelines API引入的关键概念,其中流水线概念主要受scikit-learn项目的启发。
DataFrame:这个ML API使用Spark SQL中的DataFrame作为一个ML数据集,它可以容纳各种数据类型。例如,一个DataFrame可以具有存储文本,特征向量,真实标签和预测的不同列。
Transformer:一个Transformer是可以将一个DataFrame变换成成另一个DataFrame的算法。例如,一个ML模型是一个Transformer将一个DataFrame特征转化为一个DataFrame预测的模型。
Estimator:一个 Estimator是一个可以被应用在DataFrame上来产生一个Transformer的算法。例如,一个学习算法是一种Estimator,它可以在DataFrame上训练并生成模型。
Pipeline:Pipeline将多个Transformers和Estimators连接起来以指定ML工作流程。
Parameter:所有Transformers和Estimators现在对于指定参数共享通用API。
SparkMLlib-Basic
机器学习裤(MLlib)指南
MLlib是Spark的机器学习库,可让实际的机器学习容易和可扩展,它提供了如下工具:
ML算法:通用学习算法,如分类,回归,聚类和协同过滤
特征提取,特征提取,转换,降维和选择
管道:用于构建,评估和调整ML管道的工具
持久性:保存和加载算法,模型和管道
实用程序:线性代数,统计,数据处理等