cgDeepLearn

More than code


  • 首页

  • 分类

  • 最热

  • 标签

  • 归档

  • 关于

  • 搜索

SparkMLlib-Classification-and-Regression

发表于 2018-01-22 | 分类于 Spark > MLlib | | 热度: ℃
字数统计: 9,335

本节涵盖分类和回归算法。它还包括讨论特定类别算法的部分,例如线性方法,树和集成方法。

阅读全文 »

SparkMLlib-Working-with-Features

发表于 2018-01-21 | 分类于 Spark > MLlib | | 热度: ℃
字数统计: 13,773

Extracting, Transforming and Selecting features(特征的提取、转换、选择)

本节介绍用于处理特征的算法,大致分为以下几组:

  • Extraction(提取):从“原始”数据中提取特征
  • Transformation(转换):缩放,转换或修改特征
  • Selection(选择):从一大组特征集中选择一个子集
  • Locality Sensitive Hashing局部敏感散列(LSH):这类算法将特征变换的各个方面与其他算法相结合。
阅读全文 »

SparkMLlib-Pipeline

发表于 2018-01-19 | 分类于 Spark > MLlib | | 热度: ℃
字数统计: 2,810

Spark中的管道pipeline


ML Pipelines

管道中的主要概念

MLlib对机器学习算法的API进行了标准化,使得将多种算法合并成一个流水线或工作流变得更加容易。本部分涵盖了Pipelines API引入的关键概念,其中流水线概念主要受scikit-learn项目的启发。

  • DataFrame:这个ML API使用Spark SQL中的DataFrame作为一个ML数据集,它可以容纳各种数据类型。例如,一个DataFrame可以具有存储文本,特征向量,真实标签和预测的不同列。

  • Transformer:一个Transformer是可以将一个DataFrame变换成成另一个DataFrame的算法。例如,一个ML模型是一个Transformer将一个DataFrame特征转化为一个DataFrame预测的模型。

  • Estimator:一个 Estimator是一个可以被应用在DataFrame上来产生一个Transformer的算法。例如,一个学习算法是一种Estimator,它可以在DataFrame上训练并生成模型。

  • Pipeline:Pipeline将多个Transformers和Estimators连接起来以指定ML工作流程。

  • Parameter:所有Transformers和Estimators现在对于指定参数共享通用API。

阅读全文 »

SparkMLlib-Basic

发表于 2018-01-19 | 分类于 Spark > MLlib | | 热度: ℃
字数统计: 1,404

机器学习裤(MLlib)指南

MLlib是Spark的机器学习库,可让实际的机器学习容易和可扩展,它提供了如下工具:

  • ML算法:通用学习算法,如分类,回归,聚类和协同过滤

  • 特征提取,特征提取,转换,降维和选择

  • 管道:用于构建,评估和调整ML管道的工具

  • 持久性:保存和加载算法,模型和管道

  • 实用程序:线性代数,统计,数据处理等

阅读全文 »

hexo-music

发表于 2018-01-19 | 分类于 hexo | | 热度: ℃
字数统计: 284

hexo 添加音乐,iframe 、 hexo-tag-aplayer

fun

阅读全文 »
1…456
cgDeepLearn

cgDeepLearn

Code Rocks!

29 文章
9 分类
86 标签
RSS
Github 网易云音乐
链链看
  • 😆 writeathink 😆
  • 关于此博客
© 2017 — 2021 cgDeepLearn | Site words total count: 70.8k
别扫我~
0%