微信
手机版
网站地图

百度翻译,002-机器学习之scikit-learn开发入门-03集成学习-02Adaboost原理与实践,永

2019-04-19 07:56:21 投稿人 : admin 围观 : 215 次 0 评论

快点注重咱们吧!

2018年参加去哪儿网技能团队。现在在火车票事业部/技能部小组。个人对全部未触及的范畴百度翻译,002-机器学习之scikit-learn开发入门-03集成学习-02Adaboost原理与实践,永有浓厚兴趣。

概要

本文首要解说 Adaboost 算法:

1.Adaboost 算法的介绍;

2.Adaboost 算法类库的介绍;

3.Adaboost 算法实践示例;

4.Adaboost 算法原理;

5.总结。

经过文本的介绍,期望咱们能够把握 Adaboost 算法的运用与了解它的原理。

百度翻译,002-机器学习之scikit-learn开发入门-03集成学习-02Adaboost原理与实践,永

参阅资料

1.Adaboost 原理剖析柳家与实战;

2.Adaboost 算法原理小结;

3.Adaboost 类库运用小结;

4.书本:周志华-机器学习;

5.维基百科-AdaBoost 详解。

Adaboost算法介绍

Adaboost 归于集成学习 boosting 系列算法。 Boosting 算法的作业机制是首要从练习集用初始权重练习出一个弱学习器 1 ,依据学习差错率更新练习样本的权重,将弱学习器 1 学习差错率高的练习样本的权重升高,让这些样本在弱学习器 2 中得到更多的注重。然后依据调整权重后的练习集来练习弱学习器 2. ,如此重复进行,直到弱学习器数到达事前指定的数目 T ,终究将这 T 个弱学习器经过调集战略进行整合,得到终究的强学习器。

Adaboost算法类库的介绍

scik百度翻译,002-机器学习之scikit-learn开发入门-03集成学习-02Adaboost原理与实践,永it-learn 中 Adaboost 类库有 AdaBoostClassifier 和 AdaBoostRegressor 。

从姓名就能够看出 AdaBoostClassifier 用于分类,AdaBoostRegressor 恋妹用于回归。舔乳

下面是 AdaBoostClassifier 和 AdaBoostRegressor 结构参数:

1.base_estimator:弱分类学习器或许弱回归学习器。理论上能够挑选任何一个分类或许回归学习器,不过需求支撑样本权重。AdaBoostClassifpk绝版皇室美男团ier 默许运用 CART 分类树 DecisionTreeClassifier ,而 AdaBoostRegressor 默许运用 CAmikkoukunRT 回归树 DecisionTreeRegressor ,一般运用默许值即可。

2.n_estimators: 弱学习器的最大迭代次数,能够认为是最大的弱学习器的个数。n_estimators 太小,简略欠拟合,n_estimators 太大,简略过拟合,默许是 50 。在实践调参的进程中,一般将 n_estimators 维娜芬官网和 learning_rate 一同考虑。

3.learning_rate: 每个弱学习器的权重减缩系数 ,在原理篇会讲。关于相同的练习集拟合效果,较小的 learn大凉王ing_rate 意味着需求更多的弱学习器的迭代次数,默许是 1 。

夜夜插

4.CART 决策树参数能够参阅:http://sharetime.corp.qunar.com/article/34。

Adaboost算法实践示例 导入头文件

能够看到 score 会跟着 estimators_num 的数量添加而添加,可是不是越高越好,有可能会过拟合。AdaBoostRegressor 与 AdaB百度翻译,002-机器学习之scikit-learn开发入门-03集成学习-02Adaboost原理与实践,永oostClassifier 相似,就不介绍了。

Adaboost算法原理 Adaboost算法原理

AdaBoost 是 Boosting 咱们族的一员,那么咱们来看看 Boosting 算法系列的基本思想,如下图:

从图中能够看出,Boosting 算法的作业机制是首要从练习集用初始权重练习新婚夜婆婆出一个弱学习器 1 ,依据学习差错率更新练习样本的权重,使学习差错率高的练习百度翻译,002-机器学习之scikit-learn开发入门-03集成学习-02Adaboost原理与实践,永样本权重变高,这样这些差错率高的样本在后面的学习器中得到更多的注重。然后将调整权重后的练习集练习弱学习器 2. ,如此重复进行,直到弱学习器数到达事前指定的数目 T ,终究将这 T 个弱学习器经过调集战略进行整合,得到终究的强学习器。

Adaboost算法流陈梦妍程

1.首要,初始化练习数据的权值散布。 每个练习样本最开始时都被赋予相同的权值:

2.进行迭代 t=1,2,..吕宗瑞.,T

(1)选取一个当时差错率最低的弱分类器 H 作为第 t 个弱分类器 Ht ,并核算弱分类器 Ht ,该弱分类器在散布 Dt 上的差错为:

由上述式子可知,Ht(x) 在练习数据集上的差错率 et 便是被 Ht(x) 误分类样本的权值之和。

(2)核算该弱分类器在终究分类器中所占的权重(弱分类器权重用 a 表明)女行长:

(3)更新练习样本的权值散布 Dt+1 :

其间:

省掉推倒进程:过错分百度翻译,002-机器学习之scikit-learn开发入门-03集成学习-02Adaboost原理与实践,永类样本,权重更新:

正确分类样本,权值更新:

3.终究,按弱分类器权重 at 组合各个弱分类器,即:

经过符号函数sign的效果,得到一个强分类器为:永久地址

AdaBoost示例详解

Adaboost 是由 N 个弱分类器构成,为了更好的解说 AdaBoost 算法,咱们给出了一些比较简略的分类器。给定如图所示的练习样本,弱分类器选用平行于坐标轴的直线,用 Adaboost 算法的完成强分类进程。

将这 10 个样本作为练习数据,依据 X1 和 X2 的对应联系,可把这 10 个数据分为两类,图顶用“+”表明类别 1 ,用“O”表明类别 -1 。本例运用水平或许笔直的直线作为分类器,图中现已给出了三个弱分类器,即:

首要需求初始化练习样本数据的权值散布,每别拿班花不妥干部一个练习样本最开始时都被赋予相同的权值:w = 1/m ,这样练习样本集的初始权值散布 D1(i) : 令每个权值 1/m = 0.1 ,其间,m = 10,i = 1,2, ..., 10,然后别离关于 t= 1,2,3, ... 等值进行迭代( t 表明迭代次数),下表现已给出练习样本的权值散布状况:

1.第 1 次迭代

初试的权值散布 D1 为 0.1 ,取已知的三个弱分类器 H1、H2 和 百度翻译,002-机器学习之scikit-learn开发入门-03集成学习-02Adaboost原理与实践,永H3 中差错率最小的分类器作为第 1 个弱分类器(三个弱分类器的差错率都是 泄油丸0.3 ,那就取第 1 个吧)。

PS:某个分类器的差错率等于该分类器的被分错类样本的权重之和。

在分类器 H1(x) 中,样本点“5 7 8”被错分,因而弱分类器 H1(x) 的差错率为:

依据差错率 e1 核算 H1 的权重:

PS:这个 a1 代表 H1(x) 在终究的分类函数中所占的权重为 0.4236 。 可见,被误分类样本的权值之和影响差错率 e ,差错率 e 影响弱分类器在终究分类器中所占的权重 a 。 然后,更新练习样本的权值,用于下一轮迭代,关于正确分类的练习样本“1 2 3 4 6 9 10”(共 7 个)的权值更新为:

PS:正确分类的样本权值由本来的 1/10 减小到 1/14 。 关于一切过错分类的练习样本“5 7 8”的权值更新为:

PS:过错分类的样本权值由本来的 1/10 增大到 1/6 。 这样,第 1 轮迭代后,终究得到各个样本新的权值散布:

用浅绿色底纹符号的表格,是被 H1(x) 分错的样本。 可得分类函数:

2.第 2 次迭代

在权值散布 D2 的状况下,再取三个弱分类器 H1、H2 和 H3 中差错率最小的分类器作为第 2 个弱分类器:

当取弱分类器 H1 时,被错分的样本为 5,7,8 。差错率 e=1/6+1/6+1/6=3/6=1/2; 当取弱分类器 H2 时,被错分的样本为 3,4,6 。差错率 e=1/14+1/14+1/14=3/14 ;当取弱分类器 H3 时,被错分的样本为 1,2,9 。差错率 e=1/14+1/14+1/14=3/14 。因而,取当时最小的分类器 H2 或 H3 ,咱们将 H2 作为第 2 个弱分类器。

依据 D2 可知样本 3 的权重是 1/14 ,样本 4 的权重是简马玉玺 1/14 , 样本 6 的权重是 1/14 ,所以 H2 在练习数据集上的差错率:

依据差错率 e2 核算 H2 的权重:

更新练习样本的权重散布,关于正确分类的样本权值更新为:

关于过错分类的权重更新为:

这样,第 2 轮迭代后,终究得到各个样本数据新的权值散布:

用浅绿色底纹符号的表格,是被 H2(x) 分错的样本。 可得分类函数:

3.第 3 次迭代

在权值散布 D3 的状况下,再取三个弱分类器 H1、H2 和 H3 中差错率最小的分类器作为第 3 个弱分类器。

当取弱分类器 H1 时,被错分的样本点为 5,7,8 ,差错率 e=7/66+7/66+7/66=7/22

当取弱分类器 H2 时,被错分的样本点为 3,4,6,差错率 e=1/6+1/6+1/6=1/2=0.5

当取弱分类器华山漫空栈道灵异事情 H3 时,被错分的样本点为 1,2,9,差错率 e=1/22+1/22+1/22=3/22

因而,取当时最小的分类器 H3 作为第 3 个弱分类器。

依据 D3 可知样本 1 的权重是 1/22 ,样本 2 的权重是 1/22 , 样本 9 的权重是 1/22 ,所以 H3 在练习数据集上的差错率:

依据差错率 e3 核算 H3 的权重:

更新练习样本数据的权值散布,关于正确分类的样本权值更新为:

关于过错分类的权值更新为:

这样,第 3 轮迭代后,得到各个样本数据新的权值散布为:

可得分类函数:

至此,整个练习进程完毕。整合一切分类器,可得终究的强分类器为:

总结 长处

1.Adaboost 作为分类器时,分类精度很高。

2.在 Adaboost 的结构下,能够运用各种回归分类模型来构建弱学习器,十分灵敏。

3.作为简略的二元分类器时左霄启,结构简略,成果可理解。

4.不简略发生过拟合。

缺陷

Adaboost 算法易受噪声搅扰。

声明:该文观念仅代表作者自己,搜狐号侍小妖系信息发布渠道,搜狐仅供给信息存储空间效劳。

相关文章

标签列表