1.逻辑回归简介
逻辑回归名为回归实际上是分类算法,通常我们所说的是二项逻辑斯蒂回归简称逻辑回归。逻辑回归的条件概率分布:P(Y=1|x)=\frac{exp(wx+b)}{1+exp(wx+b)},即在给定 x 的条件下 Y=1 的概率。标记P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x),我们希望最大化如下概率即似然函数\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x)]^{1-yi} ,为方便计算对似然函数取对数得L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i)],可以看出对 L(W)取负号就是交叉熵损失函数,通过梯度下降极小化损失函数或梯度上升极大化对数似然函数就可以得到 w,b 的极大似然估计值\tilde{w},\tilde{b},则预测阶段有P(Y=1|x)=\frac{exp(\tilde{w}+\tilde{b})}{1+exp(\tilde{w}+\tilde{b})}。
2.实验
本文依旧采用蘑菇分类数据集进行建模,对数据集随机七三划分为训练集、测试集,学习率设为 0.1, 迭代次数 20000 次,最后测试集正确率为 98.7。因为 kaggle 蘑菇分类数据集其实只给出了训练集,这里人为对训练集划分,但问题不大,关键是了解学习算法。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于