当前位置:首页 > 影视动漫 >

svm和lr模型选择(svm预测案例详解)

来源:原点资讯(www.yd166.com)时间:2023-05-11 00:05:07作者:YD166手机阅读>>

问题1:数据处理的常用方法有哪些?

对于离群点

  • 当作缺失值进行处理
  • 删掉离群点所在的样本
  • 实用统计值进行填充

对于缺失值

  • 可以用均值或均位数进行填充
  • 可以用特定值,如-1
  • 可以用np.nan表示

对于类别特征

  • 编码方式:自然数编码、独热编码、count编码、目标编码
  • 统计方式:count、nunique(宽度)、ratio(偏好)

对于数值特征

  • 交叉统计:行交叉(均值、中位数、最大值、最小值)、业务交叉构造
  • 离散方式:分桶、二值化(0/1)
问题2:逻辑回归损失函数

LR的基本表达形式如下:

svm和lr模型选择,svm预测案例详解(1)

得到损失函数如下:

svm和lr模型选择,svm预测案例详解(2)

七月在线新课上线【文本推荐系统项目实战】,基于Docker的真实场景下的文本推荐

限时福利 0.01元拼团秒*,速抢>>
http://www.julyedu.com/course/getDetail/471

svm和lr模型选择,svm预测案例详解(3)

问题3:LR与SVM的区别

1、LR是参数模型,SVM是非参数模型。

2、从目标函数来看,区别在于逻辑回归采用的是logistical loss,SVM采用的是hinge loss,这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。

3、逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。

4、SVM不直接依赖数据分布,而LR则依赖,因为SVM只与支持向量那几个点有关系,而LR和所有点都有关系。

5、SVM本身是结构风险最小化模型,而LR是经验风险最小化模型

关于两个模型的适用情况

1. 如果Feature的数量很大,跟样本数量差不多,这时候选用LR或者是Linear Kernel的SVM

2. 如果Feature的数量比较小,样本数量一般,不算大也不算小,选用SVM Gaussian Kernel

3. 如果Feature的数量比较小,而样本数量很多,需要手工添加一些feature变成第一种情况

问题4:SVM核函数的作用

SVM核函数是用来解决数据线性不可分而提出的,把数据从源空间映射到目标空间(线性可分空间)。

SVM中核函数:线性核、多项式核、高斯核、Sigmoid核等。

七月在线新课上线【文本推荐系统项目实战】,基于Docker的真实场景下的文本推荐

限时福利 0.01元拼团秒*,速抢>>
http://www.julyedu.com/course/getDetail/471

svm和lr模型选择,svm预测案例详解(4)

问题5:降低方差,偏差的方法

偏差:描述的是预测值的期望与真实值之间的差距。偏差越大,越偏离真实数据。

方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。

降低方差

  • 增加训练数据
  • 正则化(L1、L2、Dropout)
  • 减少特征数量
  • 减少模型复杂度

降低偏差

  • 增加模型复杂度
  • 减小或消除正则化(L1、L2、Dropout)
问题6:LR,XGBoost与LightGBM的区别

LR是广义线性模型;

XGBooost和LightGBM都是树模型;

LightGBM对于Xgboost的改进如下:

模型精度:XGBoost和LightGBM相当。

训练速度:LightGBM远快于XGBoost。(快百倍以上,跟数据集有关系)

内存消耗:LightGBM远小于XGBoost。(大约是xgb的五分之一)

缺失值特征:XGBoost和LightGBM都可以自动处理特征缺失值。

分类特征:XGBoost不支持类别特征,需要OneHot编码预处理。LightGBM直接支持类别特征。

LightGBM在XGBoost上主要有3方面的优化。

1,Histogram算法:直方图算法。

2,GOSS算法:基于梯度的单边采样算法。

3,EFB算法:互斥特征捆绑算法。

问题7:随机森林和GBDT的区别

随机森林采用的bagging思想,而GBDT采用的boosting思想。

这两种方法都是Bootstrap思想的应用,Bootstrap是一种有放回的抽样方法思想。

虽然都是有放回的抽样,但二者的区别在于:Bagging采用有放回的均匀取样,而Boosting根据错误率来取样(Boosting初始化时对每一个训练样例赋相等的权重1/n,然后用该算法对训练集训练t轮,每次训练后,对训练失败的样例赋以较大的权重),因此Boosting的分类精度要优于Bagging。

Bagging的训练集的选择是随机的,各训练集之间相互独立,弱分类器可并行,而Boosting的训练集的选择与前一轮的学习结果有关,是串行的。

组成随机森林的树可以是分类树,也可以是回归树;而GBDT只能由回归树组成。

组成随机森林的树可以并行生成;而GBDT只能是串行生成。对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来。

随机森林对异常值不敏感;GBDT对异常值非常敏感。

随机森林对训练集一视同仁;GBDT是基于权值的弱分类器的集成。随机森林是通过减少模型方差提高性能;GBDT是通过减少模型偏差提高性能。


进大厂是大部分程序员的梦想,而进大厂的门槛也是比较高的。刷题,也成为面试前的必备环节。

七妹给大家准备了“武功秘籍”,七月在线干货组继19年出的两本书《名企AI面试100题》和《名企AI面试100篇》后,又整理出《机器学习十大算法系列》、《2021年最新大厂AI面试题 Q3版》两本图书,不少同学通过学习拿到拿到dream offer。

为了让更多AI人受益,七仔现把电子版免费送给大家,希望对你的求职有所帮助。如果点赞和点在看的人数较多,我会后续整理资料并分享答案给大家。

以下4本书,电子版,添加VX:julyedufu77(或七月在线任一老师)回复“088” 领取!

svm和lr模型选择,svm预测案例详解(5)

栏目热文

lpm模型的缺点(lpm和probit模型的区别)

lpm模型的缺点(lpm和probit模型的区别)

3d模型中底模和高模有哪些区别?在三维建模法线贴图时,我们经常听到两种不同的说法:底模式和高模式。那么3d模型中底模和高...

2023-05-11 00:39:00查看全文 >>

lr模型是推荐算法吗(lr模型推导公式)

lr模型是推荐算法吗(lr模型推导公式)

1、原理介绍LR(逻辑斯蒂回归)算法的本质是一个线性回归函数,该算法主要用作二分类的场景,例如点击率预估,算法公式如下:...

2023-05-10 23:53:41查看全文 >>

模型预测精度(模型预测结果)

模型预测精度(模型预测结果)

导读:在真实场景中,模型很少能成功地预测所有的内容。我们知道应该使用测试集的数据来评估我们的模型。但是这到底是如何工作的...

2023-05-11 00:25:23查看全文 >>

模型参数更新周期(模型参数设置详解)

模型参数更新周期(模型参数设置详解)

文 / 交通银行软件开发中心  俞书浩手机银行APP已成为银行客户申购理财、基金、保险等产品的主流销售渠道,因此需要更快...

2023-05-11 00:23:31查看全文 >>

模型参数在线辨识(预估模型参数的方法)

模型参数在线辨识(预估模型参数的方法)

在这篇文章中,我们介绍深度学习网络在一个模型系统中的应用。这个模型系统可以是用微分方程进行描述,深度学习网络可以在线对模...

2023-05-11 00:36:22查看全文 >>

icr 用到的模型(icr全套配置)

icr 用到的模型(icr全套配置)

来源:科学大院人类从未停止对生命的探索,而在这漫长的道路上,小鼠可以说是科学家们最爱用到的实验动物。繁殖能力强,饲养要求...

2023-05-11 00:11:19查看全文 >>

lr性能测试参数化(lr测试登录功能的过程)

lr性能测试参数化(lr测试登录功能的过程)

操作步骤:1、用Lordrunner录制织雀考试管理系统进行参数化选择用户组发送消息;2、打开织雀考试管理系统...

2023-05-11 00:21:54查看全文 >>

lr模型原理(lr分析方法)

lr模型原理(lr分析方法)

Logistic分布设X是连续随机变量,Logistic分布指的是一种连续型的概率分布,其分布函数Logistic分布分...

2023-05-11 00:18:08查看全文 >>

如何使用islm模型(如何理解islm模型)

如何使用islm模型(如何理解islm模型)

希克斯-汉森模型,1972年获得诺贝尔经济学奖考点:IS曲线(产品市场),LM曲线(货币市场),IS-LM模型(组合在一...

2023-05-11 00:11:33查看全文 >>

lr性能测试的过程(lr软件性能测试选择题)

lr性能测试的过程(lr软件性能测试选择题)

概念验证(Proof of Concept:POC)维基百科概念验证(Proof of concept,简称POC) 是...

2023-05-11 00:15:41查看全文 >>

文档排行