ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

金融风控建模常见误区与建议

2021-05-24 16:33:25  阅读:314  来源: 互联网

标签:特征 模型 样本 建模 风控 AutoML 误区


欢迎各位同学学习python信用评分卡建模视频系列教程(附代码, 博主录制) :

腾讯课堂报名入口

网易云课堂报名入口

(微信二维码扫一扫)

 

1建模的标签不是固定的
一般风控数据比赛类似lending club和home credit的数据都是给定了好坏用户的样本标签,然后直接开始特征工程和模型训练。但在实际项目中样本标签是要结合数据和业务两个因素权衡去确定下来的:

  1. 从数据角度看,经验上坏样本个数要大于1000个以上才能保证建模的学习性能;
  2. 从业务角度看,坏样本要尽可能的是真实的坏样本,尽量少的误杀好用户。

这两个因素是相互拉锯的,想坏样本多,就要表现期短,误杀好用户的几率就大;要想少误杀好用户,就要表现期足够长,能确定的坏样本自然就少了。所以在确定标签时要拿数据尝试,找到这两个因素的平衡点。

 

2模型不是越复杂越好
很多初学者会觉得深度模型和集成模型效果一定比简单的线性模型效果好。在一些简单项目上也要上很复杂的模型,结果线上使用效果往往并不理想,就好比人生了一个小病,一定要各种打针吃药过度治疗。这样反而对身体造成额外的损伤。
其实在很多相对简单的项目中 ,并不需要上很复杂的模型,一个简单的逻辑回归就能很好的满足性能要求,而且健壮性也是非常好的,往往在简单问题上上了复杂模型很容易造成overfitting,然后降低模型的泛化能力。

3模型审核十分必要
现在绝大多数金融机构在模型开发上往往是一人独立承担一个(甚至多个)模型项目的开发工作,从数据集市的搭建、清洗数据、特征工程、到建模与调教。这样虽然可以以企业最低成本进行风控模型赋能,但却容易发生模型集中度风险。
在模型团队(更建议模型组外)设立模型审核小组,从数据、代码、业务应用场景、建模流程等多方面对模型组开发的模型进行全方位诊断,以此降低模型集中度风险的发生。

这种组织结构在美国Capital one等多家数据驱动型金融机构早已践行。

 

4.AutoML慎用
AutoML全称是Automated Machine Learning,是2014年以来,机器学习和深度学习领域最炙手可热的领域之一。

众所周知,模型的开发需要大量的人工干预,这些人工干预表现在:特征构建、特征演变、特征提取、模型选择、参数调节等各个方面。
AutoML视图将这些与特征、模型、优化、评价有关的重要步骤进行自动化地学习,使得机器学习模型无需人工干预即可被应用,以此大大降低模型开发的时间成本(全流程人工开发可能需要2-4周的开发作业时间,而应用AutoML可以将模型开发时间压缩到最短半天)。
一个完整的AutoML过程可以分成这么两类:

  • 一类是将以上的三个步骤整合成一个完整的pipeline;
  • 另一类则是network architecture search,能够自动地学习到最优的网络结构。在学习的过程中,对特征工程、模型选择、算法选择都进行一些优化。


虽然AutoML有着大大降低模型开发时间成本、提升模型精度等多种优势,但在特征构建与演变中,往往会脱离实际业务指导模型的意义,无法在特征上体现出与风险目标明显的业务相关性。尤其是模型后段应用类似逻辑回归等线性算法时,对于模型稳定性、效力下降时,模型问题溯源成为难点。
对于AutoML的使用,更建议应用在反欺诈、精准营销等不需要明示业务与模型的关联场景上,对于风控场景,可以在子模型的开发上多加应用,或者AutoML+人工干预。完全实现风险模型开发与上线自动化,还为时尚早。

 

5.特征不仅要区分度好 在做特征构造和筛选的时候,往往大家都会把区分度好的特征都堆进模型,这样在测试集上的模型性能会非常的好看,但在挑选特征的时候,除了区分度之外,还有其他的因素也是不能忽略的:
a. 特征的覆盖度只有特征的覆盖度够高,能在众多样本上发挥作用,才能让模型的线上的整体性能提升。
b .特征的稳定性时间是信贷风控的一个重要维度。只有特征的分布随时间的变化不是很大的前提下,历史学习到的统计信息才能在尽可能长的未来保持相应的区分度性能。
c .特征的可解释性风控的对象是人,我们要透过数据去理解人的行为,所以我们构建的特征是需要人能够理解其风险情况的,如果一个特征的效果很好,但它在风险上的表现和我们常识相违背或无法理解,这样的特征是很难去说服业务方采纳的。
 

6.不是所有好的特征都要进模型
在本次建模比赛中,地理位置的信息的区分度非常好,但类似的这些信息一定要使用在模型中吗?其实并不一定,有些特征像地理信息其实可以选择放在模型或者放在策略中。
如果业务已经覆盖了众多地区,地区的统计信息具有稳定的统计分布,那在模型中使用地理位置信息是很有用的,如果业务开展是按地区逐步推广开的,不同地区的运营方式和产品有差异,那地理信息调整的灵活度很大,那此时考虑放在策略中往往更加的适合。

欢迎学习更多风控建模相关知识《python金融风控评分卡模型和数据分析微专业课》

腾讯课堂报名入口

网易云课堂报名入口

(微信二维码扫一扫)

标签:特征,模型,样本,建模,风控,AutoML,误区
来源: https://www.cnblogs.com/webRobot/p/14804929.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有