Use cases for model insights —— 模型可解释性的应用场景

转载请注明来源:http://iceflameworm.github.io/2019/08/15/use-cases-of-model-insights/

在推广数据分析、挖掘以及模型训练结果的时候,经常遇到客户或业务方需要我们对其进行解读。如果不能让客户或业务方很好地理解或者接受的话,“数据民工们”的工作成果就很难被有效地推行下去,哎,宝宝们都很苦啊。

最近忽然想起之前在逛kaggle的时候看到过有模型解释性相关的课程,于是就回头温习下,梳理下要点,一来加深自己的理解,也方便感兴趣的同学阅读。

这是第一节:Use cases for model insights

做什么?

很多人把各种机器学习模型看作是黑盒子,因为虽然这些模型给出的预测结果还不错,但是你却无法理解这些预测背后的逻辑。

要加深对模型结果的理解,可以从以下几个方面入手

  1. 训练出的模型认为哪些特征很重要?
  2. 对于任意一个数据样本,每一个特征是如何影响其预测结果的。
  3. 从宏观意义上讲,每个特征是如何影响模型在整体上的预测结果的。

应用场景

对模型结果的解释可应用到以下这些场景当中:

  1. 模型调试
  2. 特征工程
  3. 数据收集
  4. 决策制定
  5. 建立信任

模型调试

在实际应用场景中,往往会存在很多不可靠、组织混乱和存在污染的数据。在对数据进行预处理的时候,很有可能在不经意间就会引入潜在的错误源。在实际的数据科学项目中,在某些地方出现错误是很正常的事情。

因为bug会频繁出现,且可能会引起灾难性的后果,所以模型调式数据科学领域最重要的技能之一。理解模型发现的模式会帮你确定什么时候它们跟你所掌握的知识不一致,而这通常才是追踪bug原因第一步而已。

特征工程

一般情况下,特征工程是提升模型准确率最有效的方法。通常,特征工程需要不断地在原有数据或已创建的特征上进行变换,来产生新的特征。

在数据量、维度都比较小的情况下,有时你只靠自身对问题的直觉,就可以完成这一过程。但是当你需要处理成百上千的原始特征,或者并不太了解问题的背景的时候,你就需要更多的指导和建议了。

数据收集

对于从网上下载的数据集,你是无法控制的。但是很多使用数据科学的企业和组织都有机会扩展所收集数据的类型。因为收集新类型的数据可能成本会很高,或者非常麻烦,所以只有在清楚这么做是划算的时候,企业和组织才会去做。基于模型的解释会帮你更好地理解现有特征地价值,进而推断出哪些新数据可能是最有帮助的。

决策制定

某些情况下,模型会直接自动做出决策,但是有很多重要的决策是需要人来确定。对于最终需要人来做的决策,模型的可解释性比单纯的预测结果更重要

建立信任

许多人在确定一些基本的事实之前,不会信赖你用来做重要决策的模型。鉴于数据错误的频繁出现,这是一种明智的防范措施。在实际业务场景中,如果给出的模型解释符合对方自身对问题的理解,那么即使在基本不具备深入的数据科学知识的人之间,也将有助于建立互相信任的关系。

文章作者:Aaron Li

原始链接:http://iceflameworm.github.io/2019/08/15/use-cases-of-model-insights/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。