数据处理不等式：Data Processing Inequality

2021-03-25 11:52:34 阅读：211 来源： 互联网

标签：Processing 不等式信息量 DNN 信息 Inequality 可用性 Data 那么

我是在差分隐私下看到的，新解决方案的可用性肯定小于原有解决方案的可用性，也就是说信息的后续处理只会降低所拥有的信息量。

那么如果这么说的话为什么还要做特征工程呢，这是因为该不等式有一个巨大的前提就是数据处理方法无比的强大，比如很多的样本要分类，我们做特征提取后，SVM效果很好，但是如果用DNN之类的CNN、AuToEncoder，那么效果反而不如原来特征。这样就能理解了，DNN提取能力更强，那么原始就要有更多的信息，在新特征下无论怎么提取，信息就那么多。

信息量越多越好么？肯定不是，否则为什么PCA要做降噪和去冗余呢？我们的目的是有效的信息最大化。

另外一种理解就是从互信息不为0（信息损失）来解释。

从而

那么如何在处理过程中不丢失有效信息呢？这时候就需要数学上的充分统计量，也就是g是y的充分统计量。

标签：Processing,不等式,信息量,DNN,信息,Inequality,可用性,Data,那么
来源： https://blog.51cto.com/15127587/2671611

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

数据处理不等式：Data Processing Inequality