从搜索引擎原理，看信息质量和诡辩术

2021-05-09 20:51:39 阅读：182 来源： 互联网

因为早年做过相关的开发，我大致了解搜索引擎的基本原理。不过这些年来我发现，这种原理完全可以用在其它地方，比如识别信息质量，比如识破诡辩术。

搜索引擎要解决的核心问题是，如何在浩如烟海的文档中，找出来用户最关心的那部分。换句话说，当用户希望了解某个话题或事物时，如何识别出对他/她最有价值，最让他/她感兴趣的那些资料（这里不讨论竞价排名）。为此，无数的科学家、工程师、程序员都做了大量的工作，才有了现在大家觉得“理所当然”的搜索引擎。

最近几年，网络上的信息越来越多，不同意见也越来越多样化。那么如何找到真正靠谱的、有价值的信息，如何识破各种诡辩？这已经成了人人都要面对的一个问题。其实，这个问题也是可以从搜索引擎中得到启发的。

不要以为这“原理”相当深奥，普通人只需要知道“最基本最简单”的TF-IDF，就能理清很多东西了。

TF，即Term Frequency，指一个“语词”（term，也可以简单理解为“单词”，WTO、感冒、华为都是“语词”）在文档（document，也可以理解为“文章”，对应到搜索结果中的一条）中出现的频率。

通常，在判断文档相关性时，TF与结果正相关（未必是“成正比”）。这个道理也不难理解，如果有两篇篇幅类似的文章，一篇“华为”出现了10次，一篇“华为”只出现了2次，那么我们可以推断，前者与“华为”的关系更密切，用户在搜索“华为”时，前者应当出现在更靠前的位置。

IDF，即Inverse Doc Frequency，有中文翻译为“逆向文件频率”，理解起来稍微麻烦一点：文档总数与包含该语词的文档数目的比值。有许多人相当认为这是个“含量”，所以比值应当小于1，这是把分子和分母搞反了，也是“逆向”的意思所在。

通常，在判断文档相关性时，IDF也与结果正相关（未必是“成正比”），而且弥补了TF的片面性。如果单纯以TF来考察相关性，比如“的”这个字是各种文章中出现频率都极高的，其TF相当高，但不能用来说明信息质量。因为其IDF很低，接近于1（注意IDF是“倒过来算的”，所以如果只有1/10的文档中出现了了这个语词，其IDF是10）。

再比如，如果某个资料库都是关于中国的，其中包含了政治、军事、经济、文化各种主题的许多资料。那么可以肯定，基本每篇资料都包含“中国”这个语词，而包含“国防”的资料只占其中的一部分。显然，“国防”比“中国”更容易区分出相关的资料，在搜索时也更容易找到对应的结果。对应的，“国防”的IDF值显然远高于“中国”。

好了，技术内容就谈到这里。简单说，以特定语词搜索时，文档中特定语词出现“密度”越高，文档和语词的关联度就越高；该语词的“普适性”越低，筛选出高质量文档的几率就越高。

下面可以引申开来：如果我们要做的不是搜索，而是讨论某个主题，获得相关的信息，并判断信息的靠谱程度，是否可以从TF-IDF中得到一些启发？

答案应当是肯定的。

如果某篇文章“看起来”是关于某个主题的，那么这篇文章毫无疑问应当紧扣这个主题。倘若内文其实并没有太多紧扣主题的论述和分析，那么借鉴TF的思想，这篇文章的参考价值相当有限。

如今有不少面目可疑的文章正是走的这个路子。标题吓死人，态度很明确，结论斩钉截铁。但是仔细看内文，发现作者能给出的确定事实很少，他们既不做实地调查，也省掉多方比较（许多时候作者甚至对问题领域缺乏基础的认知），只能玩帽子戏法，东拉西扯一堆看似有关的材料，或者讲几个“让读者以为相关”的历史故事，最后移花接木，绕回到标题上来。

这真是“暖风熏得游人醉，直把杭州作汴州”，但是怎么避免呢？其实很好办，就是清醒认识，抵御各种“暖风”——在阅读时不要被各种段子、故事、表情包、配图给熏醉了，时刻记住主题。

如果面对相对专业的主题，作者之前又没有相关领域的积累，应当尤其小心，因为此时不专业的读者非常容易被不专业的作者蒙蔽。比如马航MH370坠毁事件，仔细看那些言之凿凿的不靠谱文章，作者基本都拿不出任何与当次飞行有关的确切信息（大概也不知道上哪里去找确切信息），所以只能依赖想象和猜测（《大西洋月刊》近期封面文章《“晚安。马航370”》，很好地解释了什么是“信息质量”）。

社会历史、政治经济类的文章，看起来是大众话题，也不能放松大意。因为这类问题要真正谈好，作者的驾驭能力要相当高，必须依赖大量的阅读和反复的思考。而许多“爆款”文章看起来内容丰富，有众多闻所未闻的故事“拱卫”主题，仔细分析就发现存在逻辑断层，无法证明“历史故事与当前主题是逻辑一致的”，所以其实无非是勉力拼凑而已。

还有一些主张、论断，它们听起来铿锵有力，但借鉴IDF的思想就会知道，如果这些主张、论断对于任何主题都可以适用，那么从IDF的角度来看，其信息价值是相当有限的。

姜昆和李文华曾经说过一段深受大家喜爱的相声《如此照相》，讽刺的是特殊年代里生活中做任何事情都要先背诵一句语录的现象。凡事都要“背语录”，那么它就好像上文提到的每篇文章中的“的”字，或者关于中国的资料库里的“中国”一样，区分度很低，无法证明其有效性。事实证明，广大人民群众不背语录，照样不影响正常生活。

当然，这种“IDF极低”的现象还有很多，比如网络上的“杠精”常用的诘问也是如此。使用这些“万精油”式诘问，对知识储备、逻辑思维等等没有任何要求，随时可以祭出：你怎么知道你知道的就是真的？你以为就你看得多，多看了点东西就了不起？没有什么是绝对的好事，没有谁是圣人，一切都要辩证地看……

如果我们从信息价值的角度来分析，就会发现这些诘问其实也没什么信息质量也提供不了什么信息价值。

没有人能确认自己知道的绝对“就是真的”，重要的是在比较甄别中接近客观真相。如果既不能找出对方论述中的重要错误，也不能提供信息含量更高的信息，那么“你怎么知道你知道的就是真的？”本身是没有意义的。

在讨论问题时，“看得多”和“了不起”是没有关联的。如果对问题背景有充分的了解，对问题领域有持续的关注，那多半是比其他人“看得多”。如果认可判断的依据是信息和知识，自然的结论就是，多看点之后下的判断往往更靠谱。所以与其反问“多看了点东西就了不起”，不如自己多读多看，多提供一点有价值的信息出来。

事和人确实都没有绝对的好坏，但这不意味着我们无法对事和人作出确切的判断。如果大家的判断不一致，应当摆出事实来，进行细致（最好是可以量化）的分析。一个人做了件好事造福了一百万人，不能简单拿“它也损害了三五个人”来否定，一个做了一万件好事的人，也不能简单用“他也做过两三件坏事”来否定。

同样道理，一个人或一个国家做事可能出于利益考虑，也可能出于道德考虑。真正有意义的讨论必然是具体而具体的，做这件事是出于道德考虑还是利益考虑？或者二者兼而有之，但其中哪种因素更重要？如果当时确实是出于道德考虑，或者更多出于道德考虑，那么通过简单的“没有谁是圣人”或者“没有国家讲道德”得出粗陋的结论，只会扰乱认知，把讨论变成口舌之争。

最后需要注明的是，上面的论述都是从基于“信息质量”，而不是基于“热闹”或者“话题性”而展开的。世界很大，大家看中的因素各不相同。有些人在乎的就是热闹，而不在乎信息质量，这本身无可厚非，说清楚即可。

而且在这个时代，如果你注重提升自己的信息质量，或多或少会有一些副作用，要放弃一些热闹的话题，甚至伤了某些人的面子。不过冷静下来想想，坚持做下来的话，收获还是比付出要多，总的来说还是划算的，对吧？

标签：语词,主题,信息,搜索引擎,TF,诡辩术,文档,IDF,原理
来源： https://blog.51cto.com/u_15127631/2763868

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

从搜索引擎原理，看信息质量和诡辩术