上次为大家介绍了什么叫做词频,在那篇文章中(),我们涉及到了一个新的概念:反转文件频率(IDF),那么这个是什么意思呢?今天我们就在这篇文章中为大家做一个介绍。
在了解这个概念之前,我们先了解下什么叫做文件频率,这个指的是一个在一定数量的文件中出现在多少个文件中,也就是有这个关键词的文件占所有文件的比例,这个就被叫做文件频率,而反转文件频率(IDF)就是文件频率的倒数,也就是文件总数除以带有关键词的文件数。
反转文件频率的中文名又被叫做逆向文件频率,被叫做这些名词,都是因为它跟文件频率的方向是相反的。
这个是指的某一个关键词的普遍性的概念,比如某个关键词在所有文件中出现的次数,一万个文件中,这个关键词在1000个文件中出现了,这1000个文件对于这个关键词来说,肯定比其他的9000个文件更加的重要,所以理论上,关键词出现的文件数越少,这些出现关键词的文件对于这个关键词就越重要。这个就是反转文件频率的概念。
可以简单的理解为特定在关键词在某些文件中出现的频率高,而在其他文件中的出现的频率低,这些文件会在这个关键词的检索中会显得更加重要。
但是在实际的应用中,反转文件频率远远不是这么简单的进行理解的。下次我们将会介绍一个组合型的概念词频–反转文件频率(TF-IDF)。
声明:转载此文是出于传递更多学习交流目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。本站部分图文来源于网络,仅供学习交流,发表作品观点仅代表作者本人,本站仅提供信息存储空间服务,不承担连带责任。如有侵权,请及时联系管理员删除。
添加微信
微信扫一扫
评论