结果令人震惊。PA 的准确率非常接近基线,也就是说,它在确定相关性方面并不比随机数好,尽管它在对前 50 个已知相关内容进行排名时确实做得很好。另一方面,语言模型的准确率接近 100%。换句话说,语言模型在确定 500 个页面中的哪些在搜索结果中时几乎完美无缺,但在实际对这些相关文档进行排名时却表现不佳。
总结
这种类型的查询文档相似度评分在研究文 印度手机号码 献中已得到充分证实,并且是每个现代信息检索系统的基础。因此,它是搜索的基础,并且不受算法变化的影响。
由于搜索引擎使用复杂的查询和文档模型,因此无需针对类似关键词进行单独优化。例如,任何针对“电影评论”的页面也将针对“电影评论”。
最后,您可以在工作流程中使用相关性和排名之间的概念划分。在创建或修改现有内容时,首先集中精力使页面与广泛的相关关键字相关。然后集中精力提高搜索排名。
这些是我们从 2013 年排名因素项目中发布的第一批结果。与过去几年一样,该项目包括行业调查和大型相关性研究。我将在今年的MozCon上展示这些结果(如果您还没有,请赶快买票!),我们将在今年夏天晚些时候发布一份完整的报告。
深入挖掘
以下是我的 SMX Advanced 演讲的所有幻灯片:
我强烈推荐 Manning 等人撰写的《信息检索简介》一书。该书可从他们的网站免费在线阅读,并全面描述了本文讨论的所有内容(以及更多内容)。特别是,请参阅第 2、6、11 和 12 章。