因此,如果您想使用它来构建工具,它实际上并不那么昂贵,它将为每个实体分配一个介于 0 到 1 之间的显着分数,并说“好吧,我们有多确定这段内容是关于这个东西的,而不是仅仅包含它?”
因此,数值越高或越接近 1,工具就越有信心认为该内容与该事物有关。0.9 就非常非常好了。0.01 意味着它存在,但他们不确定其相关性有多强。
一个关于显着性和实体如何运作的精彩例子
我这里举的例子并非取自 阿塞拜疆电话数据 真实内容 — — 这些数字都是编造的,只是一个例子 — — 如果你有一个巧克力曲奇饼干食谱,你会希望巧克力饼干或巧克力曲奇饼干食谱、巧克力曲奇饼干之类的东西成为第一实体,最显著的实体,并且你会希望它有一个相当高的显著分数。
您希望该工具非常自信,是的,这部分内容是关于这个主题的。但您还可以看到它提取的其他实体以及它们对主题的突出程度。因此,您可以看到一些东西,例如,如果您有一个巧克力曲奇饼干食谱,您会看到诸如饼干、黄油、糖、350(这是您加热烤箱的温度)之类的东西,所有这些不同的东西结合在一起制作了一个巧克力曲奇饼干食谱。
但我认为,对于我们 SEO 人员来说,了解显著性是相关关键词的未来非常重要。我们已经过了优化巧克力曲奇食谱的时代,我们也会寻找诸如巧克力食谱、巧克力片、巧克力曲奇食谱之类的东西。词干、变体、TF-IDF,这些都是理解内容内容的较老的方法。
相反,我们需要了解的是,谷歌利用其庞大的知识体系,使用 Freebase 之类的东西,使用互联网的大量内容,发现这些实体以这样的速率同时出现,以至于谷歌有理由相信,关于一个实体的内容,为了对该实体具有显著性,会包含这些其他实体?
您可以免费尝试这个自然语言处理 API
-
- Posts: 442
- Joined: Sun Dec 22, 2024 5:09 am