联系我们

Email:wanzhanqun@163.com

电话:155-7782-2416

QQ:663486249

地址:北京市朝阳区广渠路38号院411号楼

SEO原创识别具体应用与站内权重继承算法补充

之前看到搜索引擎原创识别与站内权重继承算法解析这篇文章,写的很好,但对于普通水平的同学来说很难理解,同时也有一部分算法未提及。

对于原创的识别上,原文提到的提取关键词,然后运用md5或者频率对比的方式是可以的,但实际运用起来可能效果不是很好。在搜索引擎对原创内容识别上,按照关键词词频(TF)的比较闲的有些低级,应为内容太多,很容易出现误判的情况。所以,还需要另一个指标来判断。这种方法就是切片比较,按照固定步长对内容进行切片,比较其相似度,会更接近于真实结果。切片比较可以很好的识别段落打乱的伪原创手法。

页面降噪技术搜索引擎使用的很广泛,对于大部分标题+正文的内容,都可以用降噪技术来获得接近于真实内容的内容。那么,我们在SEO中就需要在正文中间加入干扰因素来打断搜索引擎的提词、切片。加入的内容可以使锚文本链接、也可以使相关的一段话。同时,这种手法同样可以打乱搜索引擎的向量化处理。

原文中还提高了站内权重继承问题。站内的页面权重继承并非像原文作者说的那样简单,权重分配也并非简单的平均分配。同时,为了防止一个网站通过短时间内大量制造内链来提高自身权重的问题,在站内权重传递过程中还会加入一个阻尼基数,这个阻尼基数一般为0.15。也就是说,如果一个页面有一百个导出链接,会有其中的15个链接不会参与到权重的传递。按照链接出现的位置,各个位置的链接所获得的权重继承也不一样;按照链接使用的标签不同,各个链接所获得的权重继承也不一样;按照不同的相关度,各个链接所获得的权重继承也不一样。这里补充一点,对于某些位置的链接,可能会由于去噪或者阻尼基数优先剔除。

权重继承算法是一个很复杂的公式,类似google pr计算公式。原文还提到了一个对于中文语法的应用。其实搜索引擎不会太多的关注中文语法,只需要找出停止词就可以了,这里的停止词,可以是任何词性,也可以是任何语法单元。搜索引擎对于提取的词都是作为名词看待,而在词义上偏褒义词。因为用户的搜索动作是中性的,并不会对搜索关键词赋予感情色彩。或许未来会出现感情色彩搜索引擎,让你选择搜索时的情感状态,在返回不同的结果,不过现在看来,似乎有些理想化了。

虽然搜索引擎不会区分词性,但会区分语气。因为语气可以判断用户需求。当你搜索糖果时,搜索引擎无法判断你是想找好吃的糖果,还是一个品牌,还是糖果的作用等等。但当你搜索什么糖果时,搜索引擎就可以判断你的需求很强烈,也许你在找最好吃的糖果,也许是找最贵的糖果、也有可能是最难看的等等。

这里就比较难以理解,因为对“最好吃的糖果”这个词来说,里面含有形容词“好吃”,但前面我说了,搜索引擎不会区分词性,只会区分语气。这里的“最”也就代表了语气,而“好吃”只是作为名词来看待。大家可以百度“好糖果”和“好 糖果”,看看百度的结果,就可以发现这个问题了。排名靠前的,往往是带有疑问语气或者加重语气的标题。

这次就写到这吧,写的有些乱,下次整理一下。同样,也要申明一下,以上内容小部分为个人理解,大部分为别人分享的内容。有这方面兴趣的朋友可以到微博找我:http://www.weibo.com/se6en

热门地区

乳山 信宜 图们 秦皇岛 洪江 南川 汾阳 茂名 临汾 凌海 太原 奎屯 金昌 胶南 临海 朔州 临沂 黄山 溧阳 吴忠 铜陵 和田 简阳 乐山 乌苏 吉安 枣庄 宝鸡 赤峰 开原 灵宝 安徽 青铜峡 渭南