零、为什么要进行地方分类信息网站的重复信息判断?
答案很简单,大量的重复的垃圾信息页面会降低你的网站权重。
由于目前绝大多数地方分类信息网站的信息排序方式,都是采用ID倒序,即按照时间顺序排列,新信息在前,旧信息在后。这就无形中让一些垃圾信息发布者为了获得较好的排名,而每天甚至每个小时都不停的发布自己的信息,他们才不会管到底这样会不会制造大量的重复垃圾信息,他们只想着,如果能上了你的网站首页(因为很多网站都在首页调用了某栏目的最新信息)或者排在其他同行的前面,累点无所谓。
虽然这样可以增加网站的人气,也能够提高数据量,但是对于SEO方面来说,无疑是致命的。廊坊卡卡在初期,为了尽量满足广大信息发布者的要求,并没有进行这方面信息的判断,随着信息量的上升,重复信息也越来越多,而且趋势也越来越严重,直到有一天,发现从店铺、促销频道为入口的流量,骤降50%以上,才发现事情的严重性:因为充斥着大量重复、垃圾信息(这些信息发布者往往会同时在很多分类信息网站发布完全相同的内容),店铺、促销频道被降权。
根据关键词排行榜的统计,很多以前排名很好的关键词,排到了第二页、第三页甚至完全消失。
一、避免重复信息的几种方式
于是经过廊坊卡卡团队的研究,制定出了一套专门针对分类信息网站的重复信息判断规则和方案,拿出来,与广大站长共享,也期待着能够得到大家的批评指正,从而提高方案的可行性和效率。
方法一:改变排序规则
从信息发布者的目的来看,很明确,就是要让自己排在前面、排在首页,在网站现有的规则下,他只有通过重新发布信息来获得好的排名。因此,网站可以更改排序规则,规定店铺信息按照用户好评度排序,或按照浏览量排序,或者在首页只调用推荐的信息,而不是最新信息,那么新发布的店铺,是很难马上排到前边的,这样自然会打击很多信息发布者的积极性,因为不能看到效果,他们也就不会使劲的发新信息了。同时,信息发布者为了能够获得好的排名,反而会去推广自己的链接,让别人来顶或者浏览。缺点:新店铺难有出头之日,而信息发布者为了获得更高的浏览量而去推广链接,万一推广过度,被QQ、百度贴吧、百度知道等封了域名,可就得不偿失了。
方法二:增加更新功能
该操作方法简单易行,只需要在用户的个人中心,发布信息的后面增加一个“更新”按钮,则用户点击该按钮,信息自动更新为当天发布,排到最前面,这样方便了信息发布者,也避免了制造重复页面。当然会有一些人一天到晚不停的在那点,排在前边全是他的信息,怎么办?那我们可以设置更新次数限制,一天只能更新N次,超过N次,不允许更新。当然,如果你的网站人气很旺,你甚至可以通过这个功能来收费!不过信息发布者想想就知道了,为了能够手工的排在最前边,还不如直接买你的广告位划算呢。
方法三:禁止重复信息的发布
这是截流,从根源上禁止重复信息发布,并且不提供任何的解决方案,就是告诉信息发布者,你已经发过了,不用再发了。这样做的缺点也很明显:影响信息发布者的情绪。但这样做也可能会导致你的广告位销量上升。
二、重复信息判断规则
廊坊卡卡在经过多重分析论证的基础上,决定对不同频道采取不同的解决方法,例如针对房产频道,因为房产信息本身的内容差异率就极低,如果信息再重复,那么必然会造成更大的重复,对SEO极为不利。所以,禁止重复信息发布是首要任务。
以房产频道的房屋出售信息为例,我们先看一下廊坊卡卡的房产出售列表页http://www.lfkaka.com/fclist-1.html,通过分析,我们发现,该类信息具有以下值得作为判断依据的字段:
(1) 联系电话
(2) 小区/楼盘名称
(3) 地址
(4) 面积
(5) 户型
(6) 售价
(7) 详细介绍
(8) 标题
(9) 所在楼层
(10) 总楼层
但是,如果我们仅仅是根据这些字段是否相同来决定一条信息是否重复,那么信息发布者肯定会通过修改详情中的文字、标题上加个空格之类的方法,来绕过重复判断机制,成功发布出去。
因此,我们要把容易被修改的和不容易被修改的数据分开对待,姑且称之为必比条件和辅助条件。其中必比条件,表示不容易被修改的信息,只要有稍微的改动,该信息就不再真实。而辅助条件,是可以被修改,进行小范围的修改不影响信息真实性的条件。
必比条件:联系电话、小区/楼盘名称(廊坊卡卡已经搜集了廊坊地区近400个小区及其别名并记录在数据库中,因此小区/楼盘名称的格式基本固定)、户型、所在楼层、总楼层
辅助条件:地址、面积(用户很可能通过修改小数点来绕过重复判断机制)、售价(理由同面积)、详细介绍、标题
我们知道,在信息真实性的前提下,当他的必比条件有任何一个不同的时候,该信息肯定是不同的。(关于信息真实性判断,我们另文详述)
所以,我们在判断重复时,首先去判断必比条件,当必比条件有任何一条不同时,将信息视为非重复信息;当必比条件完全相同时,则去判断辅助条件,由辅助条件决定信息是否重复。
由于辅助条件比较容易通过微小的修改造假,因此,无法通过完全比较来作为判断依据,这时候要采用模糊判断法(模糊判断必然会造成误差,但我们只能尽量避免)。
首先,我们判断辅助条件中的五个条件的相似度,各个条件的判断方法不同,对于面积和售价,我们要判断他的一个范围而非绝对数值或单纯的去掉小数点,比如,100平米的房子,我们要去跟所有101>N>90之间的房子去比较,根据差值,计算相似度。而对于地址、标题、详情,我们要随机的去截取足够长的一段文字,在去除标点符号和空格的情况下,比较其相似程度,并计算相似度。
然后,取相似度的平均数,如果该平均数超过了某一固定值M,则判断该条信息为重复。如果未超过M,则认为该信息不重复。(M值作为一个判断相似力度的指标,由网站管理员进行调整,M值越高,判断机制越宽松,但也容易漏掉真正的重复信息;M值越低,则判断机制越严格,但也容易误伤真实非重复信息。因此,M值需要站长根据自己网站的实际情况,采取抽样调查的方式获得,并长期观察用户反应,及时调整。)
本文观点均参考自廊坊卡卡(http://www.lfkaka.com )团队会议记录,转载请注明。
真诚的希望广大同行能留下您的宝贵意见和建议,不胜感激!
感谢 zilly 的投稿
江西省上饶市广信区三清山中大道588号7栋5号
电话:0793-8313026 7094119
传真:0793-8313026
手机:18079306668 13576325382 曾
邮箱:174216168@qq.com
QQ:174216168
Copyright © 2008-2019 (srlrcm.cn) 猎人传媒. All Rights Reserved.
赣ICP备08101270号-1 百度统计