浅谈网页防作弊的技术思路、方法与处理

原创 SEO培训  2019-11-14 22:54  阅读 31 views 次 评论 0 条

一、网页防作弊的背景

在商业利益的驱使下,许多网站管理员会对搜索引擎排名进行分析,并采取一些改进排名的措施。这种行为本身是无可指责的,许多优化行为都符合搜索引擎的排序规则,但同时也存在大量的恶意优化行为,因此,网页的防作弊也是目前所有商业搜索引擎需要解决的一个重要难题。

快速排技术(VX:Seokuaipai)的孔宇今天谈到了一些常见的网页作弊方法,网页防作弊的总体思路,以及淘宝搜索防作弊机制与传统网络搜索防作弊机制的异同。

网页上的反作弊

第二,网页内容作弊的类型:

从大分类的角度看,主要的欺骗方法包括内容欺骗、链接欺骗、隐藏欺骗以及近年来Web2.0欺骗的兴起。作者认为,内容欺骗与当前的业务密切相关,因此本文将重点研究这类欺骗及其相关的反欺骗思想。

内容欺骗的目的是通过仔细修改或调整网页内容,使网页在搜索引擎排名中获得与其网页不成比例的高排名。常见的欺骗方法包括关键词重复、不相关的查询词欺骗、图片ALT标签文本欺骗、网页标题欺骗、网页重要标签欺骗和网络元信息欺骗。通过这些常见的欺骗手段,作弊者的欺骗意图无非是:

1.增加作弊词的频率以影响排名;

2.增加与主题无关的内容或热点查询,以吸引流量;

3.在关键位置插入目标作弊词会影响排名。

谷歌在2011年2月宣布了一种针对低质量网络内容的高调排名算法,据报道,该算法影响了约11.8%的页面排名,具体针对DemandMedia(成立于2006年5月,拥有500名员工,业务范围广泛,包括域名注册、内容广告交易等)。谷歌的主要业务之一是拥有65个社交媒体网站。该网站代表内容场作弊。

内容农场运营商以低廉的成本雇佣大量自由职业者来支持他们的付费写作,但内容通常质量不佳,很多文章都是通过复制贴纸来完成的。但关键是,他们研究了流行的搜索引擎搜索术语,并将这些词有机地添加到他们的写作内容中。这样,普通搜索引擎用户在通过大量低质量内容来吸引流量时,就会被吸引到内容场网站上,内容农场可以赚取广告费。

与传统的作弊方法相比,内容场不使用机器剪接内容等机械方法,但通过雇人撰写,这种作弊搜索引擎往往很难给出一个明确的作弊定义,同时也严重影响了搜索结果的质量,因此对作弊技术的处理非常困难。

反作弊技术

第三,网页防作弊技术的总体思路:

目前,搜索引擎作弊的手段层出不穷,如同对方的搜索引擎一样,也相应地调整了技术思维,所以如果你梳理出反作弊的思路,就会发现有很多技术方法,很难理清思路。尽管如此,如果对大多数反作弊思想进行深入分析,我们会发现在总体思路上仍有规律可循。从基本观点来看,反欺骗方法大致可分为三种:信任传播模型、不信任传播模型和异常发现模型。

1.信任传播模型:在海量的网页数据中,通过一定的技术手段或人工的半手工手段,可以筛选出一些完全可信的页面(可以理解为白名单)。该算法以白名单中的页面为起点,给白名单中的页面节点一个较高的信任评分,以及其他页面是否作弊。它是根据它与白名单中的节点的链接来确定的。白名单中的节点通过链接关系向外传播信任分数。如果节点的信任分数高于某一值,则被视为没有问题,如果低于此值,则将被判定为欺骗。

2.不信任通信模型:就大型技术框架而言,它非常类似于信任通信模型。最大的区别是,初始页面本身不是可信的页面节点,而是一组确认欺骗的页面(即,我们称为每天的黑名单)。黑名单中的页面节点被赋予不信任评分,不信任关系通过链接传播。如果最终页面节点的不信任分数大于设定值,则被判定为欺骗。

异常发现模型:如简单分析网页内容查找词频、链接等异常、复杂点分析网站用户行为异常等,异常发现模型往往与信任传播模型和不信任传播模型相结合。

事实上,单纯的技术手段目前还不能完全解决作弊的问题,所以现在一般都是用户在浏览搜索结果甚至上网时报告作弊页面,搜索引擎公司将有一个专门的团队对可疑页面进行审计和主动检测,被验证的页面可以放在黑名单或白名单中。总之,有必要将人工手段与技术手段相结合,以达到更好的防作弊效果。

四、一般链接防作弊方法:

链接防作弊法

1.TrustRank算法(属于信任传播模型)

2.BadRank算法(属于不信任传播模型,据说是google使用的一种反链接欺骗算法。注意:不要链接到作弊页面)

3.垃圾邮件等级(属于异常发现模型)

垃圾邮件排名的基本假设是:

3.1.对于普通页,其支持页的PangRank值应满足幂律分布,即PR值大小。

3.2.作弊网页各不相同,一般有以下三个特点:

I.支持者的页数非常多。

二.支持者页面的PangRank值很低。

三、支持页的PangRank值在一个小的浮动范围内

特殊链路防作弊技术

V.特殊链接防作弊技术:

1.确定相互关联的农场:

网页的统计分布规律出链,作弊网页出链不符合幂律分布。

二、网页进入链的统计分布规律,欺骗网页进入链不符合权力分配规律。

网址名称的统计特征,欺骗网页的网站更长,包括更多的点、行和数字等。

IV.虽然许多作弊页面的URL地址不同,但它们对应于相同的IP地址。

五、网页的特点随着时间的推移而变化,如进入链的增长率、脱链的增长率等。

六.链接农场的结构特征,以及农场上网页之间的链接非常密切。

2.识别谷歌爆炸案:

确定锚文本是否与指定页面有语义关系

六.识别内容时的作弊:

1.重复该关键字,以确定同一关键字是否持续出现在文本中某个大小的窗口中。

2.在标题关键词上作弊

3.计算句子长度的规律、停止词的分布和词类在正常页中的分布。

反隐藏欺骗

七.反隐瞒欺骗行为:

隐藏欺骗的常见方法包括网页隐藏和网页重定向。

1.识别隐藏页面

在网页上做两次爬行,第一次正常搜索引擎爬行,第二次模拟手动访问网页。这种方法非常昂贵。

2.确定网页重定向

Strider系统提供了一种基于网页重置来识别哪些作弊页面的解决方案。

八、石榴算法简介:

2013年5月17日下午,百度的网络搜索防作弊团队在百度的网站管理员平台上宣布,一周后将正式推出一种名为"石榴算法"的新算法。新算法将专注于纠正包含大量妨碍用户正常浏览的不良广告的网页。百度表示,此举是为了尊重搜索用户,净化互联网生态环境!

石榴算法简介

释放日期:2013年5月17日

目标目标:针对大量不良广告页面,阻碍用户正常浏览、低质量内容页面。石榴算法尤其是以垃圾广告页面为代表,弹出大量低质量的弹出窗口广告,混淆页面的主要内容。与以前的百度绿罗算法相对应,这是百度搜索引擎提高用户体验、提高搜索质量的有力手段。2013年5月17日下午,百度的网络搜索防作弊团队在百度站长平台上宣布,一种新算法"石榴算法"将在一周内正式推出。新算法将侧重于纠正包含大量不良广告的页面,这些广告会阻止用户正常浏览。百度表示,此举是为了尊重搜索用户,净化互联网生态环境!

整改建议:有没有流行窗口广告?把它展示在主要内容位置?赶快摆脱它,获得短期效益,长期不满意,就像一笔贷款忘了还钱一样,感觉好像你赚了钱,其实你的信誉在别人心中逐渐减弱了。这种页面评分也会减少。

更多算法解释,请点击"谷歌,百度搜索引擎算法目录,近几年(不断更新。)"查看"。

本文地址:https://www.dgseo163.com/gzseo/7944.html
关注我们:请关注一下我们的微信公众号:扫描二维码黑帽seo | SEO技术核心算法培训_黑帽优化实战赚钱技术推广的公众号,QQ:97243828
版权声明:本文为原创文章,版权归 SEO培训 所有,欢迎分享本文,转载请保留出处!
NEXT:已经是最新一篇了

发表评论

游客评论


表情

私密评论