什么是Google熊猫算法?
Google Panda (熊猫算法)是Google对其搜索结果排名算法的一次重大变革,于 2011 年 2 月首次发布。此项变革旨在降低“低质量网站”或 “内容稀少”网站,尤其是“内容农场”的排名,并在搜索结果顶部附近返回质量较高的网站。
CNET报告称,新闻网站和社交网站的排名飙升,而包含大量广告的网站排名下降。 据报道,这一变化影响了近 12% 的搜索结果排名。 Panda 推出后不久,包括谷歌网站站长论坛在内的许多网站都充斥着对爬虫/版权侵权者的抱怨,他们的排名比原创内容的网站更高。谷歌一度公开要求提供数据点,以帮助更好地检测爬虫。
2016 年, 熊猫算法更新时,担任谷歌网络垃圾负责人的Matt Cutts评论道: Panda 给谷歌通过一些合作伙伴的收入造成了很大损失,谷歌实际上需要在财报电话会议上披露 Panda 的重大影响。但我相信推出 Panda 是正确的决定,不仅为了用户的长期信任,也为了为出版商提供更好的生态系统。
谷歌的 熊猫算法 在 2011 年 2 月首次推出后,又进行了几次更新,其影响在 2011 年 4 月传遍了全球。为了帮助受影响的出版商,谷歌在其博客上发布了一份咨询报告, 从而为网站质量的自我评估提供了一些指导。谷歌在其博客上列出了 23 个要点,回答了 什么才算高质量网站? 的问题,旨在帮助网站管理员 了解谷歌的思维方式 。 自 2015 年以来,它已被纳入谷歌的核心算法。
Panda 这个名字来自谷歌工程师 Navneet Panda,他开发的技术使得谷歌能够创建和实现该算法。
Google Panda于 2011 年 2 月首次推出,是 Google 消除黑帽 SEO 策略和网络垃圾邮件的举措之一。
当时,用户对于 “内容农场” 影响力日渐扩大的抱怨已愈发强烈。
随之而来的是 Panda 算法,用于对页面进行质量分类,该算法在内部使用,并以人工质量评级为模型,并将其作为排名因素。
快进到 2021 年,你现在可以看到,作为谷歌的第一步,关注质量和用户体验有多么重要。
这里有您需要了解的有关 Google Panda 的所有信息——更多关于它推出的原因、您需要了解的算法以及完整的时间表。
谷歌为何创建 Panda
2010年,谷歌搜索结果质量的下降以及 内容农场 商业模式的兴起成为人们反复讨论的话题。
正如谷歌的阿米特·辛加尔 (Amit Singhal) 后来在 TED 上告诉《连线》杂志的那样, 2009 年底的 Caffeine 更新大大加快了谷歌快速索引内容的能力,同时也将 一些不太好 的内容引入了他们的索引中。
谷歌的 Matt Cutts 告诉《连线》杂志,这个新内容问题实际上并不是垃圾邮件问题,而是 我能做的最起码的事情是什么,才能不成为垃圾邮件?
ReadWriteWeb指出:
到 年底,根据 comScore 的统计,其中两个内容农场——Demand Media(eHow 的恶名)和 Answers.com——已稳固地跻身美国前 20 大网络资产之列。Demand Media 是内容农场的典型代表,也是迄今为止最大的内容农场,每天发布 7,000 条内容……该公司的运营基于一个简单的公式:创建大量针对搜索引擎的小众、大多平淡无奇的内容,然后通过社交软件使其病毒式传播,并通过广告赚取大量资金。
2011 年 1 月,《商业内幕》发表了一篇标题文章,概括了一切:谷歌的搜索算法已被毁掉,是时候回归策展了。
在另一篇文章中,他们指出:
Demand 正在通过对 Google 生态系统进行大规模套利来施展最聪明的伎俩。Demand 与数千名自由职业者签订合同,制作数十万条低质量内容,这些内容的主题是根据其搜索价值来选择的,其中大部分是由 Google 驱动的。由于 Google 的算法更看重多产和持续的内容,而不是高质量的内容,因此 Google 的算法将 Demand 内容放在搜索引擎结果页面的较高位置。
毫无疑问,这样的标题对谷歌产生了很大的影响,谷歌对此做出了回应,开发了熊猫算法。
Google Panda 更新发布
Panda 于 2011 年 2 月 23 日首次推出。
2 月 24 日,谷歌发布了有关此次更新的博客文章,并表示他们 对我们的排名进行了相当大的算法改进——这一变化明显影响了 11.8% 的查询 。
更新的明确目的如下:
此次更新旨在降低低质量网站的排名——这些网站对用户的附加值低、内容抄袭自其他网站或用处不大。与此同时,它将为高质量网站提供更好的排名——这些网站拥有原创内容和信息,如研究、深入报告、深思熟虑的分析等。
Search Engine Land 创始人丹尼·沙利文 (Danny Sullivan) 最初将其称为 “农民” 更新。然而,谷歌后来透露,内部将其称为熊猫”,这是提出主要算法突破的工程师的名字。
SearchMetrics 和 SISTRIX 等公司对 赢家和输家 的分析发现,受到打击最严重的网站对于当时从事 SEO (搜索引擎优化)行业的任何人来说都非常熟悉。
这些网站包括 wisegeek.com、ezinearticles.com、suite101.com、hubpages.com、buzzle.com、articlebase.com 等等。
值得注意的是,内容农场 eHow 和 wikiHow 在更新后表现更好。后续更新也会损害这些更 可接受 的内容农场,Demand Media在 2012 年第四季度损失了640 万美元。
SEO 行业最明显的变化就是它对 文章营销 的打击非常大,SEO 从业者过去常常在 ezinearticles.com 等网站上发布低质量的文章作为链接建设的一种形式。
显然,受打击最严重的网站设计不够吸引人、广告更具侵扰性、字数过多、编辑标准低、措辞重复、研究存在缺陷,总体来说,没有给人提供帮助或可信的印象。
我们对熊猫算法的了解
当谷歌与《连线》杂志讨论算法开发时,辛加尔表示,他们首先将测试文档发送给人工质量评估员,并向他们提出诸如 您愿意将您的信用卡信息提供给这个网站吗?您愿意将这个网站开的药给您的孩子吗? 等问题。
卡茨说,工程师设计了 一套严格的问题,包括‘你认为这个网站有权威性吗?这个网站如果登在杂志上可以吗?这个网站上是否有过多的广告?’
据采访称,他们随后通过将各种排名信号与人工质量排名进行比较来开发该算法。
辛加尔将其描述为在超空间中找到一个将好地点与坏地点分开的平面。
辛加尔后来发布了以下23 个问题作为该算法所基于的指导问题:
- 您会相信本文提供的信息吗?
- 这篇文章是由熟悉该主题的专家或爱好者撰写的吗?还是其性质比较肤浅?
- 该网站是否有关于相同或相似主题、且关键词变化略有不同的重复、重叠或多余的文章?
- 您愿意向该网站提供您的信用卡信息吗?
- 这篇文章是否存在拼写、文体或事实错误?
- 这些主题是否由网站读者的真正兴趣所驱动,还是网站通过猜测什么内容可能在搜索引擎中排名靠前来生成内容?
- 文章是否提供原创内容或信息、原创报道、原创研究或原创分析?
- 与搜索结果中的其他页面相比,该页面是否具有实质性的价值?
- 对内容的质量控制程度如何?
- 文章是否描述了故事的两个方面?
- 该网站是否是其主题的公认权威网站?
- 内容是否由大量创作者批量制作或外包,或分布在大型网站网络中,以至于单个页面或网站没有得到太多的关注或关心?
- 文章编辑得好吗?还是显得很草率或仓促撰写?
- 对于与健康相关的查询,您会信任该网站提供的信息吗?
- 当提到名称时,您是否会认出该网站是权威来源?
- 这篇文章是否对该主题提供了完整或全面的描述?
- 这篇文章是否包含深刻的分析或不言而喻的有趣信息?
- 这是您想要收藏、与朋友分享或者推荐的页面吗?
- 这篇文章是否有过多的广告分散或干扰了主要内容?
- 您希望在印刷杂志、百科全书或书籍中看到这篇文章吗?
- 文章是否简短、内容不丰富、或者缺少有用的细节?
- 页面制作时是否十分用心并注重细节,还是不太注重细节?
- 当用户看到这个网站的页面时会抱怨吗?
考虑一下 Google 的人工质量评估员需要考虑的问题也是一个好主意。以下关于低质量内容的引言意义重大:
考虑这个例子:大多数学生必须为高中或大学写论文。许多学生通过以下一种或多种方式走捷径来节省时间和精力:
- 在线购买论文或请别人代写。
- 编造事情。
- 写作速度很快,无需草稿或编辑。
- 在报告中填充大图片或其他分散注意力的内容。
- 从百科全书中复制整个报告或通过改变一些单词或句子结构来解释内容。
- 使用众所周知的事实,例如 阿根廷是一个国家。人们生活在阿根廷。阿根廷有边界。
- 使用大量词语来传达基本思想或事实,例如 熊猫吃竹子。熊猫吃很多竹子。竹子是熊猫最好的食物。
2011 年 3 月,SEO By The Sea认定Biswanath Panda 可能是该算法的同名工程师。
在一篇论文中,比斯瓦纳斯帮助作者详细说明了如何使用机器学习算法对登陆页面上的用户行为进行准确分类。
虽然该论文不是关于 Panda 算法的,但作者根据其同名算法的参与以及主题表明 Panda 也是一种机器学习算法。
SEO 行业中的大多数人都认为 Panda 的工作原理是利用机器学习来准确预测人类对内容质量的评价。但不太清楚的是,机器学习算法会结合哪些信号来确定哪些网站质量低下,哪些网站质量上乘。
Panda 和 Google EAT:
2014 年,谷歌在其搜索质量指南中引入了 EAT 原则,重点关注专业性、权威性和可信度。
自 2018 年以来,这些原则越来越受到营销人员的关注。
与 Panda 一样,后续更新和核心算法的变化注重内容质量和用户体验。
和 Panda 一样,重点是避免:
- 内容单薄且无信息量。
- 缺乏权威来源。
- 不可信的内容和可疑的链接。
Google Panda 恢复
从熊猫事件中恢复过来的道路既简单又充满挑战。
由于 Panda 通过其归类为高质量的内容来提升网站的性能,因此解决方案是提高内容的质量和独特性。
虽然说起来容易做起来难,但事实已反复证明,这正是复苏所需要的。
Alan Bleiweiss 帮助一个网站重写了 100 页的内容,从而帮助网站恢复正常。
WiredSEO 帮助一个网站从 Panda 算法的打击中恢复过来,他们修改了用户生成内容指南,鼓励用户提供更具体、更独特的个人简介,而不是从其他网站复制而来。该网站的用户之前使用过其他网站上的个人简介。不过,WiredSEO 还是鼓励他们修改个人简介,询问具体问题,从而制作出独特的个人简介,而不是重复的。
Google 熊猫神话
Panda 不涉及重复内容
关于 Panda最普遍的误解是它与重复内容有关。John Mueller 澄清说,重复内容与 Panda无关。Google 员工强调 Panda 鼓励独特的内容,但这比避免重复更深入。Panda 寻找的是真正独特的信息,为用户提供卓越的价值。
穆勒同样告诉一位博主,删除技术重复项实际上并不是一个优先事项,他们应该 思考一下与你所在领域的绝对顶级网站相比,你的网站有何不同 。
2021 年,谷歌的John Mueller解释说,重复内容并不是一个负面排名因素。
您是否应该删除内容来解决 Panda 问题?
2017 年,谷歌的 Gary Illyes在 Twitter 上表示: 我们不建议删除 Panda 的一般内容,而是添加更多 HighQ 内容。
John Mueller在 YouTube 上也发表了类似言论:
总体而言,网站的质量应该得到显著改善,这样我们才能信任内容。有时,我们看到这样的网站会有很多单调的内容,也许你从其他来源聚合了内容,也许有用户生成的内容,人们提交的文章质量较低,这些都是你可能想要查看并说我能做什么的东西;一方面,如果我想保留这些文章,也许可以阻止它们出现在搜索中。也许可以为这些东西使用 noindex 标签。
谷歌的反应一直是要么不索引,要么改进内容——除非是为了品牌推广,否则绝不会完全停止。
一般而言,删除内容应该从网站整体品牌的角度考虑,而不是为了取消熊猫惩罚。
熊猫算法与用户生成内容
Panda 并不专门针对用户生成的内容。尽管 Panda可以针对用户生成的内容,但它往往会影响那些产生低质量内容的网站,例如垃圾访客帖子或充斥着垃圾内容的论坛。
不要仅仅因为听说用户生成的内容 不好 或被宣传为 防熊猫 解决方案就删除它,无论是论坛、博客评论还是文章贡献。而是从质量角度看待它。
许多高排名网站都依赖于用户生成的内容——因此许多网站会因为删除此类内容而损失大量流量和排名。即使是博客文章上的评论也会导致其排名上升,甚至获得精选摘要。
字数不是影响因素
字数统计是 Panda 的另一个方面,SEO 专业人士经常会误解这一点。许多网站都会犯这样的错误:除非内容的字数超过一定的限制,否则网站不会发布任何内容,例如 250 字和 350 字。相反,Google 建议您考虑一下内容需要多少字才能吸引用户。
例如,许多网页的主要内容很少,但 Google 认为这些网页质量足够好,足以成为查询的精选摘要。在一个案例中,主要内容只有 63 个字,许多人很难以非垃圾的方式撰写 350 多个字长的关于该主题的文章。因此,您只需要足够的字数来回答查询即可。
联盟链接和广告并非直接针对目标
联盟网站和 为 AdSense 制作 的网站通常比其他网站更容易受到 Panda 的攻击,但这并不是因为它专门针对这些网站。
一个极端的例子是,一个网站的主要功能是通过广告或附属链接将用户引导到其他网站,其内容在互联网上广泛可用,或者是匆忙制作的,并且明确地是为了吸引来自搜索引擎的访问者而构建的。
穆勒也表示:“但与此同时,我们发现很多联盟会员基本上都是懒人,他们复制粘贴收到的信息,然后发布在自己的网站上。这种低质量的内容、单调的内容,我们很难在搜索结果中展示。”
换句话说,这些网站受到打击的原因都是一样的:它们未能提供引人注目、独特、吸引人的内容。
时间线
Panda 几乎肯定拥有最广泛的相关更新公开日期记录。部分原因是 Panda 是在 Google 核心算法之外运行的,因此内容评分仅在 Panda 新更新日期或临近日期受到影响。
这种情况一直持续到 2013 年 6 月 11 日,当时 Cutts 在 SMX Advanced 上表示,虽然 Panda 并未直接纳入 Google 的核心算法,但其数据每月更新一次,并在一个月内缓慢推出,结束了 Panda 更新对整个行业造成的突然影响。
因此熊猫提到2017年后将会消失。
编号约定有点令人困惑。
人们通常认为 Panda 算法的核心更新应该与 1.0、2.0、3.0 和 4.0 相对应,但没有任何更新被称为 3.0,而回想起来,3.1 并不是 Panda 的核心更新。
数据更新(更新搜索结果但不更新 Panda 算法本身)通常按照软件更新的预期进行编号(3.2、3.4、3.5 等)。但是,第 3 版算法的数据更新次数太多,以至于一度放弃了这种命名惯例,业界只是用 Panda 更新的总数(包括更新和核心更新)来指代它们。
即使掌握了这个命名约定,仍然不完全清楚 Panda 的所有小更新是否都只是数据刷新,或者其中一些更新是否也包含了新的信号。
无论如何,Panda 更新的时间表至少是众所周知的,如下所示:
- 1.0:2011 年 2 月 23 日。当时未命名的算法更新的第一次迭代推出(12% 的查询受到影响),震惊了搜索引擎优化行业和许多大公司,并有效地结束了当时存在的 内容农场 商业模式。
- 2.0(#2):2011 年 4 月 11 日。对核心 Panda 算法的首次更新。此更新纳入了其他信号,例如 Google 用户已屏蔽的网站。
- 2.1(#3):2011 年 5 月 9 日。业界首次将其称为 Panda 3.0,但 Google 澄清说,这只是一次数据更新,即将推出的 2.x 更新也是如此。
- 2.2(#4):2011 年 6 月 21 日
- 2.3(#5):2011 年 7 月 23 日
- 2.4(#6)国际版:2011 年 8 月 12 日。Panda 在除日本、中国和韩国以外的所有英语国家和非英语国家推出。
- 2.5(#7)和熊猫相关通量:2011 年 9 月 28 日。在此更新之后,2011 年 10 月 5 日,Cutts 宣布 预计未来几周会出现一些熊猫相关通量 。确认的通量日期为 10 月 3 日和 10 月 13 日。
- 3.0(#8):2011 年 10 月 19 日。Google 在 Panda 算法中添加了一些新信号,并重新计算了该算法对网站的影响。
- 3.1(#9):2011 年 11 月 18 日。Google 宣布进行小幅更新,影响不到 1% 的搜索。
- 3.2(#10):2012 年 1 月 18 日。Google 确认该日期发生了数据刷新。
- 3.3(#11):2012 年 2 月 23 日。数据刷新。
- 3.4 (#12):2012 年 3 月 23 日
- 3.5(#13):2012 年 4 月 19 日
- 3.6(#14):2012 年 4 月 27 日
- 3.7(#15):2012 年 6 月 8 日。排名工具显示的数据刷新比其他近期更新更为重大。
- 3.8(#16):2012 年 6 月 25 日
- 3.9(#17):2012 年 7 月 24 日
- 3.9.1(#18):2012 年 8 月 20 日。这是一个相对较小的更新,标志着业界指定的新命名约定的开始。
- 3.9.2 (#19):2012 年 9 月 18 日
- #20:2012 年 9 月 27 日。一次相对较大的 Panda 更新也标志着又一个命名惯例的开始。业界认识到 9.xx 命名惯例的尴尬,并认识到他们所谓的 Panda 3.0 的更新可能会持续很长时间。
- #21:2012 年 11 月 5 日
- #22:2012 年 11 月 21 日
- #23:2012 年 12 月 21 日。一次影响略大的数据刷新。
- #24:2013 年 1 月 22 日
- #25:2013 年 3 月 14 日。此更新已预先公布,工具表明它大约在这一天发生。Cutts 似乎暗示这将是 Panda 直接纳入 Google 算法之前的最后一次更新。然而,后来发现事实并非如此。
- 舞蹈 :2013 年 6 月 11 日。这不是更新日期。不过,当天 Cutts 澄清说,Panda 不会直接纳入算法,而是每月更新一次,速度会慢得多,而不是像过去那样突然刷新数据。
- 恢复 :2013 年 7 月 18 日。这次更新似乎是为了纠正一些过于严厉的熊猫活动而进行的调整。
- 4.0(#26):2014 年 5 月 19 日。此日期发生了一次重大 Panda 更新(影响了 7.5% 的查询)。业内大多数人认为这是对 Panda 算法的更新,而不仅仅是数据刷新,尤其是考虑到 Cutts 关于缓慢推出的声明。
- 4.1(#27):2014 年 9 月 23 日。另一个重大更新(影响 3% 到 5% 的查询)包括对 Panda 算法的一些更改。由于推出速度缓慢,确切日期尚不清楚,但公告是在 9 月 25 日发布的。
- 4.2(#28):2015 年 7 月 17 日。Google 宣布将花数月时间推出 Panda 更新。由于推出过程缓慢,目前尚不清楚影响有多大,也不清楚具体何时发生。这是最后一次确认的 Panda 更新。
- 核心算法整合:2016 年 1 月 11 日。谷歌确认Panda 已被整合到核心谷歌算法中,显然是 2015 年 7 月 17 日缓慢推出的一部分。换句话说,Panda 不再是谷歌算法在完成工作后应用的过滤器,而是作为其另一个核心排名信号被整合。然而,已经澄清的是,这并不意味着 Panda 分类器实时起作用。
熊猫算法今日:2024
Panda 现已牢牢嵌入 Google 的机器学习算法中,因此,与 Panda 相关的更新不会被视为独立的。
随着 熊猫算法 成为 Google 核心算法的一部分,我们不再看到单独的 Panda 更新。核心算法更新(尤其是那些注重质量和内容的更新)在理论上与 Panda 相关。
展望
2024 年,你应该牢记 熊猫算法 的核心理念。
避免使用黑帽策略和垃圾链接,专注于为用户提供优质内容和体验。Google对机器学习和技术的使用继续遵循这些原则。
Panda 这个名字可能不会出现,但 熊猫算法的原则至今仍然适用。