注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

小新之家

心灵的放松地点

 
 
 

日志

 
 

Googlebot 抓取方式分享  

2010-10-05 23:14:00|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

"Googlebot 抓取方式"工具能让用户以 Googlebot 的方式查看网页。排查网页搜索结果很少的问题时,该工具特别有用。例如,在用富媒体文件显示内容的情况下,如果 Google 无法对其进行有效的抓取,则由该工具返回的页面可能不含这种内容。

由这种工具返回的信息包含:

  • 由服务器返回的 HTTP 响应 
  • 您提出抓取请求的日期和时间
  • HTML 代码
  • 网页中前 100 KB 的可见(可编入索引)文字。如果没有内容,则可能表明网页完全是通过 Javascript 或富媒体文件生成,没有以文字为主的内容。您应该审核这种文字,以确保其中没有意外的内容。如果其中包含异常内容,则可能表明您的网站已遭到攻击。(注意:Googlebot 抓取的内容可能会超过前 100 KB 的文字。
 如果网站已经被黑,则可用"Googlebot 抓取方式"工具识别有问题的网页。假定 www.example.com 的管理员张跃正在通过 Google 搜索自己的网站。发现自己的网站显示在泛滥成灾的"伟哥"等垃圾词语的搜索结果中,尤其是看到自己网站网页的源代码中没有这些词语时,他大吃一惊。幸运的是他的网站已在网站站长工具中通过验证,所以他用"Googlebot 抓取方式"工具来了解 Google 在其网站中看到的确切内容。这种工具可以显示所抓取网页的详情和内容,从中可以清楚地看到"伟哥"一词和其他垃圾词语。

如果恶意黑客突破网站安全防线后插入令人反感的内容,并进行伪装让普通用户无法发现,但 Googlebot 却能检测出来时,就会发生这种情况。如果不使用 Googlebot,大家看到的网站源代码都很正常,因此没有"Googlebot 抓取方式"工具问题就难以诊断。

Google 建议用"Googlebot 抓取方式"和诸如以下的其他工具来检验网站抓取的难易程度:

  • Test robots.txt:查看是否已在无意之中阻止 Googlebot 对自己网站中的所有页面或目录进行抓取
  • HTML 问题提示:查看为改善标题标记、元描述和其他可影响网站搜索性能的 HTML 元素而提出的建议
  • 抓取错误:查看 Google 难以抓取的网页。

您必须先在网站站长工具中添加并验证自己的网站,才能使用"Googlebot 抓取方式"。然后,按以下说明操作:

  1. 在网站站长工具首页上,点击所需的网站。
  2. 在控制台中的实验室下,点击 Googlebot 抓取方式
  3. 在显示的文本框中,键入要检查的网页的路径,然后点击抓取
  评论这张
 
阅读(177)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017