发新话题
打印

[技术] 文件 robots.txt 的新增特性及 REP meta 标签

文件 robots.txt 的新增特性及 REP meta 标签

我们已经改进了站长中心的分析工具,使之能理解网站地图(sitemap)的声明和相关的 URL。较早的版本并不认识网站地图,且仅仅理解绝对的 URL;其他的任何东西都被报错成“不理解你的语法”。现在改进后的版本会告诉你网站地图的 URL 和范围是否正确。您还可以对相关的 URL 测试并少了许多输入工作。
6 M$ G+ Y2 K( r' h' R
8 {3 f/ n4 B  t7 ^现在生成的报告也好多了。你可以在一行中知道多个问题的答案(如果有的话)。不像早期版本,一行仅第一个遇到的问题给出答案。同时,我们也在其他用以分析和验证的功能上取得了改进。7 n% {2 I9 n( U5 I
! h  Z8 G2 b1 O' x6 r
假设你负责域名 www.example.com,你希望搜索引擎索引你网站的除/ images 文件夹之外的一切内容。您还想确保你的网站地图被搜索引擎知道,那么你可以使用以下内容作为你的 robots.txt 文件:
: n" H, E* g' e. P; D* @
3 x6 ^- I* K" y1 Idisallow images, i) l& Z4 K5 e2 T. [' Z! \

( M0 j" P5 \5 u+ G; ?& M7 Y  {  zuser-agent: *2 s1 v9 f7 Z2 Q, S6 r- e1 o$ j
Disallow:4 ?# O3 F( n0 D9 f( h+ H5 L

  v( D# s( p( D6 u1 c) rsitemap: http://www.example.com/sitemap.xml7 x% B9 r- X. s" X# D3 n

7 b# ]! G. Z9 C8 }3 K. l你可以访问站长中心,使用 robots.txt 分析工具对你的网站进行测试,用这两个 URL 作测试:5 x5 }! v# \' y3 K! E2 z" K

# i; @2 r; H" Q9 Ehttp://www.example.com
  e+ Z/ b$ Z9 u3 X. p/archives$ i5 a+ X- z- |0 O
# A8 y- h3 \! a5 J" E) Q6 h
站长工具的较早版本将会报错:- \& W6 W) \5 \. o1 N2 D8 U
    / [" g- c4 C8 v% ~2 p, E

& c! f8 E! r( a! o
4 i' O3 }7 {! k# t改进版会告诉你关于robots.txt文件的更多信息:! D2 x) x% s, p9 o3 |
   
% N+ _+ x, |: n5 u, X! Y
0 G# T6 k% g! u
! @+ \5 o3 X7 p+ E3 e3 k你可以在 http://www.google.com/webmasters/tools 看到以上信息。" y7 `* @( l$ k0 b, \0 V
& T7 N( E. S6 H: F
我们还希望确保你听说过新的 unavailable_after 元标签,该标签由 Dan Crow 数周前在谷歌官方博客中宣布。该标签可增加你的站点和谷歌的 googlebot 间的互动。试想,对 www.example.com,有时你有一个临时性的新闻故事,限时公司促销,或一个宣传页,你可以对特定页面指定确切的日期和时间,来阻止被抓取和索引。9 k/ F. o% \. N9 M7 R

1 l/ A& j3 M. c& ^" V9 X) _1 I/ J让我们假设你的一个促销活动有效期截至 2007 年年底。在 www.example.com/2007promotion.html 的源码开始,你可以使用以下行:) q, a* l; d: k! c# a
9 a7 h( K% ~7 ]  P/ Y6 c
<META NAME="GOOGLEBOT"7 |) d/ b+ w5 \
CONTENT="unavailable_after: 31-Dec-2007 23:59:59 EST">* e- w' y5 f3 w# v( |( T7 u

- }  U$ m' |# r1 v4 u' z; Q另一个令人振奋的消息是新的 X-Robots-Tag 指令。它增加了机器人排除协议(REP)META 标签,该标签为非 HTML 网页提供支持!你终于可以控制对你的录像,电子表格,及其他索引文件类型的索引,就像控制对 HTML 页面的索引一样。还是上面的例子,比方说你的宣传页面是 PDF 格式。在文件 www.example.com/2007 promotion.pdf 中,你可以增加以下行:' W/ n+ }0 A1 J( T

" u4 i* ~- y, u! jX-Robots-Tag: unavailable_after: 31 Dec
/ b3 L( u& a* Z$ f& M/ S2007 23:59:59 EST8 ]: U) o: K" ~: l9 }: v, X

) j0 _  [& j2 v0 {. e3 i9 E请记住,REP META 标签可用于实现针对页面索引控制的 noarchive,nosnippet,及现在的 unavailable_after 标签。这和 robots.txt 不同,robots.txt 是对整个域名进行控制的。我们是应博客们和网站管理员的要求而增加这些特性的,请试用。
赠人玫瑰,手有余香。

TOP

发新话题