HTTP 404

TOC
  1. 1. 404
    1. 1.1. 日常404
    2. 1.2. 作用
  2. 2. soft 404
    1. 2.1. soft 404带来的问题

折腾了一个晚上的github pages 一直是404 真是特么分分钟想哭,既然这样,那就来看看404到底是什么东西好了。

404

404 根据维基百科的定义,此信息代表客户端在浏览网页时,服务器无法正常提供信息,或是服务器无法回应且不知原因。直观体现在用户使用过程中就是在访问某个页面的时候却发现特么这页面不存在。。

日常404

众所周知,这样的错误页面给用户体验肯定是不好的,所有的主机都提供客制化404页面的功能,不能假设这些页面不存在,搜索引擎就不会来爬行这种网址,由于种种的原因,网上任何地方都很有可能出现指向你的域名的URL,比如说:网页URL生成规则改变、网页文件更名或移动位置、导入链接拼写错误等,导致原来的URL地址无法访问;当Web 服务器接到类似请求时,会返回一个404状态码,告诉浏览器要请求的资源并不存在。搜索引擎蜘蛛会跟踪这种错误URL,访问不存在的页面。HTTP 404 错误意味着链接指向的网页不存在,即原始网页的URL失效,这种情况经常会发生,很难避免!解决方法是:把缺少的网页文件恢复到正确的位置,重新设置网络服务。对于用户来讲,需要检查你所输入的网络地址是否正确。

作用

那么404页面到底是干啥的?

404页面的目的是:告诉浏览者其所请求的页面不存在或链接错误,同时引导用户使用网站
其他页面而不是关闭窗口离开。搜索引擎蜘蛛在请求某个URL时得到“404”状态回应时,即知道该URL已经失效,便不再索引该网页,并向数据中心反馈将该URL表示的网页从索引数据库中删除,当然,删除过程有可能需要很长时间。

而当搜索引擎得到“200”状态码时,则会认为该url是有效的,便会去索引,并会将其收录到索引数据库,于是就出现了即便页面是404,却依然返回200状态的用法, 这种方法称为soft 404.

soft 404

soft 404带来的问题

首先,软404错误等于告诉搜索引擎通过这个已经不存在的网址可以找到实际的网页,结果,搜索引擎会花很多时间在您的网站上爬行和索引一些并不存在、而且经常重复的URL

这会给您网站的索引覆盖率造成负面影响——由于搜索引擎分配给各个网站的抓取索引时间是有限制的,蜘蛛被这种软404错误误导并花了大量时间爬行一些并不存在的网页,您的一部分含有独特内容的希望被展示的网页反而有可能无法被及时发现,或者不能被经常性访问,这样最直接就影响了网站的正确收录.

其次,软404错误会给访问者带来困惑。不存在的网页,服务器却返回200状态码,表示网页存在并正常访问,搜索引擎就会爬行和索引这个页面,页面就有可能展示在用户搜索结果中,访问者进入页面后,得到的却是一个错误页面

访客评论