徐州网站SEO优化公司

搜索引擎如何工作 - 真的!

浏览:/ 2017-04-20

对于我们在SEO(或渴望)的人,有很多细节填补了我们的日子。服务器架构,301重定向,404错误,标题标签和其他各种事情。

有时,我们忘了坐下来,弄清楚这一切是什么意思。除此之外,大多数SEO从来没有接受过培训,只是在工作中挑选出来,而且大多数SEO并不知道搜索引擎如何工作,这并不奇怪。

什么时候最后一次坐下来考虑搜索引擎(如Google)如何真正工作?对于我来说,这是上个月在撰写有关最近的Google网站管理员环聊的信息以及关于链接拒绝的信息。

但在此之前,我认为这是真的吗8年或10年,因为我真的想到了。所以我们来解决一下。这是Google搜索引擎(Google)如何运作的高级解释。虽然术语和操作顺序可能会稍有变化,Bing和Yahoo使用类似的协议。

爬行索引
当我们说Google已经“索引”一个网站时,这意味着什么?对于搜索引擎优化,我们通过口语来表示,我们在Google上查看[site:
www.site.com]搜索网站。这显示了Google数据库中已添加到数据库中的页面 - 但从技术上看,它们不一定被抓取,这就是为什么您可以不时地看到这些页面:

 

由于该网站的robots.txt - 了解更多信息,因此此结果的描述不可用。
索引是完全不同的。如果你想简化它,可以这样思考:URL必须在被抓取之前被发现,并且必须先被抓取,才能被“索引”或者更准确地将它们中的某些单词与Google索引中的单词。

我的新朋友恩里科·阿尔塔维亚(Enrico Altavilla)以这种方式描述,我不认为我可以比他做得更好,所以我给你一个字:

(倒置)索引不包含文档,而是包含单词或短语的列表,并且对于每个单词或短语,都引用与该单词或短语相关的所有文档。

我们通俗地说“文件已经被索引”,但这真的意味着“与文件有关的一些文字现在指向文件”。以原始格式存档的文件存档在其他地方。
我的老朋友和前Google员工Vanessa Fox有此话要说:

Google了解URL ...然后将这些URL添加到其爬网调度系统。它重新列出了列表,然后以优先级顺序重新排列URL列表,并以该顺序进行爬网。

优先级是基于各种因素的...一旦页面被抓取,Google然后通过另一个算法过程来确定是否将页面存储在索引中。

这意味着Google不会抓取每个他们知道的网页,并且不会为每个抓取的网页建立索引。
以下是Google共享的管道的简化版本:
how-search-engines-work

需要注意的其他一些重要事项:

•Robots.txt只会阻止抓取页面。这就是为什么Google有时会在搜索结果中像上面的例子那样有页面。因为虽然Google能够根据诸如内部链接的内容将网页与文字相关联,但实际上无法实际抓取该网页的内容。

•页面级别的Noindex命令不是确定的。虽然Google可以抓取页面并将页面上的关联与索引相关联,但不应将该页面包含在搜索结果中。

不过,我看到Google已经在其公开记录中添加了无索引页面的情况,Google表示如果其他信号足够强大,该页面应该被索引,Google可能会忽略该命令。这是Google与其他方面不同的一个重要领域。雅虎和Bing将尊重您的noindex命令,它们不会对页面索引或将其包含在搜索结果中。
要注意的另一个重要事情是,在Google了解该页面以及何时抓取和/或对其进行索引的某个时候,也会处理规范,参数排除以及各种其他元素。

链接和链接图
SEO需要了解的另一件事是链接以及它们的处理方式。从中学到的最重要的是在抓取事件期间不处理链接(以及扩展名PageRank)。换句话说,Google如上所述进行抓取,但在抓取期间不会考虑PageRank - 它单独完成。

这是什么意思?

PageRank尽管有许多人可能会说,但是衡量了链接的数量和质量。它没有连接到页面上的单词。
许多SEO认为PageRank有两个要素:域级别和页面级PageRank。相信域域级PageRank是确定域权限的一个因素,许多人认为用于决定如何对站点进行排名的因素

阅读"搜索引擎如何工作 - 真的!"的人还阅读

上一篇:如何优化数据库驱动的B2B网站

下一篇:人工智能是如何进行语音搜索的