百度搜索引擎工作原理-深圳网站优化推广公司

百度搜索引擎工作原理

  • 作者:
  • 发表时间:2023-09-04 22:14:24
  • 来源:
  • 阅读:263

关于百度以及其它搜索引擎的工作原理,其实大家已经讨论过很多,但随着科技的进步、互联网业的发展,各家搜索引擎都发生着巨大的变化,并且这些变化都是飞快的。我们设计这个章节的目的,除了从官方的角度发出一些声音、纠正一些之前的误读外,还希望通过不断更新内容,与百度搜索引擎发展保持同步,给各位站长带来*新的、与百度高相关的信息。本章主要内容分为四个章节,分别为:抓取建库;检索排序;外部投票;结果展现。

 

互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:BaiduspdierGooglebotSogou Web Spider等。

Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的*链接关系,不断的发现新URL并抓取,尽*大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的*链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

下图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。

spider抓取系统的基本框架图

Baiduspider 主要抓取策略类型

上图看似简单,但其实Baiduspider在抓取过程中面对的是一个*级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:

1、抓取友好性
        互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。

通常情况下,*基本的是基于ip的压力控制。这是因为如果基于域名,可能存在一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题。实际中,往往根据ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度spider将优先按照站长的要求进行抓取压力控制。

对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。

 

2、常用抓取返回码示意
        简单介绍几种百度支持的返回码:
        1)*常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
        2503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
        3403代表“Forbidden”,认为网页目前禁止访问。如果是新urlspider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
        4301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

 

3、多种url重定向的识别
        互联网中一部分网页因为各种各样的原因存在url重定向状态,为了对这部分资源正常抓取,就要求spiderurl重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh重定向和js重定向。另外,百度也支持Canonical标签,在效果上可以认为也是一种间接的重定向。

 

4、抓取优先级调配
        由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到*优的抓取效果。

 

5、重复url的过滤
        spider在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到*核心的是快速查找并对比,同时涉及到url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面,这将视为同一个url来对待。

 

6、暗网数据的获取
        互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。

7、抓取反作弊
        spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等等。

 

每天3个名额,免费诊断竞价账户,帮您找出问题所在
提高企业投入产出比(ROI)
点击咨询

相关内容推荐

蓟县网站制作公司诈骗网站制作奶茶网页设计制作网站报价网站制作与网站建设实际报告地图网站制作流程文件树制作查询网站男装网站制作书签婚庆产业网站制作要求姓氏头像怎么制作网站嵩县手机网站制作高新区企业网站制作哪家效果好统考网站视频制作福州简单网站制作网站制作 模版快手制作头像的网站效果好的网站制作报价朋友圈小视频广告制作网站网站制作面试题东城区制作个人的网站玉环机械网站的导航栏如何制作背包兔网站制作行程表石马镇网站制作南宁市网站制作公司制作快速响应式网站济宁网站制作企业顺德企业网站制作龙岩网站制作干花花束大兴专业制作企业网站中山网站制作 必推易维互联科技局网站制作贴纸制作环形字体的网站鸡西推广网站制作南园最好用的网站制作网站制作一个页面多少钱长沙 网站制作公司 网络服务福州去哪里有制作网站软件手机表白制作网站空白网站制作哪个网站可以看西餐制作节目珍爱网站制作雪糕鄂州标书制作网站电脑制作网站免费新华社区网站制作制作家乡网站教学反思运城企业网站制作企业台州旅游网站制作得多少钱河北网站制作方案制作数学的网站可以制作人图像的网站有哪些好的菜谱网站教你制作短视频制作人交流网站佛山网站制作及推广方案qq空间皮肤怎么制作网站诸暨网站制作要学哪些语言桐乡网站制作属于什么部门宁波 网站制作 研发园钟祥家政网站制作个人制作一个网站的费用迅捷画图在线制作网站方言网站制作头像毕节制作微网站在线数据制作图片网站汤阴县网站制作推广哪家价格低闪灵海报制作网站沈阳网站制作贴纸勇往直前电影网站制作小网站的制作软件巴中网站制作收费周星驰表情包在线制作网站顺德网站制作案例交友网站制作素材黑龙江网站制作手工电脑制作动态表情包网站诸暨网站制作费用包括哪些有哪些好的菜谱网站教你制作如何制作第二页网站苹果网站制作表情包化妆品网站制作手工江阴专业3dvr制作网站答题 网站 制作asp.net+制作网站网站制作如何上线手机免费网站制作哪个好永嘉营销网站制作拉拉网站视频制作顺德网站制作案例黄贝外贸仿牌网站制作哪家快宝贝视频制作的网站制作邀请函用什么网站比较好美赞臣网站制作书签网站制作五人分工怎么制作名片网站租网站制作贴纸MCC网站制作头像网站制作周期越南网站如何制作网站安卓app在线制作智能网站制作雪糕故宫网站制作贴纸东阳如何设计制作一个网站宣传模板网站制作龙泉响应式网站制作网站建设专业开发网站制作公司gif模板在线制作网站如何制作网站标志尚志购物网站制作无锡长安企业网站制作印刷制作网站怎么制作网站关于拼多多宁夏银川网站制作咨询网站制作皆选超速云建站站长网站制作冰淇淋制作公司网站书籍闽江路租房网站制作瑞安祝桥镇网站制作多少钱投稿网站制作书签婚庆网站制作手工制作家乡的政府网站静态网站制作毕设论文长沙专业网站制作得多少钱阎良区网站制作找哪家港交所网站制作小玩具临江网站制作推广高级图表制作在线网站个人nas制作网站OK卡网站制作网站制作中横屏和竖屏怎么办汕头制作网站公司宁波企业网站制作高端的龙岩网站制作头像app网站开发专业制作团队蚌埠网站制作视频的app长春微网站制作深圳网页制作网站建设哪里好湖州购物网站开发制作链接网站的软件制作诸暨制作网站需要哪些软件如何跟制作网站洽谈衢州哪个网站在线制作相册在线图片视频制作网站南宁网站制作蛋糕教程武汉网站制作市场价音响制作网站哪个好miui官网网站制作zip沈阳旅游网站制作天水手机网站制作网站制作开发 发票 怎么填写生日快乐网站制作免费珠海机械网站制作网站制作模板web头像制作带字体网站百事网站制作手工制作网站用哪个软件叫什么手机网站制作表格教程兼职图片制作网站适合学生制作的电商网站网站模板制作雪糕连云港企业制作网站密山网站制作服务网站建设制作文字教程大学生网站设计制作建设河南网站制作酉阳自适应网站制作墨染七情音乐制作团队官方网站崖州网站制作公司湖北移动网站制作企业网站设计制作app河南省制作网站公司嘉善教学网站制作需要注意什么网站图片滚动制作效果昆山网站制作有效吗义乌服装公司网站制作多少费用sorry表情制作网站制作视频网站需要什么iis搭建网站如何网页制作三明响应式网站制作瑞安一个商城网站制作多少钱重庆网站制作收费明细表大家一起制作的网站空白网站制作渭南手机网站制作网站导航 制作制作参考文献的网站有什么海盐怀宁网站制作哪里靠谱小学制作网站首页说课稿不错书网站制作湖州手机怎么简单制作网站源码深圳佛山网站制作h5制作网站官网门头沟公司网站制作哪家好制作微学堂网站微信公众号网站制作素材影响网站制作进度一个人制作一个网站需要多久WWE网站制作雪糕长春星宿网站制作公司电话海口网站制作培训吉林模板网站制作ps在线制作照片网站自制斗图在线图片制作网站

合作伙伴

深圳网站优化推广公司

龙岗网络公司
深圳网站优化
龙岗网站建设
坪山网站建设
百度标王推广
天下网标王
SEO优化按天计费
SEO按天计费系统