设计爬虫时,通常都回避动态网页(如Charkabarti,Joshi,Punera,&Pennock,2002)。识别动态网页时,只需要看URL中是否出现问号,含问号的就是动态网页。忽略动态网页是因为它们容易造成蜘蛛陷阱。蜘蛛陷阱理论上是一个无限的网页集合,而蜘蛛永远不能完整地遍历这个集合。在线日历就是一个容易被忽略的蜘蛛陷阱,它生成的动态网页中可以标上任何日期,并包含指向后一天网页的链接。一个爬虫从这个日历中找到一个网页后,便会无止境地请求后一天的网页。
动态的页面(url)属于蜘蛛陷阱,搜索引擎蜘蛛一旦爬行进入,很有可能会出不来、或是难以流畅的抓取,所以建议网页一定是静态或是经过伪静态处理的

本站文章均为永诺网站建设摘自权威资料,书籍,或网络原创文章,如有版权纠纷或者违规问题,请即刻联系我们删除,我们欢迎您分享,引用和转载,我们谢绝直接复制和抄袭!感谢...
猜你喜欢
联络方式:
电话:150 3833 0582
邮箱:278477169@qq.com
扫描名片

我们猜你喜欢
-
foreach和for循环的区别
for循环for循环,通过下标,对循环中的代码反复执行,功能强大,可以通过index取得元素。在处理比较复杂的处理的时候较为方便。foreach循环foreach,从头到尾,对于集合中的对象遍历。...
-
付费阅读医药小程序开发
产品详细功能介绍开发 付费阅读是通过手机APP中购买阅读的权限电子读物,把传统的自媒体通过电子书付费的形式转移在了移动的APP上进行阅读,方便人们获取知识,也有助于...
-
如何做好网站建设和推广工作
目前,营销型网站建设是最热门的网站,它可以优化企业形象或发挥很大的潜力。那么营销网站建设的特点是什么?时代创信网站建设公司下面将为您提供深入的分析。 对于企业...
-
专门租公寓的app软件开发
来到大城市都需要先安稳住才能在这里继续打拼,而单身公寓就成为了年轻人的喜爱。虽然单身公寓面积不大,确很实用,租客只需拎包入住即可。现在的租房市场APP都是为年轻人打...
-
风水玉石占卜转运小程序功能开发
风水占卜的方式有很多,例如:八字形式、卜卦类型、奇门遁甲、面相观察、看手相、紫薇、风水等等,都是无法得到全部的信息。 像八字、卜卦、奇门都是推算运势的,并不是知...