互联网是功能集合,更是存储空间;海量数据孕育巨大价值,数据采集需求迫切。网络爬虫已经成为自动获取互联网数据的主要方式,数据就在那里,它是你的吗?请跟随我们,5周时间,掌握利用Python爬取网络数据并提取信息的"小"本领。还等什么?快写个爬虫探索世界吧!
北京理工大学Python网络爬虫与信息提取考试题答案
测验1: Python网络爬虫之规则 (第1周)
- Requests库中,下面哪个最可能是由于URL格式错误造成异常?…
- 在Requests库中,体现推送数据操作的函数是:…
- 在Requests库中,以下哪个函数是基础性函数?即,只需要一个函数即可完成全部功能。…
- 以下选项不是Python Requests库提供方法的是:…
- Requests库中,检查Response对象返回是否成功的状态属性是:…
- Requests库中,以下代表从服务器返回HTTP协议头所推荐编码方式的属性是:…
- Requests库中,以下代表从服务器返回HTTP协议内容部分猜测获得编码方式的属性是:…
- Requests库中,下面哪个是由于DNS查询失败造成的获取URL异常?…
- Requests库中的get()方法最常用,下面哪个说法正确?…
- 下面哪些功能网络爬虫做不到?…
测验2: Python网络爬虫之提取 (第2周)
- 下面哪个Python库不能用于提取网页信息?…
- 下面代码中,BeautifulSoup指什么?…
- 在bs4库中,下面说法错误的是:…
- 下面代码中,href属于哪个类别? <a class="title"href="https://WWW.io/ws/demo.html">TEXT&…
- 获得soup对象中,能狗够获得a标签全部属性的代码是: from bs4 import BeautifulSoup soup Beautiful…
- 下面哪个不是信息提取的思路? A无视格式,直接搜索找到所需提取的信息。 B结合部分格式解析和搜索…
- 为什么Beautiful Soup库叫这个名字?…
- Beautiful Soup库不可加载的解析器是:…
- 不属于bs4库遍历标签树方法的是:…
- 关于Beautiful Soup库说法错误的是:…
测验3: Python网络爬虫之实战 (第3周)
- 以下不是正则表达式优势的选项是:…
- 正则表达式:^[A-Za-zd]+$的含义是什么?…
- 正则表达式:d{3}-d{8}|d{4}-d{7}能匹配哪个?…
- re库可以使用如下方式表示正则表达式:r'[1-9]d{5}',其中r是什么意思?…
- 正则表达式:^[A-Za-z]+$的含义是什么?…
- 正则表达式:^-?d+$的含义是什么?…
- 正则表达式:^[0-9]*[1-9][0-9]*$的含义是什么?…
- 正则表达式:[1-9]d{5}的含义是什么?…
- 正则表达式:[u4e00-u9fa5]的含义是什么?…
- Beautiful Soup库与re库之间关系,描述正确的是:…
测验4: Python网络爬虫之框架 (第4周)
- “网络爬虫与信息提取”相关的技术路线?…
- Requests库的方法与HTTP协议请求方法对应,下面哪个不是Requests库的对应方法?…
- 判断一个网络爬虫应用可行性的最主要因素是什么?…
- 下面哪个不是网络爬虫可能引发的问题?…
- 以下不是Scrapy框架组成模块的是:…
- 在scrapy框架中,数据流最初始的请求来自于:…
- 在Scrapy框架中,以下不是数据流所承载数据元素的是:…
- 在Scrapy框架中,请求从Spider模块发出后,被Engine发送到:…
- 在Scrapy框架中,Downloader爬取页面内容后,结果经Engine发送到哪个模块?…
- 在Scrapy框架中,Spiders模块产生的HTML分析结果经Engine模块发送给哪个模块?…