《網(wǎng)絡(luò)爬蟲與信息提取》20春期末考核-00001
試卷總分:100 得分:100
一、單選題 (共 20 道試題,共 40 分)
1.如果使用Python的數(shù)據(jù)結(jié)構(gòu)來(lái)做類比的話,MongoDB中文檔相當(dāng)于一個(gè)()
A.列表
B.元組
C.字典
D.集合
答案:C
2.使用UI Automatorr輸入文字的操作是得到相應(yīng)控件后使用命令()
A.settext
B.set
C.set_text
D.text
答案:C
3.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)存放爬蟲文件?()
A.spiders文件夾
B.item.py
C.pipeline.py
D.settings.py
答案:A
4.HTTP常用狀態(tài)碼表明服務(wù)器正忙的是()
A.500
B.503
C.403
D.404
5.如果很多爬蟲同時(shí)對(duì)一個(gè)網(wǎng)站全速爬取,那么其實(shí)就是對(duì)網(wǎng)站進(jìn)行了()攻擊
A.XSS
B.DOS
C.DDOS
D.跨域
6.使用UI Automatorr判斷元素是否存在的操作是得到相應(yīng)控件后使用命令()
A.exist
B.exists
C.isnull
D.contains
7.帶上通過(guò)Chrome瀏覽器從評(píng)論頁(yè)面復(fù)制而來(lái)的()再發(fā)起請(qǐng)求,可以減少爬蟲被網(wǎng)站封鎖的概率
A.Cookie
B.Html
C.Headers
D.CSS
8.Redis中查看一個(gè)列表長(zhǎng)度,使用關(guān)鍵字()
A.len
B.length
C.llen
D.count
9.使用Xpath獲取文本使用()
A.text
B.text()
C.content
D.content()
10.使用python定制mitmproxy,下面的語(yǔ)句請(qǐng)求的是()。{req.headers["User-Agent"]}
A.headers
B.文本內(nèi)容
C.目標(biāo)網(wǎng)站
D.user-agent
11.Python中Object={1, 2, 3, 4, 5},則Objcet是()
A.列表
B.元組
C.字典
D.集合
12.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)存放爬蟲的各種配置信息?()
A.spiders文件夾
B.item.py
C.pipeline.py
D.settings.py
13.Redis是一個(gè)開源的使用()語(yǔ)言編寫
A.ANSI C
B.C++
C.JAVA
D.Python
14.某些網(wǎng)站在發(fā)起Ajax請(qǐng)求時(shí)會(huì)攜帶()字符串用于身份驗(yàn)證
A.Token
B.Cookie
C.ReqTime
D.sum
15.使用UI Automatorr點(diǎn)亮屏幕的操作是得到相應(yīng)控件后使用命令()
A.wakeup
B.light
C.bright
D.sleep
16.Chrome的開發(fā)者工具中哪個(gè)選項(xiàng)可以查找到cookies
A.Elements
B.Sources
C.Network
D.Peformance
17.Scrapy中使用Xpath獲得的結(jié)果調(diào)用了.extract方法,結(jié)果以()形式生成
A.列表
B.元組
C.字典
D.集合
18.以下哪個(gè)命令是創(chuàng)建文件夾命令()
A.curl
B.tar -zxvf
C.mkdir
D.cp
19.可以通過(guò)()繞過(guò)網(wǎng)站登錄。
A.session
B.cookies
C.moonpies
D.localstorage
20.Python中把列表轉(zhuǎn)換為集合需要使用##函數(shù)
A.set
B.list
C.convert
D.change
二、多選題 (共 5 道試題,共 10 分)
21.Python中的容器有()
A.列表
B.元組
C.字典
D.集合
22.HTTP常用狀態(tài)碼表明表明服務(wù)器本身發(fā)生錯(cuò)誤的有()
A.403
B.404
C.500
D.503
23.Python中哪種容器生成后可以修改內(nèi)容
A.列表
B.元組
C.字典
D.集合
24.最常見的HTTP請(qǐng)求類型有()
A.GET
B.POST
C.SEND
D.RECEIVE
25.BS4可以用來(lái)從()中提取數(shù)據(jù)
A.HTML
B.XML
C.數(shù)據(jù)庫(kù)
D.JSON
三、判斷題 (共 10 道試題,共 20 分)
26.在Linux的終端使用apt-get命令安裝一系列依賴庫(kù)時(shí),其中如果存在有已經(jīng)安裝的庫(kù),會(huì)覆蓋掉之前的庫(kù)重新安裝
27.使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要開通內(nèi)網(wǎng)訪問(wèn)即可,不許經(jīng)過(guò)輸入密碼
28.process_spider_output(response, result, output)是在下載器中間件處理完成后,馬上要進(jìn)入某個(gè)回調(diào)函數(shù)parse_xxx()前調(diào)用
29.Robo 3T與RoboMongo是完全不一樣的軟件
30.Python正則表達(dá)式中“.*?”是非貪婪模式,獲取最短的能滿足條件的字符串。
31.Redis插入數(shù)據(jù)都是插入到列表右側(cè),因此讀取數(shù)據(jù)也是從右側(cè)讀取
32.爬蟲登錄需要識(shí)別驗(yàn)證碼可以先把程序關(guān)閉,肉眼識(shí)別以后再重新運(yùn)行
33.在Ubuntu下若要運(yùn)行Redis可以使用CMD進(jìn)入解壓以后的文件夾并運(yùn)行命令redis-server.exe redis.windows.conf啟動(dòng)Redis
34.middlewares.py是下載器中間件
35.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。
四、主觀填空題 (共 4 道試題,共 8 分)
36.使用了RedisSpider作為爬蟲的父類以后,爬蟲會(huì)直接監(jiān)控##中的數(shù)據(jù),并不讀取start_urls中的數(shù)據(jù)。
37.一般通過(guò)##表達(dá)式來(lái)解析網(wǎng)頁(yè)數(shù)據(jù)
38.實(shí)現(xiàn)異步加載需要利用##技術(shù)
39.Python中定義函數(shù)關(guān)鍵字為##
五、簡(jiǎn)答題 (共 2 道試題,共 10 分)
40.Python正則表達(dá)式中search和findall方法比較
41.在MacOS下安裝Scrapy,當(dāng)pip的網(wǎng)絡(luò)受到干擾導(dǎo)致安裝的速度很慢時(shí),應(yīng)該如何應(yīng)對(duì)?
六、名詞解釋 (共 4 道試題,共 12 分)
42.multiprocessing
43.URI
44.CSS
45.HTML