【南開】《網(wǎng)絡(luò)爬蟲與信息提取》20春期末考核(標(biāo)準(zhǔn)答案)

可做奧鵬全部院校在線離線作業(yè)畢業(yè)論文QQ:3230981406 微信:aopopenfd777

發(fā)布時(shí)間:2020-09-06 02:57:51來(lái)源:admin瀏覽: 81 次

《網(wǎng)絡(luò)爬蟲與信息提取》20春期末考核-00001

試卷總分:100  得分:100

一、單選題 (共 20 道試題,共 40 分)

1.如果使用Python的數(shù)據(jù)結(jié)構(gòu)來(lái)做類比的話,MongoDB中文檔相當(dāng)于一個(gè)()

A.列表

B.元組

C.字典

D.集合

答案:C

 

2.使用UI Automatorr輸入文字的操作是得到相應(yīng)控件后使用命令()

A.settext

B.set

C.set_text

D.text

答案:C

3.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)存放爬蟲文件?()

A.spiders文件夾

B.item.py

C.pipeline.py

D.settings.py

答案:A

 

4.HTTP常用狀態(tài)碼表明服務(wù)器正忙的是()

A.500

B.503

C.403

D.404

 

5.如果很多爬蟲同時(shí)對(duì)一個(gè)網(wǎng)站全速爬取,那么其實(shí)就是對(duì)網(wǎng)站進(jìn)行了()攻擊

A.XSS

B.DOS

C.DDOS

D.跨域

 

6.使用UI Automatorr判斷元素是否存在的操作是得到相應(yīng)控件后使用命令()

A.exist

B.exists

C.isnull

D.contains

 

7.帶上通過(guò)Chrome瀏覽器從評(píng)論頁(yè)面復(fù)制而來(lái)的()再發(fā)起請(qǐng)求,可以減少爬蟲被網(wǎng)站封鎖的概率

A.Cookie

B.Html

C.Headers

D.CSS

 

8.Redis中查看一個(gè)列表長(zhǎng)度,使用關(guān)鍵字()

A.len

B.length

C.llen

D.count

 

9.使用Xpath獲取文本使用()

A.text

B.text()

C.content

D.content()

 

10.使用python定制mitmproxy,下面的語(yǔ)句請(qǐng)求的是()。{req.headers["User-Agent"]}

A.headers

B.文本內(nèi)容

C.目標(biāo)網(wǎng)站

D.user-agent

 

11.Python中Object={1, 2, 3, 4, 5},則Objcet是()

A.列表

B.元組

C.字典

D.集合

 

12.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)存放爬蟲的各種配置信息?()

A.spiders文件夾

B.item.py

C.pipeline.py

D.settings.py

 

13.Redis是一個(gè)開源的使用()語(yǔ)言編寫

A.ANSI C

B.C++

C.JAVA

D.Python

 

14.某些網(wǎng)站在發(fā)起Ajax請(qǐng)求時(shí)會(huì)攜帶()字符串用于身份驗(yàn)證

A.Token

B.Cookie

C.ReqTime

D.sum

 

15.使用UI Automatorr點(diǎn)亮屏幕的操作是得到相應(yīng)控件后使用命令()

A.wakeup

B.light

C.bright

D.sleep

 

16.Chrome的開發(fā)者工具中哪個(gè)選項(xiàng)可以查找到cookies

A.Elements

B.Sources

C.Network

D.Peformance

 

17.Scrapy中使用Xpath獲得的結(jié)果調(diào)用了.extract方法,結(jié)果以()形式生成

A.列表

B.元組

C.字典

D.集合

 

18.以下哪個(gè)命令是創(chuàng)建文件夾命令()

A.curl

B.tar -zxvf

C.mkdir

D.cp

 

19.可以通過(guò)()繞過(guò)網(wǎng)站登錄。

A.session

B.cookies

C.moonpies

D.localstorage

 

20.Python中把列表轉(zhuǎn)換為集合需要使用##函數(shù)

A.set

B.list

C.convert

D.change

 

二、多選題 (共 5 道試題,共 10 分)

21.Python中的容器有()

A.列表

B.元組

C.字典

D.集合

 

22.HTTP常用狀態(tài)碼表明表明服務(wù)器本身發(fā)生錯(cuò)誤的有()

A.403

B.404

C.500

D.503

 

23.Python中哪種容器生成后可以修改內(nèi)容

A.列表

B.元組

C.字典

D.集合

 

24.最常見的HTTP請(qǐng)求類型有()

A.GET

B.POST

C.SEND

D.RECEIVE

 

25.BS4可以用來(lái)從()中提取數(shù)據(jù)

A.HTML

B.XML

C.數(shù)據(jù)庫(kù)

D.JSON

 

三、判斷題 (共 10 道試題,共 20 分)

26.在Linux的終端使用apt-get命令安裝一系列依賴庫(kù)時(shí),其中如果存在有已經(jīng)安裝的庫(kù),會(huì)覆蓋掉之前的庫(kù)重新安裝

 

27.使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要開通內(nèi)網(wǎng)訪問(wèn)即可,不許經(jīng)過(guò)輸入密碼

 

28.process_spider_output(response, result, output)是在下載器中間件處理完成后,馬上要進(jìn)入某個(gè)回調(diào)函數(shù)parse_xxx()前調(diào)用

 

29.Robo 3T與RoboMongo是完全不一樣的軟件

 

30.Python正則表達(dá)式中“.*?”是非貪婪模式,獲取最短的能滿足條件的字符串。

 

31.Redis插入數(shù)據(jù)都是插入到列表右側(cè),因此讀取數(shù)據(jù)也是從右側(cè)讀取

 

32.爬蟲登錄需要識(shí)別驗(yàn)證碼可以先把程序關(guān)閉,肉眼識(shí)別以后再重新運(yùn)行

 

33.在Ubuntu下若要運(yùn)行Redis可以使用CMD進(jìn)入解壓以后的文件夾并運(yùn)行命令redis-server.exe redis.windows.conf啟動(dòng)Redis

 

34.middlewares.py是下載器中間件

 

35.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。

 

四、主觀填空題 (共 4 道試題,共 8 分)

36.使用了RedisSpider作為爬蟲的父類以后,爬蟲會(huì)直接監(jiān)控##中的數(shù)據(jù),并不讀取start_urls中的數(shù)據(jù)。

 

37.一般通過(guò)##表達(dá)式來(lái)解析網(wǎng)頁(yè)數(shù)據(jù)

 

38.實(shí)現(xiàn)異步加載需要利用##技術(shù)

 

39.Python中定義函數(shù)關(guān)鍵字為##

 

五、簡(jiǎn)答題 (共 2 道試題,共 10 分)

40.Python正則表達(dá)式中search和findall方法比較

 

41.在MacOS下安裝Scrapy,當(dāng)pip的網(wǎng)絡(luò)受到干擾導(dǎo)致安裝的速度很慢時(shí),應(yīng)該如何應(yīng)對(duì)?

 

六、名詞解釋 (共 4 道試題,共 12 分)

42.multiprocessing

 

43.URI

 

44.CSS

 

45.HTML

 


作業(yè)咨詢 論文咨詢
微信客服掃一掃

回到頂部