【南開】《網(wǎng)絡(luò)爬蟲與信息提取》20春期末考核(標(biāo)準(zhǔn)答案)

可做奧鵬全部院校在線離線作業(yè)畢業(yè)論文QQ:3230981406 微信:aopopenfd777

發(fā)布時(shí)間:2020-09-02 01:21:03來(lái)源:admin瀏覽: 43 次

可做奧鵬院校所有作業(yè),畢業(yè)論文,咨詢請(qǐng)?zhí)砑観Q:3230981406      微信:aopopenfd777




《網(wǎng)絡(luò)爬蟲與信息提取》20春期末考核-00001

試卷總分:100  得分:100

一、單選題 (共 20 道試題,共 40 分)

1.如果使用Python的數(shù)據(jù)結(jié)構(gòu)來(lái)做類比的話,MongoDB中文檔相當(dāng)于一個(gè)()

A.列表

B.元組

C.字典

D.集合

答案:C


2.使用UI Automatorr輸入文字的操作是得到相應(yīng)控件后使用命令()

A.settext

B.set

C.set_text

D.text

答案:C


3.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)存放爬蟲文件?()

A.spiders文件夾

B.item.py

C.pipeline.py

D.settings.py

答案:A


4.HTTP常用狀態(tài)碼表明服務(wù)器正忙的是()

A.500

B.503

C.403

D.404


5.如果很多爬蟲同時(shí)對(duì)一個(gè)網(wǎng)站全速爬取,那么其實(shí)就是對(duì)網(wǎng)站進(jìn)行了()攻擊

A.XSS

B.DOS

C.DDOS

D.跨域


6.使用UI Automatorr判斷元素是否存在的操作是得到相應(yīng)控件后使用命令()

A.exist

B.exists

C.isnull

D.contains


7.帶上通過(guò)Chrome瀏覽器從評(píng)論頁(yè)面復(fù)制而來(lái)的()再發(fā)起請(qǐng)求,可以減少爬蟲被網(wǎng)站封鎖的概率

A.Cookie

B.Html

C.Headers

D.CSS


8.Redis中查看一個(gè)列表長(zhǎng)度,使用關(guān)鍵字()

A.len

B.length

C.llen

D.count


9.使用Xpath獲取文本使用()

A.text

B.text()

C.content

D.content()


10.使用python定制mitmproxy,下面的語(yǔ)句請(qǐng)求的是()。{req.headers["User-Agent"]}

A.headers

B.文本內(nèi)容

C.目標(biāo)網(wǎng)站

D.user-agent


11.Python中Object={1, 2, 3, 4, 5},則Objcet是()

A.列表

B.元組

C.字典

D.集合


12.在Scrapy的目錄下,哪個(gè)文件負(fù)責(zé)存放爬蟲的各種配置信息?()

A.spiders文件夾

B.item.py

C.pipeline.py

D.settings.py


13.Redis是一個(gè)開源的使用()語(yǔ)言編寫

A.ANSI C

B.C++

C.JAVA

D.Python


14.某些網(wǎng)站在發(fā)起Ajax請(qǐng)求時(shí)會(huì)攜帶()字符串用于身份驗(yàn)證

A.Token

B.Cookie

C.ReqTime

D.sum


15.使用UI Automatorr點(diǎn)亮屏幕的操作是得到相應(yīng)控件后使用命令()

A.wakeup

B.light

C.bright

D.sleep


16.Chrome的開發(fā)者工具中哪個(gè)選項(xiàng)可以查找到cookies

A.Elements

B.Sources

C.Network

D.Peformance


17.Scrapy中使用Xpath獲得的結(jié)果調(diào)用了.extract方法,結(jié)果以()形式生成

A.列表

B.元組

C.字典

D.集合


18.以下哪個(gè)命令是創(chuàng)建文件夾命令()

A.curl

B.tar -zxvf

C.mkdir

D.cp


19.可以通過(guò)()繞過(guò)網(wǎng)站登錄。

A.session

B.cookies

C.moonpies

D.localstorage


20.Python中把列表轉(zhuǎn)換為集合需要使用##函數(shù)

A.set

B.list

C.convert

D.change


二、多選題 (共 5 道試題,共 10 分)

21.Python中的容器有()

A.列表

B.元組

C.字典

D.集合


22.HTTP常用狀態(tài)碼表明表明服務(wù)器本身發(fā)生錯(cuò)誤的有()

A.403

B.404

C.500

D.503


23.Python中哪種容器生成后可以修改內(nèi)容

A.列表

B.元組

C.字典

D.集合


24.最常見的HTTP請(qǐng)求類型有()

A.GET

B.POST

C.SEND

D.RECEIVE


25.BS4可以用來(lái)從()中提取數(shù)據(jù)

A.HTML

B.XML

C.數(shù)據(jù)庫(kù)

D.JSON


三、判斷題 (共 10 道試題,共 20 分)

26.在Linux的終端使用apt-get命令安裝一系列依賴庫(kù)時(shí),其中如果存在有已經(jīng)安裝的庫(kù),會(huì)覆蓋掉之前的庫(kù)重新安裝


27.使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要開通內(nèi)網(wǎng)訪問即可,不許經(jīng)過(guò)輸入密碼


28.process_spider_output(response, result, output)是在下載器中間件處理完成后,馬上要進(jìn)入某個(gè)回調(diào)函數(shù)parse_xxx()前調(diào)用


29.Robo 3T與RoboMongo是完全不一樣的軟件


30.Python正則表達(dá)式中“.*?”是非貪婪模式,獲取最短的能滿足條件的字符串。


31.Redis插入數(shù)據(jù)都是插入到列表右側(cè),因此讀取數(shù)據(jù)也是從右側(cè)讀取


32.爬蟲登錄需要識(shí)別驗(yàn)證碼可以先把程序關(guān)閉,肉眼識(shí)別以后再重新運(yùn)行


33.在Ubuntu下若要運(yùn)行Redis可以使用CMD進(jìn)入解壓以后的文件夾并運(yùn)行命令redis-server.exe redis.windows.conf啟動(dòng)Redis


34.middlewares.py是下載器中間件


35.在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。


四、主觀填空題 (共 4 道試題,共 8 分)

36.使用了RedisSpider作為爬蟲的父類以后,爬蟲會(huì)直接監(jiān)控##中的數(shù)據(jù),并不讀取start_urls中的數(shù)據(jù)。


37.一般通過(guò)##表達(dá)式來(lái)解析網(wǎng)頁(yè)數(shù)據(jù)


38.實(shí)現(xiàn)異步加載需要利用##技術(shù)


39.Python中定義函數(shù)關(guān)鍵字為##


五、簡(jiǎn)答題 (共 2 道試題,共 10 分)

40.Python正則表達(dá)式中search和findall方法比較


41.在MacOS下安裝Scrapy,當(dāng)pip的網(wǎng)絡(luò)受到干擾導(dǎo)致安裝的速度很慢時(shí),應(yīng)該如何應(yīng)對(duì)?


六、名詞解釋 (共 4 道試題,共 12 分)

42.multiprocessing


43.URI


44.CSS


45.HTML


作業(yè)咨詢 論文咨詢
微信客服掃一掃

回到頂部