22春學期(高起本1709-1803、全層次1809-2103)《網(wǎng)絡爬蟲與信息提取》在線作業(yè)-00003
試卷總分:100 得分:100
一、單選題 (共 20 道試題,共 40 分)
1.PyMongo中邏輯查詢表示小于的符號是()
A.$gt
B.$lt
C.$gte$$lte
2.在Mac OS下安裝MongoDB使用命令() install mongodb
A.brew
B.apt-get
C.sudo
D.apt
3.服務器端記錄信息確定用戶身份的數(shù)據(jù)是
A.session
B.cookies
C.moonpies
D.localstorage
4.在Scrapy工程的settings.py文件中,哪個配置項,如果設(shè)置為True,那么Scrapy就會自動跳過網(wǎng)站不允許爬取的內(nèi)容()
A.ROBOTSTXT_ OBEY
B.ROBOTSTXT_JUDGE
C.ROBOTSTXT
D.ROBOTSTXT_ IF
5.下列哪項不是HTTP的請求類型()
A.GET
B.POST
C.PUT
D.SET
6.使用UI Automator獲取屏幕上顯示的文本內(nèi)容的操作是得到相應控件后使用命令()
A.content
B.text
C.title
D.body
7.當爬蟲運行到y(tǒng)ield scrapy.Request()或者yield item的時候,下列哪個爬蟲中間件的方法被調(diào)用?
A.process_spider_output()
B.process_spider_exception()
C.process_spider_input()
D.process_start_ requests()
8.Redis中查看一個列表長度,使用關(guān)鍵字()
A.len
B.length
C.llen
D.count
9.Python中列表可以用()方法在末尾添加元素
A.add
B.append
C.plus
D.+
10.打開終端,輸入(),屏幕上會出現(xiàn)Python的路徑
A.python path
B.path python
C.which python
D.python which
11.python中可以用來將圖片中的文字轉(zhuǎn)換為文本的第三方類庫是
A.lxml
B.requests
C.beautifulsoup
D.pytesseract
12.Redis中如果不刪除列表中的數(shù)據(jù),又要把數(shù)據(jù)讀出來,就需要使用關(guān)鍵字()
A.range
B.lrange
C.srange
D.pop
13.請問按哪個鍵可以打開Chrome自帶的開發(fā)者工具()
A.F10
B.F1
C.F11
D.F12
14.Python操作CSV文件可通過()容器的方式操作單元格
A.列表
B.元組
C.字典
D.集合
15.當需要把Python里面的數(shù)據(jù)發(fā)送給網(wǎng)頁時,需要先轉(zhuǎn)換成()字符串
A.Python
B.Json
C.正則表達式
D.Ajax
16.Python中Object=[1, 2, 3, 4, 5],則Objcet是()
A.列表
B.元組
C.字典
D.集合
17.Python中若定義object="12345",則print(object[::-1])輸出()
A.1
B.5
C.54321
D.程序報錯
18.HTTP狀態(tài)碼401表示
A.請求報文中可能存在語法錯誤
B.請求需要通過HTTP認證
C.請求資源的訪問被拒絕
D.服務器上沒有請求的資源
19.如果使用Python的數(shù)據(jù)結(jié)構(gòu)來做類比的話,MongoDB中文檔相當于一個()
A.列表
B.元組
C.字典
D.集合
20.在Python中,為了使用XPath,需要安裝一個第三方庫()
A.lxml
B.xml
C.xpath
D.path
二、多選題 (共 10 道試題,共 20 分)
21.針對解析源代碼的BeautifulSoup對象,構(gòu)造時BeautifulSoup(網(wǎng)頁源代碼, '解析器')中的解析器可以為()
A.html
B.html.parser
C.lxml
D.xml
22.MongoDB中獲取名字為set1的集合的語句為()
A.database.set1
B.database('set1')
C.database['set1']
D.database{'set1'}
23.下列說法錯誤的是()
A.mitmproxy的強大之處在于它還自帶一個mitmdump命令。這個命令可以用來運行符合一定規(guī)則的Python腳本,并在Python腳本里面直接操作HTTP和HTTPS的請求,以及返回的數(shù)據(jù)包。
B.命令行中執(zhí)行mitmdump -s parse_request.py即可運行python 腳本
C.使用python可以自定義返回的數(shù)據(jù)包,如 response.headers,就是返回的頭部信息
D.如果返回的是JSON類型的字符串,python無法進行解析。
24.使用BeautifulSoup對象后可以使用()來查找內(nèi)容
A.find_all
B.find
C.search
D.search_all
25.以下哪些可以獨立成為Python編譯器()
A.Pycharm
B.IDLE
C.Eclipse
D.Visual Studio 2010
26.Redis中的值可以支持()
A.列表
B.哈希
C.集合
D.有序集合
27.要使用tesseract來進行圖像識別,需要安裝兩個第三方庫
A.requests
B.beautifulsoup
C.Pillow
D.pytesseract
28.在配置ios使用Charles的操作中,正確的有()
A.對于蘋果設(shè)備,首先要保證計算機和蘋果設(shè)備聯(lián)在同一個Wi-Fi上。
B.選擇“HTTP代理”下面的“手動”選項卡,在“服務器”處輸入計算機的IP地址,在“端口”處輸入8888
C.輸入完成代理以后按下蘋果設(shè)備的Home鍵,設(shè)置就會自動保存。
D.安裝完成證書以后,在設(shè)置中打開“關(guān)于本機”,找到最下面的“證書信任設(shè)置”,并在里面啟動對Charles證書的完全信任
29.以下HTTP狀態(tài)碼表示服務器本身發(fā)生錯誤的是
A.400
B.503
C.302
D.500
30.以下HTTP狀態(tài)碼表示服務器沒有正常返回結(jié)果的是
A.200
B.301
C.404
D.500
三、判斷題 (共 20 道試題,共 40 分)
31.Python中字符串切片以后的結(jié)果還是字符串
32.打碼平臺都是靠機器使用OCR技術(shù)識別圖片上的文字。
33.驗證碼必須通過手動填充識別。
34.代理中間件的可用代理列表一定要寫在settings.py里面
35.charles配置中,安裝完成證書以后,在設(shè)置中打開“關(guān)于本機”,找到最下面的“證書信任設(shè)置”,并在里面啟動對Charles證書的完全信任。
36.MongoDB 是一個基于分布式文件存儲的數(shù)據(jù)庫,,速度遠快過Redis
37.爬蟲的源代碼通過公開不會對被爬蟲網(wǎng)站造成影響
38.一般來說在頁面都通過GET將用戶登錄信息傳遞到服務器端。
39.爬蟲文件無法從Pycharm運行和調(diào)試,只能通過命令行的方式運行。
40.通用搜索引擎的目標是盡可能大的網(wǎng)絡覆蓋率,搜索引擎服務器資源與網(wǎng)絡數(shù)據(jù)資源互相匹配
41.Python中相比于findall方法,search方法對于從超級大的文本里面只找第1個數(shù)據(jù)特別有用,可以大大提高程序的運行效率。
42.MongoDB URI的格式為: mongodb://服務器IP或域名:端口@用戶名:密碼
43.Redis中查詢列表長度命令llen中l(wèi)代表left,即從左側(cè)開始數(shù)
44.middlewares.py是下載器中間件
45.需要實名認證的打碼網(wǎng)站更加安全可靠。
46.開源庫pytesseract的作用是將圖像中文字轉(zhuǎn)換為文本。
47.要實現(xiàn)Charles對Android抓包,其過程比iOS稍微復雜一點。這是因為不同的Andorid設(shè)備,安裝證書的入口可能不一樣
48.Python中包含字典的列表頁可以轉(zhuǎn)換成JSON字符串
49.在有spiders何setting.py這兩項的情況下,可以寫出爬蟲并且保存數(shù)據(jù),items.py和pipelines.py文件是原作者的失誤而導致的冗余文件。
50.Python中函數(shù)返回值的個數(shù)可以是多個