《數(shù)據(jù)分析》20春期末考核
一、單選題 (共 20 道試題,共 20 分)
1.以下屬于關聯(lián)分析的是( )
A.CPU性能預測
B.購物籃分析
C.自動判斷鳶尾花類別
D.股票趨勢建模
正確答案:
2.潛在語義分析中,以()表示文本的語義內(nèi)容
A.話題
B.話題向量
C.語義向量
D.距離向量
正確答案:
3.聚類屬于()
A.有監(jiān)督學習
B.無監(jiān)督學習
C.強化學習
D.對抗學習
正確答案:
4.特征空間中兩個實例點的()是兩個實例點相似程度的反映。
A.關聯(lián)性
B.向量值
C.距離
正確答案:
5.閔式距離參數(shù)是()時代表曼哈頓距離
A.0
B.1
C.2
D.無窮
正確答案:
6.在文本信息處理系統(tǒng)中,所處理的原始數(shù)據(jù)是()
A.結構化的自然語言文本
B.非結構化的自然語言文本
C.非結構化的編碼
D.結構化的編碼
正確答案:
7.邏輯斯諦函數(shù)是一條()曲線
A.拋物線
B.三角函數(shù)
C.S型曲線
D.直線
正確答案:
8.聚類過程為()
A.數(shù)據(jù)準備,特征選擇,特征提取,聚類,結果評估
B.數(shù)據(jù)準備,特征提取,特征選擇,聚類,結果評估
C.數(shù)據(jù)準備,特征提取,聚類,特征選擇,結果評估
正確答案:
9.評價分類器效果時,表示將正類樣本預測為正類數(shù)與總預測為正類數(shù)之比的指標是()。
A.準確率
B.精確率
C.召回率
D.F1值
正確答案:
10.KNN算法用MapReduce實現(xiàn),要進行幾輪MapReduce()
A.1
B.2
C.3
D.4
正確答案:
11.在估計PLSA生成模型的參數(shù)時,使用()
A.極大似然估計
B.對數(shù)似然函數(shù)
C.特征獨立假設
D.貝葉斯定理
正確答案:
12.LDA導入先驗分布是為了應對()現(xiàn)象
A.欠擬合
B.話題識別不準
C.過擬合
D.分詞困難
正確答案:
13.類的R型聚類是指()
A.對樣本個體進行聚類
B.對指標變量進行聚類。
正確答案:
14.決策樹中的葉結點表示()
A.特征
B.類
C.屬性
D.值域輸出
正確答案:
15.pageRank中,將網(wǎng)頁鏈接轉化為()"投票"。
A.搜索量
B.評價
C.訪問量
D.重要度
正確答案:
16.HITS算法中,網(wǎng)頁的重要性應該依賴于()
A.每個網(wǎng)頁上的超鏈接個數(shù)
B.用戶提出的查詢請求
C.網(wǎng)頁上超鏈接重要性
正確答案:
17.算法中用到了外存的算法是()
A.隨機算法
B.外存算法
C.并行算法
D.Anytime算法
正確答案:
18.決策樹中的分支表示()
A.特征
B.類
C.屬性
D.值域輸出
正確答案:
19.非頻繁模式( )
A.其置信度小于閾值
B.令人不感興趣
C.包含負模式和負相關模式
D.對異常數(shù)據(jù)項敏感
正確答案:
20.度量距離中,表示各個坐標距離最大值的是()
A.歐氏距離
B.曼哈頓距離
C.切比雪夫距離
正確答案:
二、多選題 (共 20 道試題,共 40 分)
21.關聯(lián)規(guī)則用于查找項目集合或對象集合之間的()
A.頻繁模式
B.關聯(lián)
C.相關性
D.因果結構
正確答案
22.Q型聚類的結果具有()的特點
A.直觀
B.細致
C.全面
D.合理
正確答案
23.決策樹中的信息增益等價于()中類與特征的()
A.訓練數(shù)據(jù)
B.測試數(shù)據(jù)
C.交叉熵
D.互信息
正確正確答案:
24.下面哪些屬于分類算法()
A.SVM
B.決策樹
C.KMeans
D.樸素貝葉斯
正確答案
25.向量空間模型中,是將()看成()
A.文檔
B.單詞
C.詞袋
D.編碼
正確答案:B
26.大數(shù)據(jù)在醫(yī)療中的應用有()
A.流行性疾病預防
B.慢性病健康管理
C.臨床決策支持
D.醫(yī)療器械研發(fā)
正確答案
27.下列屬于樸素貝葉斯缺點的是()
A.分類效果不穩(wěn)定
B.不適合增量式訓練
C.先驗模型可能導致結果不佳
D.對缺失數(shù)據(jù)不太敏感
正確正確答案:
28.下列屬于樸素貝葉斯優(yōu)點的是()
A.有穩(wěn)定的分類效率
B.對小規(guī)模的數(shù)據(jù)表現(xiàn)很好
C.對缺失數(shù)據(jù)敏感
D.分類決策錯誤率很低
正確答案
29.大數(shù)據(jù)在社交網(wǎng)絡中的應用
A.用戶偏好、情感、社交網(wǎng)絡結構
B.用戶畫像、精準推薦
C.輿情監(jiān)控、突發(fā)事件預警
D.預測外部趨勢
正確答案:
30.以下哪些統(tǒng)計量可以反映數(shù)據(jù)的集中趨勢
A.均值
B.中位數(shù)
C.方差(標準差)
D.眾數(shù)
正確答案:
31.按社團形成機制分類,社團包括()
A.明顯的社團
B.預定義社團
C.自組織社團
D.隱含的社團
正確正確答案:
32.聚類方法中的劃分方法包括()
A.K-均值算法
B.凝聚法
C.分裂法
D.K-中心點算法
正確正確答案:
33.關聯(lián)分析的作用是什么()
A.用于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關聯(lián)性
B.用于發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的相關性
C.描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律
D.描述了一個事物中某些屬性同時出現(xiàn)的模式
正確答案:
34.大數(shù)據(jù)在教育中的應用
A.網(wǎng)上公開課
B.慕課
C.智慧校園
D.翻轉課堂
正確答案
35.以下什么問題可以歸為回歸問題()
A.市場趨勢預測
B.產(chǎn)品質量管理
C.客戶滿意度調查
D.投資風險分析
正確答案
36.借助于大數(shù)據(jù)提供的()和(),政府可為農(nóng)業(yè)生產(chǎn)進行合理引導,依據(jù)需求進行生產(chǎn),避免產(chǎn)能過剩造成不必要的資源和社會財富浪費。
A.消費能力
B.趨勢報告
C.購物結果
正確答案:
37.類的特征可以通過不同角度來刻畫,包括()
A.類的均值
B.類的直徑
C.類的樣本散布矩陣
D.樣本協(xié)方差矩陣
正確答案:
38.按主題分類,社團包括()
A.明顯的社團
B.預定義社團
C.自組織社團
D.隱含的社團
正確正確答案:
39.隨機游走的馬爾可夫鏈中,互聯(lián)網(wǎng)中的每一個網(wǎng)頁就是馬爾可夫鏈中的一個();該馬爾可夫鏈平穩(wěn)時每個狀態(tài)停留的概率即反映了相應網(wǎng)頁的()。
A.序列
B.隱變量
C.狀態(tài)
D.重要程度
正確正確答案:
40.鏈接分析是對網(wǎng)絡鏈接的()等各種現(xiàn)象進行分析
A.自身屬性
B.鏈接對象
C.鏈接網(wǎng)絡
正確答案:
三、判斷題 (共 10 道試題,共 10 分)
41.kNN不需存儲所有的樣本
答案:
42.城市公共交通規(guī)劃、教育資源配置、醫(yī)療資源配置、商業(yè)中心建設、房地產(chǎn)規(guī)劃、產(chǎn)業(yè)規(guī)劃、城市建設等都可以借助于大數(shù)據(jù)技術進行良好的規(guī)劃和動態(tài)調整。
答案:
43.麥肯錫研究院發(fā)布的報告Big Data: The next frontier for innovation, competition, and productivity, 第一次給大數(shù)據(jù)做出了相對清晰的定義
答案:
44.k均值聚類中,每個樣本只能屬于一個類。()
答案:
45.推薦系統(tǒng)根據(jù)用戶的興趣特點和購買行為,向用戶提供建議
答案:
46.大數(shù)據(jù)在行業(yè)應用很廣泛,行業(yè)領域包括電視媒體,汽車行業(yè),醫(yī)療行業(yè),保險行業(yè)等等。
答案:
47.網(wǎng)絡數(shù)據(jù)采集是利用互聯(lián)網(wǎng)搜索引擎技術對數(shù)據(jù)進行針對性、行業(yè)性、精準性的抓取,并按照一定規(guī)則和篩選標準將數(shù)據(jù)進行歸類,形成數(shù)據(jù)庫文件的一個過程。
答案:
48.DAG中的父節(jié)點是唯一的。
答案:
49.文本分析是結構大數(shù)據(jù)分析的一個基本問題。()
答案
50.大數(shù)據(jù)分析模型討論的問題是從大數(shù)據(jù)中發(fā)現(xiàn)什么
答案
四、更多答案下載:(www.) (共 1 道試題,共 6 分)
51.簡述概率潛在語義分析PLSA的特點和基本想法。
答案:
五、論述題 (共 3 道試題,共 15 分)
52.層次聚類算法分為哪兩種方法?簡述這兩個層次聚類算法。
答案:
53.簡述支持向量機的基本模型。
答案:
54.試比較PageRank算法和HITS算法。
答案:
六、名詞解釋 (共 3 道試題,共 9 分)
55.S折交叉驗證
答案:
56.類間的中心距離
答案:
57.鄰接矩陣