一、单项选择题(共10题,每题4分,共40分)
1.请问在Python中缺失值通常用( )来记号。
NaN
?
NA
na
2.请问不是缺失值通常用的处理方式是( )。
填补
删除
插补
提取
3.数据整合后( )。
数据量会增加
数据量会不变
数据的波动性增加
数据波动性减小
4.数据离散化可以采用( )方式。
等宽或者等频
插补
抽样
查询
5.下面关于主成分分析说法错误的是( )。
主成分是相互正交(垂直)的
主成分捕获了数据差异最大的方向
是线性降维方法
是非线性降维方法
6.数据经过标准化处理后( )。
数据的波动性将会增加
数据的波动单位为1
数据的波动性将会减小
数据值将被放大
7.白化是指( )。
从相关矩阵出发求解主成分
从协方差矩阵出发求解主成分
将数据进行标准化
剔除数据中的异常值
8.分类模型评价时,通常采用( )损失。
0-1损失
指数
绝对值
平方
9.不是回归模型常采用的评价指标是( )。
MAE
MSE
R2
准确率
10.期望预测误差是指( )。
真实值与预测值在某种损失函数下的平均值
真实值与预测值之差
真实值与预测值在某种损失函数下的值
真实值与预测值之比
二、多项选择题(共6题,每题5分,共30分)
11.缺失数据的处理方法包括( )。
填补
删除
插补
提取
12.数据抽样后( )。
数据量会增加
数据量会减少
数据的波动性可能增加
数据波动性可能减小
13.下面关于主成分分析说法正确的是( )。
主成分是相互正交(垂直)的
主成分捕获了数据差异最大的方向
是线性降维方法
是非线性降维方法
14.期望预测误差中的方差部分是由( )带来的。
最优解所在空间假设失误
数据的随机性
估计值自身的波动
估计值的平均可能偏离了真实值
15.聚类分析的外部评价指标通常有( )。
DBI
兰德指数
Jaccard系数
FM指数
DI
16.分类任务的评价指标通常采用( )。
准确度
ROC曲线
特效度
灵敏度
错分成本
三、判断题(共10题,每题3分,共30分)
17.主成分分析中最大的特征值对应的特征向量也就是是数据差异最大的的方向。( )
对
错
18.白化是指将数据进行标准化。( )
对
错
19.数据经过标准化处理后,数据的波动性将会减小。( )
对
错
20.在Python中缺失值通常用NA来记号。( )
对
错
21.主成分是相互正交(垂直)的。( )
对
错
22.回归模型评价时,通常采用0-1损失。( )
对
错
23.兰德指数是聚类分析的内部评价指标。( )
对
错
24.期望预测误差中的偏差部分是由估计值的平均可能偏离了真实值带来的。( )
对
错
25.分类模型评价时,通常采用平方损失。( )
对
错
26.由于最优解所在空间假设失误将会造成期望预测误差中的方差部分。
对
错