一、单项选择题(共15题,每题4分,共60分)
1.聚类分析的原则不可能是:( )
个体与个体之间的距离越近越有可能是一类
同一类的个体的相似性可能也越大
不同类的个体之间的距离越远
不同类的个体之间的相似性更高
2.下面关于DBSCAN聚类说法错误的是:( )
DBSCAN是具有噪声的基于密度的空间聚类方法
DBSCAN算法不能发现任意形状的空间聚类
DBSCAN聚类有一个参数是半径(Eps)
DBSCAN聚类还有一个参数是以点P为中心的邻域内最少点的数量(MinPts)
3.来源于方差分析的类间距的定义方法是( )
最短距离法(single linkage)
中间距离法(median method)
类平均法(average linkage)
离差平方和法(WARD)
4.用类内样本各指标的均值之间的距离作为类间距离的定义方法是( )
重心法(centroid method)
中间距离法(median method)
类平均法(average linkage)
离差平方和法(WARD)
5.下面关于K-MEANS(K-均值)聚类描述不正确的是( )
对于研究的对象事先需要确定最终分为几类
又被称为快速聚类
每一步都要更新聚类种子的中心
一般用于小样本情况下的样品聚类
6.下面的距离度量中,欧氏距离是( )
公式A
公式B
公式C
公式D
7.DBSCAN算法中的核心对象是( )
对给定对象ε邻域内的样本点数小于MinPts的对象
对给定对象ε邻域内的样本点数大于等于MinPts的对象
对给定对象ε邻域内的样本点数小于等于MinPts的对象
对给定对象ε邻域内的样本点数大于MinPts的对象
8.DBSCAN算法中的直接密度可达、密度可达与密度相连理解不正确的是( )
只有核心对象之间相互密度可达
密度相连是对称关系
DBSCAN目的是找到密度相连对象的最大集合
密度可达也是对称关系
9.下面关于将非平稳的时间序列平稳化的说法错误的是:( )
差分用于将非平稳的时间序列平稳化
对时间序列的数值取对数可以将非平稳的时间序列平稳化
对时间序列的数值取对数后不能再做差分了
对时间序列的数值取对数后再进行差分也可以将非平稳的时间序列平稳化
10.关于模型识别说法正确的是:( )
自相关系数图拖尾, 偏自相关系数图p阶截尾,可以识别为MA(p)模型
自相关系数图拖尾, 偏自相关系数图拖尾,可以识别为AR模型
自相关系数图p阶截尾, 偏自相关系数图拖尾,可以识别为AR(p)模型
自相关系数图拖尾, 偏自相关系数图拖尾,可以识别为ARMA模型
11.采用AIC准则找最优模型得到如下的结果:
The AIC of ARMA(0,0) is 13679.401951273543
The AIC of ARMA(0,1) is 13332.135879407648
The AIC of ARMA(0,2) is 13289.758498467238
The AIC of ARMA(1,0) is 13458.95993448334
The AIC of ARMA(1,1) is 13266.651183460379
The AIC of ARMA(1,2) is 13241.110101949496
The AIC of ARMA(2,0) is 13396.594961413079
The AIC of ARMA(2,1) is 13245.885887026114
The AIC of ARMA(2,2) is 13242.201821971108
请问哪个模型最优( )
ARMA(0,2)
ARMA(2,2)
ARMA(1,0)
ARMA(1,2)
12.从下面的时序图一定可以得到的结论是( )
该序列具有零均值
该序列具有同方差性
这是一个白噪声序列
这是一个平稳时间序列
13.空调销售量随着季节不同而发生较大变动,夏季的销售量一般高于冬季的销售量。空调销售量数据的这种变动称为( )
长期趋势变动
季节变动
循环波动
不规则变动
14.单位根检验在Python中实现时,下面的选项( )不是regressioncans参数的设定值。
‘c'(仅常数,默认)
‘ctt'(常数,线性和二次曲线趋势)
‘ct'(常数和长期趋势)
‘nct'(无常数无趋势)
15.自相关系数图与偏自相关图如下。下面的说法不正确的是( )
自相关系数具有截尾性
偏自相关系数具有拖尾性
此序列可以认为是AR(1)模型
此序列可以认为是MA(1)模型
二、多项选择题(共8题,每题5分,共40分)
16.动物学家有的时候需要通过对新发现的物种进行归类。这里收集到了15种动物生理特征的数据。根据Warm-blooded、Gives Birth、Aquatic Creature、Aerial Creature、Has Legs、Hibernates等六个指标综合对样本进行聚类分析,考虑采用系统聚类法进行聚类。聚类后的谱系图如下所示。
请问如果最终聚为两类,关于聚类结果说法正确的是:
porcupine、bat、cat、human、pigeon一类
turtle、komodo、salamander、frog、penguin、eel、salmon、leopard shark、whale、python一类
porcupine、bat、cat、human、pigeon python一类
turtle、komodo、salamander、frog、penguin、eel、salmon、leopard shark、whale一类
17.下面关于聚类类型说法正确的是:( )
Q型分类是对样本进行分类
R型分类是对样本进行分类
Q型分类是对指标或变量进行分类
R型分类是对指标或变量进行分类
18.设dij表示第i个样本与第j个样本之间的距离。那么距离必须满足的原则有:( )
dij≥0,对一切i,j
dij=0,等价于i,j
dij=dji,对一切i,j
dij≤dik+dkj,对一切i,j,k
19.个体之间的距离必须满足的原则有:( )
非负性
个体自身与自身的距离为0
对等性
两点之间直线距离最小
20.聚类任务中,衡量个体之间的相似性通常使用下面哪些度量( )
距离
相关系数
相似系数
匹配系数
21.非平稳的时间序列:( )
在整体上有明显的上升的趋势
在局部上有明显的上升的趋势
在整体上有明显的下降的趋势
在局部上有明显的下降的趋势
22.构成时序的各个组成元素的相关系数:( )
取值在-1到1之间
其绝对值越接近于1,说明时间序列的自相关程度越高
被称为自相关系数
时间间隔为的两部分数据之间的相关性被称为阶自相关系数
23.所谓截尾,是指在自相关系数图或偏自相关系数图中( )
自相关系数或偏自相关系数在滞后的前几期可能处于置信区间之外
自相关系数或偏自相关系数在某期之后的系数基本上都落入置信区间内
自相关系数或偏自相关系数在某期之后的系数逐渐趋于零
自相关系数或偏自相关系数有指数型波动