研究生《机器学习》课程建设在算法原理的基础上关联现实生活中的实际案例,在实践中体验感悟,注重总结反思设计,升华理论知识与实践技能学习,实施“体验-分析-实践-反思”四步走,通过理论授课与案例教学相结合的方式,启发学生独立思维的能力,增强学生们投身专业研究的使命感,引导学生树立远大抱负,锻炼学生的动手能力,增强学生提升知识见识的自觉性与自主性。
学堂在线北京工商大学机器学习(2022春)习题答案
第一章 绪论
- 下列哪种方法可以用来减小过拟合? A更多的训练数据 BL1 正则化 CL2 正则化 D减小模型的复杂度…
- 有 N 个样本,一般用于训练,一般用于测试。若增大 N 值,则训练误差和测试误差之间的差距会如何变化? A…
- 如果我们说“线性回归”模型完美地拟合了训练样本(训练样本误差为零),则下面哪个说法是正确的? A测试…
- 为了观察测试 Y 与 X 之间的线性关系,X 是连续变量,使用下列哪种图形比较适合? A散点图 B柱形图 C直…
- 一般来说,下列哪种方法常用来预测连续独立变量? A线性回归 B逻辑回顾 C线性回归和逻辑回归都行 D以…
- 个人健康和年龄的相关系数是 -1.09。
- 下面三张图展示了对同一训练样本,使用不同的模型拟合的效果(蓝色曲线)。那么,我们可以得出哪些结论? …
- 两个变量相关,它们的相关系数 r 可能为 0。这句话是否正确?
- 关于“回归(Regression)”和“相关(Correlation)”,下列说法正确的是?注意:x 是自变量,y 是因变量。 A回…
- 观察样本次数如何影响过拟合()?注意:所有情况的参数都保持一致。 A观察次数少,容易发生过拟合 B观察次…
- "监督式学习中存在过拟合,而对于非监督式学习来说,没有过拟合",这句话是否正确?…
- 我们知道二元分类的输出是概率值。一般设定输出概率大于或等于 0.5,则预测为正类;若输出概率小于 0…
- 增加模型的复杂度,总能减小训练样本误差。这句话是否正确?
- 如果一个经过训练的机器学习模型在测试集上达到 100% 的准确率,这是否意味着该模型将在另外一个新…
- 如果两个变量相关,那么它们一定是线性关系吗?
第二章 分类
- “增加卷积核的尺寸,一定能提高卷积神经网络的性能。” 这句话是否正确?…
- 假设在卷积神经网络的第一层中有 5 个卷积核,每个卷积核尺寸为 7×7,具有零填充且步幅为 1。该层的…
- 假定你在神经网络中的隐藏层中使用**函数 X。在特定神经元给定任意输入,你会得到输出 -0.01。X 可…
- k-NN 最近邻方法在什么情况下效果较好? A样本较多但典型性不好 B样本较少但典型性好 C样本呈…
- 下列关于极大似然估计(Maximum Likelihood Estimate,MLE),说法正确的是? AMLE 可能并不存在 BMLE 总是…
- 假如使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个…
- 假设使用逻辑回归进行 n 多类别分类,使用 One-vs-rest 分类法。下列说法正确的是? A对于 n 类别,需…
- 如果一个 SVM 模型出现欠拟合,那么下列哪种方法能解决这一问题? A增大惩罚参数 C 的值 B减小惩罚参…
- 如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型,下列哪种做法是正确的? A增加树…
- 关于神经网络,下列说法正确的是? A增加网络层数,可能会增加测试集分类错误率 B增加网络层数,一定会增…
- 在训练完 SVM 之后,我们可以只保留支持向量,而舍去所有非支持向量。仍然不会影响模型分类能力。这…
- 下列哪些算法可以用来够造神经网络? AkNN B线性回归 C逻辑回归
- 逻辑回归常用来预测连续独立变量。这句话是否正确?
- 决策树学习是一种逼近离散值目标函数的方法,学习到的函数被表示为一棵决策树。这句话是否正确?…
- 超参数选择不当,会对模型有较大的负面影响,所以在参数调整策略方面,所有超参数都同等重要。这句话是…
第三章 聚类
- K-Means 算法无法聚以下哪种形状的样本? A圆形分布 B螺旋分布 C带状分布 D凸多边形分布…
- 关于 L1、L2 正则化下列说法正确的是? AL2 正则化能防止过拟合,提升模型的泛化能力,但 L1 做不到这…
- 假设一个公司的薪资水平中位数是 ,排名第35,000,排名第2521,000 和 。如果某人的薪水是53,000。…
- 点击率预测是一个正负样本不平衡问题(例如 99% 的没有点击,只有 1% 点击)。假如在这个非平衡的数据…
- 直观上看,我们希望“物以类聚”,即聚类的结果“簇内相似度”高,且“簇间”相似度低。…
- 聚类和分类的区别在于用于聚类的训练样本的类标记是未知的。
- 查全率越高,意味着模型漏掉的样本越少,当假阴性的成本很高时,查全率指标有助于衡量模型的好坏。…
- 列表、元组和字符串都支持双向索引,有效索引的范围为[-L,L],L为列表、元组或字符串的长度。…
- 在各类机器学习算法中,过拟合和欠拟合都是可以彻底避免的。
- 下列哪一项能反映出 X 和 Y 之间的强相关性? A相关系数为 0.9 B对于无效假设 β=0 的 p 值为 0.0…
- 向量 X=[1,2,3,4,-9,0] 的 L1 范数为? A1 B19 C6 D√111
- 以下哪些方法不可以直接来对文本分类? AK-Means B决策树 C支持向量机 DkNN…
- 线性回归中,我们可以使用正规方程(Normal Equation)来求解系数。下列关于正规方程说法正确的是? A不…
- 如果 Y 是 X(X1,X2,...,Xn)的线性函数:Y = β0 + β1X1 + β2X2 + ··· + βnXn,则下列说法正确的是? A…
- 下面两张图展示了两个拟合回归线(A 和 B),原始数据是随机产生的。现在,我想要计算 A 和 B 各自的残差…
第四章 回归
- 在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大? A多项式阶数 …
- 在一个线性回归问题中,我们使用 R 平方(R-Squared)来判断拟合度。此时,如果增加一个特征,模型不变,则下…
- 下列关于线性回归分析中的残差(Residuals)说法正确的是? A残差均值总是为零 B残差均值总是小于零 C…
- 下列哪些假设是我们推导线性回归参数时遵循的? AX 与 Y 有线性关系(多项式关系) B模型误差在统计学…
- 假如你在训练一个线性回归模型,有下面两句话: 1. 如果数据量较少,容易发生过拟合。 2. 如果假设空间…
- 构建一个最简单的线性回归模型需要几个系数(只有一个特征)? A1 个 B2 个 C3 个 D4 个…
- 在一个简单的线性回归模型中(只有一个变量),如果将输入变量改变一个单位(增加或减少),那么输出将改变多…
- 如果使用线性回归模型,下列说法正确的是? A检查异常值是很重要的,因为线性回归对离群效应很敏感 B线…
- 回归中利用最小二乘法主要通过最小化误差的平方来寻找一个数据匹配的最佳函数。…
- k近邻算法的核心是k值和距离度量的选取。
- 假如现在有个神经网络,**函数是 ReLU,若使用线性**函数代替 ReLU,该神经网络可以表征 XNOR 函数。…
- 如果使用线性回归模型,线性回归分析要求所有变量特征都必须具有正态分布。…
- 增加树的深度时,使用决策树法训练大量数据集能够节约时间。
- 下列关于异方差(Heteroskedasticity)说法正确的是? A线性回归具有不同的误差项 B线性回归具有相同的…
第五章 降维
- 下列说法错误的是? A当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解 B进行 PCA 降维时,…
- 下列方法中,可以用于特征降维的方法包括? A主成分分析 PCA B线性判别分析 LDA CAutoEncoder …
- “对于 PCA 处理后的特征,其朴素贝叶斯特征相互独立的假设一定成立,因为所有主成分都是正交的,所以…
- 下列关于 PCA 说法正确的是? A在使用 PCA 之前,我们必须标准化数据 B应该选择具有最大方差的主成分…
- 下列哪些不特别适合用来对高维数据进行降维? A主成分分析法 B聚类分析 C小波分析法 D线性判别法…
- PCA可用于在较小维度上投影和可视化数据。
- 降维算法是减少构建模型所需计算时间的方法之一。
- PCA属于确定性算法。
- 梯度下降,就是沿着函数的梯度(导数)方向更新自变量,使得函数的取值越来越小,直至达到全局最小或者局部…
- 下列哪一种偏移,是我们在最小二乘直线拟合的情况下使用的?图中横坐标是输入 X,纵坐标是输出 Y。 A…
- 假如我们利用 Y 是 X 的 3 阶多项式产生一些数据(3 阶多项式能很好地拟合数据)。那么,下列说法正确…
- 假如我们使用 Lasso 回归来拟合数据集,该数据集输入特征有 100 个(X1,X2,...,X100)。现在,我们把其中一…
- 关于特征选择,下列对 Ridge 回归和 Lasso 回归说法正确的是? ARidge 回归适用于特征选择 BLasso 回…
- 如果在线性回归模型中增加一个特征变量,下列可能发生的是? AR-squared 增大,Adjust R-squared 增大 …
- 下列哪些指标可以用来评估线性回归模型? AR-Squared BAdjusted R-Squared CF Statistics DRMSE / …
第六章 深度学习及算法实例
- 评估完模型之后,发现模型存在高偏差(high bias),应该如何解决? A减少模型的特征数量 B增加模型的特征…
- 我们想要训练一个 ML 模型,样本数量有 100 万个,特征维度是 5000,面对如此大数据,如何有效地训练模型…
- SVM中的核技巧(Kernal trick)的作用包括以下哪项? A特征升维 B特征降维 C防止过拟合…
- 关于Logistic回归和SVM不正确的是() 。 ALogistic回归目标函数是最小化后验概率 BLogistic回归可…
- 可以用神经网络算法设计逻辑回归算法。
- 关于支持向量机SVM, 下列说法错误的是() AL2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化…
- 过拟合是有监督学习的挑战,而不是无监督学习以上说法是否正确
- 支持向量是那些最接近决策平面的数据点。
- SVM的效率依赖于() A核函数的选择 B核参数 C软间隔参数 D以上所有
- 在训练逻辑回归之前需要对特征进行标准化。
- 下列属于无监督学习的是: Akmeans Bsvm C最大熵 Dcrf
- 深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵…
- 假定某同学使用贝叶斯分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是…
- 机器学习中做特征选择时,可能用到的方法有? A卡方 B信息增益 C平均互信息 D期望交叉熵…
- 信息熵是度量样本集合纯度最常用的一种指标。信息熵的值越大,说明样本集合的纯度越高。…