机器学习(温州大学) 中国大学mooc答案满分完整版章节测试

2024年2月29日作者 gebilaowang

宝污奴渴既窍继笔么羚茶黎靶

引言引言课后测试

1、哪一个是机器学习的合理定义？

A:机器学习从标记的数据中学习
B:机器学习能使计算机能够在没有明确编程的情况下学习
C:机器学习是计算机编程的科学
D:机器学习是允许机器人智能行动的领域
答案: 机器学习能使计算机能够在没有明确编程的情况下学习

2、一个计算机程序从经验E中学习任务T，并用P来衡量表现。并且，T的表现P随着经验E的增加而提高。假设我们给一个学习算法输入了很多历史天气的数据，让它学会预测天气。什么是P的合理选择？

A:计算大量历史气象数据的过程
B:正确预测未来日期天气的概率
C:天气预报任务
D:以上都不
答案: 正确预测未来日期天气的概率

3、回归问题和分类问题的区别是什么？

A:回归问题有标签，分类问题没有
B:回归问题输出值是离散的，分类问题输出值是连续的
C:回归问题输出值是连续的，分类问题输出值是离散的
D:回归问题与分类问题在输入属性值上要求不同
答案: 回归问题输出值是连续的，分类问题输出值是离散的

4、以下关于特征选择的说法正确的是？

A:选择的特征越多越好
B:选择的特征越少越好
C:选择的特征需尽可能反映不同事物之间的差异
D:以上说法均不对
答案: 选择的特征需尽可能反映不同事物之间的差异

5、一个包含n类的多分类问题，若采用一对剩余的方法，需要拆分成多少次？

A:1
B:n-1
C:n
D:n+1
答案: n-1

6、机器学习方法传统上可以分为( )类。

A:3
B:4
C:7
D:2
答案: 3

7、哪些机器学习模型经过训练，能够根据其行为获得的奖励和反馈做出一系列决策？

A:监督学习
B:无监督学习
C:强化学习
D:以上全部
答案: 强化学习

8、机器学习这个术语是由( )定义的？

A:James Gosling
B:Arthur Samuel
C:Guido van Rossum
D:以上都不是
答案: Arthur Samuel

9、哪种开发语言最适合机器学习？( )

A:C
B:Java
C:Python
D:HTML
答案: Python

10、 ( )是机器学习的一部分，与神经网络一起工作。

A:人工智能
B:深度学习
C:A和B
D:以上都不是
答案: 深度学习

11、 ( )是可用于标记数据的机器学习算法。

A:回归算法
B:聚类算法
C:关联规则算法
D:以上都不是
答案: 回归算法

12、谷歌新闻每天收集非常多的新闻，并运用( )方法再将这些新闻分组，组成若干类有关联的新闻。于是，搜索时同一组新闻事件往往隶属同一主题的，所以显示到一起。

A:回归
B:分类
C:聚类
D:关联规则
答案: 聚类

13、下列哪些学习问题不属于监督学习？( )

A:聚类
B:降维
C:分类
D:回归
答案: 聚类;
降维

14、下列哪些学习问题不属于监督学习？( )

A:回归
B:分类
C:聚类
D:关联规则
答案: 聚类;
关联规则

15、机器学习的方法由( )等几个要素构成。

A:模型
B:损失函数
C:优化算法
D:模型评估指标
答案: 模型;
损失函数;
优化算法;
模型评估指标

16、对于非概率模型而言，可按照判别函数线性与否分成线性模型与非线性模型。下面哪些模型属于线性模型？

A:K-means
B:k近邻
C:感知机
D:AdaBoost
答案: K-means;
k近邻;
感知机

17、朴素贝叶斯属于概率模型。

A:正确
B:错误
答案: 正确

18、根据肿瘤的体积、患者的年龄来判断良性或恶性，这是一个回归问题。

A:正确
B:错误
答案: 错误

19、大部分的机器学习工程中，数据搜集、数据清洗、特征工程这三个步骤绝大部分时间，而数据建模，占总时间比较少。

A:正确
B:错误
答案: 正确

20、已知你朋友的信息，比如经常发email的联系人，或是你微博的好友、微信的朋友圈，我们可运用聚类方法自动地给朋友进行分组，做到让每组里的人们彼此都熟识。

A:正确
B:错误
答案: 正确

逻辑回归逻辑回归课后测验

1、一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：

A:二分类问题
B:多分类问题
C:回归问题
D:聚类问题
答案: 多分类问题

2、以下关于分类问题的说法错误的是？

A:分类属于监督学习
B:分类问题输入属性必须是离散的
C:多分类问题可以被拆分为多个二分类问题
D:回归问题在一定条件下可被转化为多分类问题
答案: 分类问题输入属性必须是离散的

3、以下关于逻辑回归与线性回归问题的描述错误的是（）

A:逻辑回归用于处理分类问题，线性回归用于处理回归问题
B:线性回归要求输入输出值呈线性关系，逻辑回归不要求
C:逻辑回归一般要求变量服从正态分布，线性回归一般不要求

D:线性回归计算方法一般是最小二乘法，逻辑回归的参数计算方法是似然估计法。

答案: 逻辑回归一般要求变量服从正态分布，线性回归一般不要求

4、以下关于sigmoid函数的优点说法错误的是？

A:函数处处连续，便于求导
B:可以用于处理二分类问题
C:在深层次神经网络反馈传输中，不易出现梯度消失
D:可以压缩数据值到[0,1]之间，便于后续处理
答案: 在深层次神经网络反馈传输中，不易出现梯度消失

5、逻辑回归的损失函数是哪个？

A:MSE
B:交叉熵(Cross-Entropy)损失函数
C:MAE
D:RMSE
答案: 交叉熵(Cross-Entropy)损失函数

6、下面哪一项不是Sigmoid的特点？

A:当σ(z)大于等于0.5时，预测 y=1
B:当σ(z)小于0.5时，预测 y=0
C:当σ(z)小于0.5时，预测 y=-1
D:σ(z)的范围为(0,1)
答案: 当σ(z)小于0.5时，预测 y=-1

7、下列哪一项不是逻辑回归的优点？

A:处理非线性数据较容易
B:模型形式简单
C:资源占用少
D:可解释性好
答案: 处理非线性数据较容易

8、假设有三类数据，用OVR方法需要分类几次才能完成？

A:1
B:2
C:3
D:4
答案: 2

9、以下哪些不是二分类问题？

A:根据肿瘤的体积、患者的年龄来判断良性或恶性？
B:或者根据用户的年龄、职业、存款数量来判断信用卡是否会违约？
C:身高1.85m，体重100kg的男人穿什么尺码的T恤？
D:根据一个人的身高和体重判断他(她)的性别。
答案: 身高1.85m，体重100kg的男人穿什么尺码的T恤？

10、逻辑回归通常采用哪种正则化方式？

A:Elastic Net
B:L1正则化
C:L2正则化
D:Dropout正则化
答案: L2正则化

11、假设使用逻辑回归进行多类别分类，使用 OVR 分类法。下列说法正确的是？

A:对于 n 类别，需要训练 n 个模型
B:对于 n 类别，需要训练 n-1 个模型
C:对于 n 类别，只需要训练 1 个模型
D:以上说法都不对
答案: 对于 n 类别，需要训练 n 个模型

12、你正在训练一个分类逻辑回归模型。以下哪项陈述是正确的？选出所有正确项

A:将正则化引入到模型中，总是能在训练集上获得相同或更好的性能
B:在模型中添加许多新特性有助于防止训练集过度拟合
C:将正则化引入到模型中，对于训练集中没有的样本，总是可以获得相同或更好的性能
D:向模型中添加新特征总是会在训练集上获得相同或更好的性能
答案: 向模型中添加新特征总是会在训练集上获得相同或更好的性能

13、以下哪项陈述是正确的？选出所有正确项（）

A:在构建学习算法的第一个版本之前，花大量时间收集大量数据是一个好主意。
B:逻辑回归使用了Sigmoid激活函数
C:使用一个非常大的训练集使得模型不太可能过拟合训练数据。
D:如果您的模型拟合训练集，那么获取更多数据可能会有帮助。
答案: 逻辑回归使用了Sigmoid激活函数;
使用一个非常大的训练集使得模型不太可能过拟合训练数据。

14、下面哪些是分类算法？

A:根据肿瘤的体积、患者的年龄来判断良性或恶性？
B:根据用户的年龄、职业、存款数量来判断信用卡是否会违约？
C:身高1.85m，体重100kg的男人穿什么尺码的T恤？
D:根据房屋大小、卫生间数量等特征预估房价
答案: 根据肿瘤的体积、患者的年龄来判断良性或恶性？;
根据用户的年龄、职业、存款数量来判断信用卡是否会违约？;
身高1.85m，体重100kg的男人穿什么尺码的T恤？

15、逻辑回归的激活函数是Sigmoid。

A:正确
B:错误
答案: 正确

16、逻辑回归分类的精度不够高，因此在业界很少用到这个算法

A:正确
B:错误
答案: 错误

17、 Sigmoid函数的范围是（-1，1）

A:正确
B:错误
答案: 错误

18、逻辑回归的特征一定是离散的。

A:正确
B:错误
答案: 错误

19、逻辑回归算法资源占用小，尤其是内存。

A:正确
B:错误
答案: 正确

20、逻辑回归的损失函数是交叉熵损失

A:正确
B:错误
答案: 正确

回归回归课后测试

1、以下哪组变量之间存在线性回归关系？

A:学生的性别与他的成绩
B:儿子的身高与父亲的身高
C:正方形的边长与面积
D: 正三角形的边长与周长
答案: 正三角形的边长与周长

2、回归问题和分类问题的区别是？

3、以下说法错误的是？

A:残差是预测值与真实值之间的差值
B:损失函数越小，模型训练得一定越好
C:正则项的目的是为了避免模型过拟合
D:最小二乘法不需要选择学习率
答案: 损失函数越小，模型训练得一定越好

4、哪些算法不需要数据归一化？

A:kNN
B:k-means
C:SVM
D: 决策树
答案: 决策树

5、以下哪些方法不能用于处理欠拟合？

A:增大正则化系数
B:增加新的特征
C:增加模型复杂度
D:对特征进行变换，使用组合特征或高维特征
答案: 增大正则化系数

6、以下哪些方法不能用于处理过拟合？

A:对数据进行清洗
B:增大训练数据的量
C:利用正则化技术
D:增加数据属性的复杂度
答案: 增加数据属性的复杂度

7、下列关于线性回归分析中的残差（Residuals）说法正确的是？

A:残差均值总是为零
B:残差均值总是小于零
C:残差均值总是大于零
D:以上说法都不对
答案: 残差均值总是为零

8、为了观察测试 Y 与 X 之间的线性关系，X 是连续变量，使用下列哪种图形比较适合？

A:散点图
B:柱形图
C:直方图
D:以上都不对
答案: 散点图

9、假如你在训练一个线性回归模型，则：1. 如果数据量较少，容易发生过拟合。2. 如果假设空间较小，容易发生过拟合。关于这两句话，下列说法正确的是？

A:1 和 2 都错误
B:1 正确，2 错误
C:1 错误，2 正确
D:1 和 2 都正确
答案: 1 正确，2 错误

10、关于特征选择，下列对 Ridge 回归和 Lasso 回归说法正确的是？

A:Ridge 回归适用于特征选择
B:Lasso 回归适用于特征选择
C:两个都适用于特征选择
D:以上说法都不对
答案: Lasso 回归适用于特征选择

11、构建一个最简单的线性回归模型需要几个系数（只有一个特征）？

A:1 个
B:2 个
C:3 个
D:4 个
答案: 2 个

12、向量x=[1,2,3,4,-9,0]的L1范数是多少？

A:1
B:19
C:6
D: 机器学习(温州大学) 中国大学mooc答案满分完整版章节测试第1张
答案: 19

13、以下哪些是使用数据规范化(特征缩放)的原因？

A:它通过降低梯度下降的每次迭代的计算成本来加速梯度下降
B:它通过减少迭代次数来获得一个好的解，从而加快了梯度下降的速度
C:它不能防止梯度下降陷入局部最优
D:它防止矩阵机器学习(温州大学) 中国大学mooc答案满分完整版章节测试第2张不可逆(奇异/退化)
答案: 它通过减少迭代次数来获得一个好的解，从而加快了梯度下降的速度;
它不能防止梯度下降陷入局部最优

14、线性回归中，我们可以使用最小二乘法来求解系数，下列关于最小二乘法说法正确的是?( )

A:只适用于线性模型，不适合逻辑回归模型等其他模型
B:不需要选择学习率
C:当特征数量很多的时候，运算速度会很慢
D:不需要迭代训练
答案: 只适用于线性模型，不适合逻辑回归模型等其他模型;
不需要选择学习率;
当特征数量很多的时候，运算速度会很慢;
不需要迭代训练

15、欠拟合的处理主要有哪些方式：()

A:增加模型复杂度
B:减小正则化系数
C:增大正则化系数
D:添加新特征
答案: 增加模型复杂度;
减小正则化系数;
添加新特征

16、假如使用一个较复杂的回归模型来拟合样本数据，使用 Ridge回归，调试正则化参数，来降低模型复杂度，若正则化系数较大时，关于偏差(bias)和方差(variance)，下列说法正确的是?( )

A:偏差减小
B:偏差增大
C:方差减小
D:方差增大
答案: 偏差增大;
方差减小

17、如果两个变量相关，那么它们一定是线性关系。

A:正确
B:错误
答案: 错误

18、随机梯度下降，每次迭代时候，使用一个样本。

A:正确
B:错误
答案: 正确

19、 L2正则化往往用于防止过拟合，而L1正则化往往用于特征选择。

A:正确
B:错误
答案: 正确

20、过拟合的处理可以通过减小正则化系数。

A:正确
B:错误
答案: 错误

朴素贝叶斯朴素贝叶斯课后测验

小提示:本节包含奇怪的同名章节内容

1、假设会开车的本科生比例是15%，会开车的研究生比例是23%。若在某大学研究生占学生比例是20%，则会开车的学生是研究生的概率是多少？

A:80%
B:16.6%
C:23%
D:15%
答案: 16.6%

2、下列关于朴素贝叶斯的特点说法错误的是（）

A:朴素贝叶斯模型发源于古典数学理论，数学基础坚实
B:朴素贝叶斯模型无需假设特征条件独立
C:朴素贝叶斯处理过程简单，分类速度快
D:朴素贝叶斯对小规模数据表现较好
答案: 朴素贝叶斯模型无需假设特征条件独立

3、以下算法不属于生成模型 ( )

A:朴素贝叶斯模型
B:混合高斯模型
C:隐马尔科夫模型
D:支持向量机
答案: 支持向量机

4、关于拉普拉斯平滑说法正确的是（）

A:避免了出现概率为0的情况
B:加上拉普拉斯平滑有助于提高学习性能
C:会使得最终结果可能大于1
D:以上说法都不对
答案: 避免了出现概率为0的情况

5、假设X和Y都服从正态分布，那么P(X<5,Y<0)就是一个（），表示X<5,Y<0两个条件同时成立的概率，即两个事件共同发生的概率。

A:先验概率
B:后验概率
C:联合概率
D:以上说法都不对
答案: 联合概率

6、以下算法属于判别模型的是（）

A:朴素贝叶斯模型
B:深度信念网络
C:隐马尔科夫模型
D:线性回归
答案: 线性回归

7、朴素贝叶斯的优点不包括（）

A:算法逻辑简单,易于实现
B:分类过程中时空开销小
C:对缺失数据不太敏感，算法也比较简单，常用于文本分类
D:朴素贝叶斯模型对输入数据的表达形式很敏感
答案: 朴素贝叶斯模型对输入数据的表达形式很敏感

8、市场上某商品来自两个工厂，它们市场占有率分别为60%和40%，有两人各自买一件，则买到的来自不同工厂之概率为( )。

A:0.5
B:0.24
C:0.48
D:0.3
答案: 0.48

9、以A表示事件”甲种产品畅销，乙种产品滞销”，则其对立事件A为（）

A:甲种产品滞销，乙种产品畅销
B:甲，乙两种产品均畅销
C:甲种产品滞销
D:甲种产品滞销或乙种产品畅销
答案: 甲种产品滞销或乙种产品畅销

10、 11. 关于朴素贝叶斯，下列说法错误的是：（）

A:它是一个分类算法
B:朴素的意义在于它的一个天真的假设：所有特征之间是相互独立的
C:它实际上是将多条件下的条件概率转换成了单一条件下的条件概率，简化了计算
D:朴素贝叶斯不需要使用联合概率
答案: 朴素贝叶斯不需要使用联合概率

11、掷二枚骰子，事件A为出现的点数之和等于3的概率为（）

A:1/11
B:1/18
C:1/6
D:都不对
答案: 1/18

12、公司里有一个人穿了运动鞋，推测是男还是女？已知公司里男性30人，女性70人，男性穿运动鞋的有25人，穿拖鞋的有5人，女性穿运动鞋的有40人，穿高跟鞋的有30人。则以下哪项计算错误（）？

A:p(男｜运动鞋)=0.25
B:p(女｜运动鞋)=0.4
C:p(运动鞋｜男性)=25/30
D:p（运动鞋｜女性)=0.4
答案: p（运动鞋｜女性)=0.4

13、根据以往经验和分析得到的概率。在这里，我们用P(Y)来代表在没有训练数据前假设Y拥有的初始概率，因此称其为Y的后验概率，它反映了我们所拥有的关于Y的背景知识。

A:正确
B:错误
答案: 错误

14、朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性相关性较小时，朴素贝叶斯性能良好。而在属性个数比较多或者属性之间相关性较大时，分类效果不好。

A:正确
B:错误
答案: 正确

15、朴素贝叶斯对缺失数据较敏感。

A:正确
B:错误
答案: 正确

16、判别模型所学内容是决策边界。

A:正确
B:错误
答案: 正确

17、逻辑回归是生成模型，朴素贝叶斯是判别模型

A:正确
B:错误
答案: 错误

18、逻辑回归和朴素贝叶斯都有对属性特征独立的要求

A:正确
B:错误
答案: 错误

19、朴素贝叶斯法的基本假设是条件独立性。

A:正确
B:错误
答案: 正确

20、朴素贝叶斯适用于小规模数据集，逻辑回归适用于大规模数据集。

A:正确
B:错误
答案: 错误

21、假设会开车的本科生比例是15%，会开车的研究生比例是23%。若在某大学研究生占学生比例是20%，则会开车的学生是研究生的概率是多少？

A:80%
B:16.6%
C:23%
D:27.7%
答案: 27.7%

机器学习实践机器学习实践课后测验

1、以下关于训练集、验证集和测试集说法不正确的是( )。

A:测试集是纯粹是用于测试模型泛化能力
B:训练集是用来训练以及评估模型性能
C:验证集用于调整模型参数
D:以上说法都不对
答案: 训练集是用来训练以及评估模型性能

2、当数据分布不平衡时，我们可采取的措施不包括( )。

A:对数据分布较少的类别过采样
B:对数据分布较多的类别欠采样
C:对数据分布较多的类别赋予更大的权重
D:对数据分布较少的类别赋予更大的权重
答案: 对数据分布较多的类别赋予更大的权重

3、假设有100张照片，其中，猫的照片有60张，狗的照片是40张。识别结果：TP=40，FN=20，FP=10，TN=30，则可以得到：( )。

A:Accuracy=0.8
B:Precision=0.8
C:Recall=0.8
D:以上都不对
答案: Precision=0.8

4、关于数据规范化，下列说法中错误的是( )。

A:包含标准化和归一化
B:标准化在任何场景下受异常值的影响都很小
C:归一化利用了样本中的最大值和最小值
D:标准化实际上是将数据在样本的标准差上做了等比例的缩放操作
答案: 标准化在任何场景下受异常值的影响都很小

5、下列哪种方法可以用来缓解过拟合的产生：( )。

A:增加更多的特征
B:正则化
C:增加模型的复杂度
D:以上都是
答案: 正则化

6、以下关于ROC和PR曲线说法不正确的是 ( )。

A:ROC曲线兼顾正例与负例，PR曲线完全聚焦于正例
B:如果想测试不同类别分布下分类器性能的影响，ROC曲线更为适合
C:ROC曲线不会随着类别分布的改变而改变
D:类别不平衡问题中，ROC曲线比PR曲线估计效果要差
答案: 类别不平衡问题中，ROC曲线比PR曲线估计效果要差

7、以下关于偏差(Bias)和方差(Variance)说法正确的是 ( )。

A:方差描述的是预测值与真实值之间的差别
B:偏差描述的是预测值的变化范围
C:获取更多的训练数据可解决高方差的问题
D:获取更多的特征能解决高方差的问题
答案: 获取更多的训练数据可解决高方差的问题

8、关于L1正则化和L2正则化说法错误的是 ( )。

A:L1正则化的功能是使权重稀疏
B:L2正则化的功能是防止过拟合
C:L1正则化比L2正则化使用更广泛
D:L1正则化无法有效减低数据存储量
答案: L1正则化比L2正则化使用更广泛

9、随着训练样本的数量越来越大，则该数据训练的模型将具有：( )。

A:低方差
B:高方差
C:相同方差
D:无法判断
答案: 低方差

10、随着训练样本的数量越来越大，则该数据训练的模型将具有：( )。

A:低偏差
B:高偏差
C:相同偏差
D:无法判断
答案: 相同偏差

11、关于特征选择，下列对Ridge回归和Lasso回归的说法正确的是：( )。

A:Ridge回归适用于特征选择
B:Lasso回归适用于特征选择
C:两个都适用于特征选择
D:以上说法都不对
答案: Lasso回归适用于特征选择

12、一个正负样本不平衡问题(正样本99%，负样本 1%)。假如在这个非平衡的数据集上建立一个模型，得到训练样本的正确率是 99%，则下列说法正确的是？( )

A:模型正确率很高，不需要优化模型了
B:模型正确率并不能反映模型的真实效果
C:无法对模型做出好坏评价
D:以上说法都不对
答案: 模型正确率并不能反映模型的真实效果

13、以下关于交叉验证说法正确的是 ( )。

A:交叉验证可利用模型选择避免过拟合的情况
B:交叉验证可对模型性能合理评估
C:交叉验证大大增加了计算量
D:以上说法都不对
答案: 交叉验证可利用模型选择避免过拟合的情况 ;
交叉验证可对模型性能合理评估;
交叉验证大大增加了计算量

14、评价指标中，精确率(Precision)的计算需要哪些数值 ( )。

A:TP
B:TN
C:FP
D:FN
答案: TP;
FP

15、评价指标中，召回率(Recall)的计算需要哪些数值 ( )。

A:TP
B:TN
C:FP
D:FN
答案: TP;
FN

16、评估完模型之后，发现模型存在高偏差(high bias)，应该如何解决？( )

A:减少模型的特征数量
B:增加模型的特征数量
C:增加样本数量
D:尝试减少正则化系数
答案: 增加模型的特征数量;
尝试减少正则化系数

17、特征空间越大，过拟合的可能性越大。

A:正确
B:错误
答案: 正确

18、 L2 正则化得到的解更加稀疏。

A:正确
B:错误
答案: 错误

19、 SMOTE算法是用了上采样的方法。

A:正确
B:错误
答案: 正确

20、 100万条数据划分训练集、验证集、测试集，数据可以这样划分：98%，1%，1% 。

A:正确
B:错误
答案: 正确

KNN算法 KNN算法课后测验

1、下列哪个距离度量不在KNN算法中体现：( )。

A:切比雪夫距离
B:欧氏距离
C:余弦相似度
D:曼哈顿距离
答案: 余弦相似度

2、下列选项中，关于KNN算法说法不正确是：( )。

A:能找出与待预测样本相近的K个样本
B:默认使用欧氏距离度量
C:实现过程相对简单，但是可解释性不强
D:效率很高
答案: 效率很高

3、以下距离度量方法中，在城市道路里，要从一个十字路口开车到另外一个十字路口的距离是： ( )。

A:夹角余弦
B:切比雪夫距离
C:曼哈顿距离
D:欧氏距离
答案: 曼哈顿距离

4、以下关于KD树的说法错误的是 ( )。

A:KD树是一种对k维空间的数据进行存储以便于快速检索的树形数据结构
B:KD树主要用于多维空间关键数据的检索
C:KD树节点与k维中垂直与超平面的那一维有关
D:所有x值小于指定值的节点会出现在右子树
答案: 所有x值小于指定值的节点会出现在右子树

5、利用KD树进行搜索时，正确的方式是 ( )。

A:查询数据从子节点开始
B:若数据小于对应节点中k维度的值，则访问左节点
C:回溯过程是为了找距离较远的点
D:回溯的判断过程是从上往下进行的
答案: 若数据小于对应节点中k维度的值，则访问左节点

6、以下哪项是KNN算法的缺点？( )

A:低精度
B:对异常值不敏感
C:计算成本高
D:需要的内存非常少
答案: 计算成本高

7、关于余弦相似度，不正确的是( )。

A:余弦相似度的范围为[-1,1]
B:余弦相似度的结果和向量的长度无关
C:余弦相似度为-1时候，两个向量完全不相关
D:余弦相似度为1的时候，两个向量完全相关
答案: 余弦相似度为-1时候，两个向量完全不相关

8、 KD树(K-Dimension Tree)的描述中，不正确的是( )。

A:KD树是二叉树
B:KD树可以用更高的效率来对空间进行划分
C:KD树的结构非常适合寻找最近邻居和碰撞检测
D:KD树切分时，从方差小的维度开始切分
答案: KD树切分时，从方差小的维度开始切分

9、假设有 6 个二维数据点：D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)}，第一次切分时候，切分线为( )。

A:x=5
B:x=6
C:y=5
D:y=6
答案: x=6

10、 KNN算法在什么情况下效果较好？( )

A:样本较多但典型性不好
B:样本较少但典型性好
C:样本呈团状分布
D:样本呈链状分布
答案: 样本较少但典型性好

11、关于KNN算法的描述，不正确的是( )。

A:可以用于分类
B:可以用于回归
C:距离度量的方式通常用曼哈顿距离
D:K值的选择一般选择一个较小的值
答案: 距离度量的方式通常用曼哈顿距离

12、两个向量的长度分别为1和2，两者之间的夹角为60度，则以下选项错误的是( )。

A:余弦相似度为0.5
B:余弦相似度为正
C:余弦相似度没法计算，因为没给出具体坐标值
D:余弦相似度的值与向量的长度无关，只和向量之间的夹角有关
答案: 余弦相似度没法计算，因为没给出具体坐标值

13、影响KNN算法效果的主要因素包括( )。

A:K的值
B:距离度量方式
C:决策规则
D:最邻近数据的距离
答案: K的值;
距离度量方式;
决策规则

14、以下关于KNN说法正确的是 (多选)( )。

A:计算复杂度低
B:对数据没有假设
C:对异常值不敏感
D:可解释性好
答案: 计算复杂度低;
对数据没有假设;
对异常值不敏感

15、闵可夫斯基距离中的p取1或2时的闵氏距离是最为常用的，以下哪项是正确的:( )。

A:p取1时是曼哈顿距离
B:p取2时是欧氏距离
C:p取无穷时是切比雪夫距离
D:闵可夫斯基空间不同于牛顿力学的平坦空间
答案: p取1时是曼哈顿距离;
p取2时是欧氏距离;
p取无穷时是切比雪夫距离;
闵可夫斯基空间不同于牛顿力学的平坦空间

16、 KNN算法的缺点包括以下几点？( )

A:可解释性差，无法给出决策树那样的规则
B:对训练数据依赖度特别大，当样本不平衡的时候，对少数类的预测准确率低
C:对异常值敏感
D:计算复杂性高；空间复杂性高，尤其是特征数非常多的时候
答案: 可解释性差，无法给出决策树那样的规则;
对训练数据依赖度特别大，当样本不平衡的时候，对少数类的预测准确率低;
计算复杂性高；空间复杂性高，尤其是特征数非常多的时候

17、两个向量的余弦相似度越接近1，说明两者越相似。

A:正确
B:错误
答案: 正确

18、 k近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算法，可以用于分类，但不能用于回归方法。

A:正确
B:错误
答案: 错误

19、 KNN没有显示的训练过程，它在训练阶段只是把数据保存下来，训练时间开销为0，等收到测试样本后进行处理。

A:正确
B:错误
答案: 正确

20、 KNN分类的时候，对新的样本，根据其k个最近邻的训练样本的类别，通过多数表决等方式进行预测。

A:正确
B:错误
答案: 正确

上方为免费预览版答案，如需购买完整答案，请点击下方红字

点击这里,购买完整版答案

点关注，不迷路，微信扫一扫下方二维码

关注我们的公众号：阿布查查 随时查看答案，网课轻松过

为了方便下次阅读，建议在浏览器添加书签收藏本网页

电脑浏览器添加/查看书签方法

1.按键盘的ctrl键+D键，收藏本页面

2.下次如何查看收藏的网页？

点击浏览器右上角-【工具】或者【收藏夹】查看收藏的网页

手机浏览器添加/查看书签方法

一、百度APP添加/查看书签方法

1.点击底部五角星收藏本网页

2.下次如何查看收藏的网页？

点击右上角【┇】-再点击【收藏中心】查看

二、其他手机浏览器添加/查看书签方法

1.点击【设置】-【添加书签】收藏本网页

2.下次如何查看收藏的网页？

点击【设置】-【书签/历史】查看收藏的网页

宝冷仙珐尘阶颗谈钝缚疮呸撬

分类中国大学mooc答案标签，购买后上方矩形框将出现已付费的隐藏内容、 ;根据用户的年龄、 .、 .%机器学习实践机器学习实践课后测验、 .关于朴素贝叶斯，下列说法错误的是：（）A它是一个分类算法B朴素的意义在于它的一个天真的假设：所有特征之间是相互独立的C它实际上是将多条件下的条件概率转换成了单一条件下的条件概率，简化了计算D朴素贝叶斯不需要使用联合概率、 .哪种决策树没有剪枝操作()、 .如果假设空间较小，容易发生过拟合、 “甲种产品滞销或乙种产品畅销”、 ()()正确，()()错误、 ()ACBJavaCPythonDHTML、 ()A低精度B对异常值不敏感C计算成本高D需要的内存非常少、 ()A减少模型的特征数量B增加模型的特征数量C增加样本数量D尝试减少正则化系数、 ()A可解释性差，无法给出决策树那样的规则B对训练数据依赖度特别大，当样本不平衡的时候，对少数类的预测准确率低C对异常值敏感D计算复杂性高；空间复杂性高，尤其是特征数非常多的时候、 ()A样本较多但典型性不好B样本较少但典型性好C样本呈团状分布D样本呈链状分布、 ()A模型正确率很高，不需要优化模型了B模型正确率并不能反映模型的真实效果C无法对模型做出好坏评价D以上说法都不对、 ()A每棵树是通过数据集的子集和特征的子集构建的B每棵树是通过所有的特征构建的C每棵树是通过所有的数据构建的D以上都不对、 ()A聚类B降维C分类D回归、 ()是可用于标记数据的机器学习算法、 ()是机器学习的一部分，与神经网络一起工作、 (多选)()A这两种方法都可以用来做分类B随机森林用来做分类，梯度提升用来做回归C随机森林用来做回归，梯度提升用来做分类D两种方法都可以用来做回归、 )A如果相较于m而言，n要大许多，即训练集数据量不够支持我们训练一个复杂的非线性模型，我们选用逻辑回归模型或者不带核函数的支持向量机、 /、％、 A.B.C.D.、 A%B.%C%D.%、 A+xBxC+yDy、 AA.BP算法信号传播的顺序是输出层、 AAccuracy=.BPrecision=.CRecall=.D以上都不对、 AAdaBoost使用的损失函数是指数函数B在训练过程中，若某个样本点已经被准确分类，则在构造下一个训练集时，该样本的权重会下降C在投票时，分类误差小的弱分类器权重较小D以上说法都不对、 AApriori使用候选集BFPGrowth没有候选集CFPgrowth的模式生成通过构建FPTreeDApriori比FPTree更麻烦，更难构建、 AApriori比FPgrowth操作更麻烦BFPgrowth算法需要对项目进行配对，因此处理速度慢CFPgrowth只需要一次遍历数据，扫描效率高DFPgrowth算法在数据库较大时，不适宜共享内存、 ABCD、 ABnC’n’D”n”、 ABP算法不能用于处理非线性分类问题BBP算法训练时间较长CBP算法容易陷入局部最小值DBP算法训练时候可能由于权值调整过大使得激活函数达到饱和、 ABP算法反向传播的预测误差值一般由真实标签值和预测标签值的差计算得来BBP算法反向传播的目的是只对权值进行更新CBP算法反向传播进行更新时一般用到微积分的链式传播法则DBP算法更新量与步长关系不大、 ABP算法更新没有明确的公式，需要不断试凑，才能决定隐层节点数量BBP算法涉及参数数量很多，因此更新速度慢CBP算法迭代速度不快，即使提高学习率也无济于事DBP算法很容易陷入局部极小值问题、 ABP算法能够自适应学习BBP算法有很强的非线性映射能力CBP算法反向传播采用链式法则，推导过程严谨DBP算法泛化能力不强、 AC.BCARTCIDD以上都不对、 AC.算法采用基尼系数的大小来度量特征的各个划分点BC.算法可以处理非离散的数据CC.算法引入悲观剪枝策略进行后剪枝DC.算法最大的特点是克服了ID对特征数目的偏重这一缺点、 ACART采用的是悲观策略的预剪枝BID没有剪枝策略CC.采用的是基于代价函数的后剪枝D以上说法都不对、 ACNNBC.CCARTDID、 ACPU性能预测B购物篮分析C自动判断鸢尾花类别D股票趋势建模、 AdaBoost使用的损失函数是指数函数、 Adboost的优点不包括()A分类精度高B对异常点敏感，异常点会获得较高权重C可以用各种回归分类模型来构建弱学习器，非常灵活D不容易发生过拟合、 ADBSCAN使用基于密度的概念BK均值使用簇的基于层次的概念CK均值很难处理非球形的簇和不同大小的簇DDBSCAN可以处理不同大小和不同形状的簇、 ADBSCAN算法是一种基于划分的聚类算法BDBSCAN算法将点分成核心点、 AElasticNetBL正则化CL正则化DDropout正则化、 AELM有多个隐藏层BELM学习速度非常快，因为需要更新的变量数目很少CELM隐藏层的权值是初始时随机赋值的，在迭代中不对其进行更新DELM也分输入层、 AFPgrowth算法是对Apriori算法的改进BFPgrowth算法不需要产生候选集CFPgrowth算法将数据库压缩成一棵频繁模式树，但保留关联信息DFPgrowth只需要一次遍历数据，大大提高了效率、 AGBDT是由多棵回归树组成BGBDT泛化能力较强CGBDT使用的是放回采样DGBDT需要使用剪枝操作、 AID没有剪枝策略，容易过拟合B信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于C既能用于处理离散分布的特征，也能用于连续分布的特征处理D没有考虑缺失值、 AID算法选择信息增益最大的特征作为当前决策节点BC.算法选择信息增益率来选择属性CC.算法不能用于处理不完整数据DCART算法选择基尼系数来选择属性、 AJamesGoslingBArthurSamuelCGuidovanRossumD以上都不是、 AKD树是一种对k维空间的数据进行存储以便于快速检索的树形数据结构BKD树主要用于多维空间关键数据的检索CKD树节点与k维中垂直与超平面的那一维有关D所有x值小于指定值的节点会出现在右子树、 AKD树是二叉树BKD树可以用更高的效率来对空间进行划分CKD树的结构非常适合寻找最近邻居和碰撞检测DKD树切分时，从方差小的维度开始切分、 AKmeansBDBSCANCAprioriDAGENES、 AKmeansBDBSCANCC.DApriori、 AKmeansBk近邻C感知机DAdaBoost、 AKmeans算法需要指定簇的个数BKmeans算法本质上是EM(期望最大化)方法CKmeans算法不会出现局部极小值的问题DKmeans在重新计算质心，簇会发生变化、 AkNNBkmeansCSVMD决策树、 AK的值B距离度量方式C决策规则D最邻近数据的距离、 AL正则化的功能是使权重稀疏BL正则化的功能是防止过拟合CL正则化比L正则化使用更广泛DL正则化无法有效减低数据存储量、 AMSEB交叉熵(CrossEntropy)损失函数CMAEDRMSE、 Ap(男｜运动鞋)=.Bp(女｜运动鞋)=.Cp(运动鞋｜男性)=/Dp（运动鞋｜女性)=.、 APCABSVDCDBSCANDKmeans、 APCA各个主成分之间正交BPCA各个主成分维度解释性强CPCA运算时需要进行特征值分解DPCA运算结果受到属性方差的影响、 APCA和SVD都可以用于降低维度BSVD可以用来计算伪逆CPCA只能获取单个方向的主成分DPCA无需进行零均值化、 APCA是一种监督学习算法BPCA在转换后的第一个新坐标轴选择的是原始数据中方差最小的方向CPCA转换后选择的第一个方向是最主要特征DPCA不需要对数据进行归一化处理、 APCA算法完全没有参数限制BPCA算法很难去除噪声CPCA可以降低算法的计算开销DPCA算法需要对对象有一定的先验知识、 Apriori、 Apriori使用候选集;FPGrowth没有候选集;FPgrowth的模式生成通过构建FPTree、 Apriori算法、 Apriori算法是一种典型的关联规则挖掘算法、 Apriori算法运算过程中不需要找出所有的频繁项集、 Ap取时是曼哈顿距离Bp取时是欧氏距离Cp取无穷时是切比雪夫距离D闵可夫斯基空间不同于牛顿力学的平坦空间、 ARidge回归适用于特征选择BLasso回归适用于特征选择C两个都适用于特征选择D以上说法都不对、 AROC曲线兼顾正例与负例，PR曲线完全聚焦于正例B如果想测试不同类别分布下分类器性能的影响，ROC曲线更为适合CROC曲线不会随着类别分布的改变而改变D类别不平衡问题中，ROC曲线比PR曲线估计效果要差、 ArthurSamuel、 ASigmoidBCosCTanhDReLU、 ASigmoid函数计算量小B可以将函数值的范围压缩到[，]C函数处处连续D趋向无穷的地方，函数变化很小，容易出现梯度消失的现象、 ASVD分解的矩阵不要求是方阵BSVD分解出三个矩阵的乘积的形式，其中一个是奇异值矩阵，另外两个是奇异向量组成的矩阵C奇异值跟特征值性质完全不同D前面几个奇异值占了全部奇异值之和的绝大部分、 ASVD可将矩阵分解成三个矩阵的乘积，其中存在两个对角阵BSVD并不要求分解矩阵必须是方阵C特征向量组成的矩阵并不要求必须是酉矩阵D以上说法都不对、 ASVM适用于大规模数据集BSVM分类思想就是将分类面之间的间隔最小化CSVM方法简单，鲁棒性较好DSVM分类面取决于支持向量、 ATPBTNCFPDFN、 A不确定BC无数D、 A与Apriori算法相比，该算法只需对数据库进行两次扫描B该算法不需要对项目进行配对，因此速度更快C数据库存储在内存中的压缩版本中D对长、 A个B个C个D个、 A为参数选取多组初始值，分别训练，再选取一组作为最优值B增大学习的步长C减少训练数据集中数据的数量D设置一个正则项减小模型的复杂度、 A主成分分析B特征提取C奇异值分解D离散化、 A交叉验证可利用模型选择避免过拟合的情况B交叉验证可对模型性能合理评估C交叉验证大大增加了计算量D以上说法都不对、 A交叉验证的次数B用到的核函数C在分类准确性和模型复杂度之间的权衡D以上都不对、 A人工智能B深度学习CA和BD以上都不是、 A低偏差B高偏差C相同偏差D无法判断、 A低方差B高方差C相同方差D无法判断、 A余弦相似度为.B余弦相似度为正C余弦相似度没法计算，因为没给出具体坐标值D余弦相似度的值与向量的长度无关，只和向量之间的夹角有关、 A余弦相似度的范围为[，]B余弦相似度的结果和向量的长度无关C余弦相似度为时候，两个向量完全不相关D余弦相似度为的时候，两个向量完全相关、 A信息增益=信息熵–条件熵B一个系统越是混乱，随机变量的不确定性就越大，信息熵就越高C一个系统越是有序，信息熵就越低D中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵、 A信息增益B信息增益率C交叉熵D信息熵、 A先验概率B后验概率C联合概率D以上说法都不对、 A关联规则反映某事物与其他事物之间的关联性B购物车分析是大型商业超市用来揭示商品之间关联性的技术之一C使用购物车分析的方法，一定可以提高销售额D购物车分析通过找出不同产品之间的关联性为准，安放商品、 A关联规则发现B聚类C分类D自然语言处理、 A关联规则挖掘B分类与回归C聚类分析D时序预测、 A关联规则挖掘的算法主要有：Apriori和FPGrowthB一个项集满足最小支持度，我们称之为频繁项集C啤酒与尿布的故事是聚类分析的典型实例D支持度是衡量关联规则重要性的一个指标、 A决策树、 A决策树剪枝的基本策略有预剪枝和后剪枝BID算法没有剪枝操作C剪枝是防止过拟合的手段DC.算法没有剪枝操作、 A决策树算法属于无监督学习B决策树算法本质上是贪心算法C决策树生成过程中需要用到分割法D决策树决策过程从根节点开始、 A减小训练时间B方便实现数据可视化C方便消除冗余特征D可明显提高学习性能、 A函数处处连续，便于求导B可以用于处理二分类问题C在深层次神经网络反馈传输中，不易出现梯度消失D可以压缩数据值到[，]之间，便于后续处理、 A分类属于监督学习B分类问题输入属性必须是离散的C多分类问题可以被拆分为多个二分类问题D回归问题在一定条件下可被转化为多分类问题、 A分裂聚类是从上而下进行聚类B聚合聚类是从下而上进行聚类C层次聚类又有聚合聚类(自下而上)、 A切比雪夫距离B欧氏距离C余弦相似度D曼哈顿距离、 A包含标准化和归一化B标准化在任何场景下受异常值的影响都很小C归一化利用了样本中的最大值和最小值D标准化实际上是将数据在样本的标准差上做了等比例的缩放操作、 A原始维度不高的数据B特征之间存在线性关系的数据C维度很高且各个维度之间相关性比较弱的数据D以上数据都不适合做降维、 A可以处理样本不平衡问题BCART分类树采用基尼系数的大小来度量特征的各个划分点CCART算法既可以处理分类问题，也可以处理回归问题DCART算法采用信息增益率的大小来度量特征的各个划分点、 A可以用于分类B可以用于回归C距离度量的方式通常用曼哈顿距离DK值的选择一般选择一个较小的值、 A和都错误B正确，错误C错误，正确D和都正确、 A回归B分类C聚类D关联规则、 A回归算法B聚类算法C关联规则算法D以上都不是、 A回归问题有标签，分类问题没有B回归问题输出值是离散的，分类问题输出值是连续的C回归问题输出值是连续的，分类问题输出值是离散的D回归问题与分类问题在输入属性值上要求不同、 A在原空间中寻找非线性函数的划分数据B无法处理C在原空间中寻找线性函数划分数据D将数据映射到核空间中、 A均一性B完整性C轮廓系数D决定系数R、 A均为无监督学习算法B均不要求数据符合高斯分布C都利用了矩阵分解的思想D都会导致数据过拟合、 A均方误差、 A增加更多的特征B正则化C增加模型的复杂度D以上都是、 A增加树的深度B增大学习率C减少树的深度D减少树的数量、 A增大正则化系数B增加新的特征C增加模型复杂度D对特征进行变换，使用组合特征或高维特征、 A处理非线性数据较容易B模型形式简单C资源占用少D可解释性好、 A夹角余弦B切比雪夫距离C曼哈顿距离D欧氏距离、 A学习率的选择不能太大也不能太小B学习率太大会导致无法收敛C学习率太小会使得算法陷入局部极小点D学习率必须是固定不变的、 A学生的性别与他的成绩B儿子的身高与父亲的身高C正方形的边长与面积D正三角形的边长与周长、 A它易于理解、 A它通过降低梯度下降的每次迭代的计算成本来加速梯度下降B它通过减少迭代次数来获得一个好的解，从而加快了梯度下降的速度C它不能防止梯度下降陷入局部最优D它防止矩阵不可逆(奇异/退化)、 A密度聚类对噪声数据非常敏感B密度聚类假设类结构能通过样本分布的紧密程度确定C层次聚类对给定的数据进行有层次的分解，直到满足条件为止D层次聚类有自底向上和自顶向下两种策略、 A对于n类别，需要训练n个模型B对于n类别，需要训练n个模型C对于n类别，只需要训练个模型D以上说法都不对、 A对大数据集有较高的效率并且具有可伸缩性B是一种无监督学习方法CK值无法自动获取，初始聚类中心随机选择D初始聚类中心的选择对聚类结果影响不大、 A对数据分布较少的类别过采样B对数据分布较多的类别欠采样C对数据分布较多的类别赋予更大的权重D对数据分布较少的类别赋予更大的权重、 A对数据进行清洗B增大训练数据的量C利用正则化技术D增加数据属性的复杂度、 A尽量减小迭代的学习率B在每一轮迭代中都赋予一定的概率接受次优解，但是概率随迭代不断降低C令初始值为较大的值D以上做法都不可行、 A层次聚类B划分聚类C非互斥聚类D密度聚类、 A当σ(z)大于等于.时，预测y=B当σ(z)小于.时，预测y=C当σ(z)小于.时，预测y=Dσ(z)的范围为(，)、 A当各个类中心还在发生偏移的时候B当所有的野值点均隶属于一个簇的时候C当循环数超过某一个阈值的时候D当所有数据隶属的簇不再发生变化的时候、 A当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机B当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器，即线性支持向量机C当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机DSVM的基本模型是在特征空间中寻找间隔最小化的分离超平面的线性分类器、 A感知器是最简单的前馈式人工神经网络B感知器中的偏置只改变决策边界的位置C单层感知器可以用于处理非线性学习问题D可为感知器的输出值设置阈值使其用于处理分类问题、 A推理过程容易理解，计算简单B算法考虑了数据属性之间的相关性C算法自动忽略了对模型没有贡献的属性变量D算法容易造成过拟合、 A散点图B柱形图C直方图D以上都不对、 A方差描述的是预测值与真实值之间的差别B偏差描述的是预测值的变化范围C获取更多的训练数据可解决高方差的问题D获取更多的特征能解决高方差的问题、 A早期的神经网络算法需要训练的参数太多B早期的神经网络算法无法收敛C早期的神经网络算法无法处理非线性学习问题D早期的神经网络的收敛速度太慢、 A是一种监督学习的方法B可用于多分类的问题C支持非线性的核函数D是一种生成模型、 A是否进行了空间映射B是否确保间隔最大化C是否能处理线性不可分问题D训练误差通常较低、 A最近重构性B信息增益最大性C最大可分性D局部极小性、 A机器学习从标记的数据中学习B机器学习能使计算机能够在没有明确编程的情况下学习C机器学习是计算机编程的科学D机器学习是允许机器人智能行动的领域、 A查询数据从子节点开始B若数据小于对应节点中k维度的值，则访问左节点C回溯过程是为了找距离较远的点D回溯的判断过程是从上往下进行的、 A根据肿瘤的体积、 A模型B损失函数C优化算法D模型评估指标、 A正交矩阵不便于进行降维和重构计算B正交矩阵投影变换之后的矩阵不同坐标之间是不相关的C坐标之间去相关后必定有利于提高后续的学习性能D以上说法都不对、 A正确B错误、 A残差均值总是为零B残差均值总是小于零C残差均值总是大于零D以上说法都不对、 A残差是预测值与真实值之间的差值B损失函数越小，模型训练得一定越好C正则项的目的是为了避免模型过拟合D最小二乘法不需要选择学习率、 A汉明距离B马氏距离C曼哈顿距离D欧式距离、 A测试集是纯粹是用于测试模型泛化能力B训练集是用来训练以及评估模型性能C验证集用于调整模型参数D其余、 A监督学习B无监督学习C强化学习D以上全部、 A监督学习B无监督学习C强化学习D以上都不是、 A监督学习B无监督学习C强化学习D都不属于、 A简洁性B确定性C实用性D新颖性、 A算法只要知道上一层神经元的阈值梯度，就能计算当前层神经元的阈值梯度和连接权值梯度B当前层的连接权值梯度，取决于当前层神经元阈值梯度和上一层神经元输出C隐层的阈值梯度只跟本层的神经元输出值有关D隐层阈值梯度取决于隐层神经元输出、 A线性核计算简单，可解释性强B高斯核能够应对较为复杂的数据C多项式核需要多次特征转换D高斯核计算简单，不容易过拟合、 A置信度(confidence)B支持度(support)C提升度(lift)D精确度(precision)、 A聚类B距离度量C数据压缩D分类、 A能找出与待预测样本相近的K个样本B默认使用欧氏距离度量C实现过程相对简单，但是可解释性不强D效率很高、 A计算之前不需要对训练数据进行归一化B输入信号顺着输入层、 A计算复杂度低B对数据没有假设C对异常值不敏感D可解释性好、 A计算大量历史气象数据的过程B正确预测未来日期天气的概率C天气预报任务D以上都不、 A软间隔允许一定的样本分类错误B硬间隔要求所有数据分类完全准确，不允许出现错误C软间隔有利于获取更大的分类间隔D硬间隔有利于消除模型的过拟合、 A输入层B输出层C卷积层D隐藏层、 A选择的特征越多越好B选择的特征越少越好C选择的特征需尽可能反映不同事物之间的差异D以上说法均不对、 A逻辑回归B决策树CKNND线性回归、 A降维是将训练样本从高维空间转换到低维空间B降维不会对数据产生损伤C通过降维可以更有效地发掘有意义的数据结构D降维将有助于实现数据可视化、 A随机森林BAdaBoostCSVMDKmeans、 A随机森林由若干决策树组成，决策树之间存在关联性B随机森林学习过程分为选择样本、 A集成学习需要各个弱分类器之间具备一定的差异性B弱分类器的错误率不能高于.C集成多个线性分类器也无法解决非线性分类问题D当训练数据集较大时，可分为多个子集，分别进行训练分类器再合成、 A频繁项集的非空子集也是频繁项集B频繁项集是支持值大于阈值的项集CApriori算法运算过程中不需要找出所有的频繁项集DApriori算法可由收集到的频繁项集产生强关联规则、 A高斯核B拉普拉斯核C线性核D多项式核、 A高维度数据增加了运算难度B降低高维度数据维度会对数据有所损伤C高维度数据可使得算法泛化能力变得越来越强D高维度数据难以可视化、 BB.BP算法信号前向传播的计算量跟输入层神经元数目无关CC.BP算法在计算正向传播输出值时需要考虑激活函数DD.BP算法只有在隐层才有激活函数、 BP算法“喜新厌旧”，在学习新样本后，会把旧样本逐渐遗忘、 BP算法不能用于处理非线性分类问题、 BP算法反向传播进行更新时一般用到微积分的链式传播法则、 BP算法总结错误的是（）、 BP算法更新没有明确的公式，需要不断试凑，才能决定隐层节点数量;BP算法涉及参数数量很多，因此更新速度慢;BP算法很容易陷入局部极小值问题、 BP算法的反向传播是为了对权值进行调整、 BP算法的正向传播是为获取训练误差、 BP算法能够自适应学习;BP算法有很强的非线性映射能力;BP算法反向传播采用链式法则，推导过程严谨、 BP算法陷入局部极小值的问题可通过更换激活函数解决、 B如果n较小，而且m大小中等，例如n在之间，而m在之间，使用高斯核函数的支持向量机、 B或者根据用户的年龄、 B根据用户的年龄、 B逻辑回归使用了Sigmoid激活函数C使用一个非常大的训练集使得模型不太可能过拟合训练数据、 C.;CART;ID、 C.BP算法在计算正向传播输出值时需要考虑激活函数、 C.是通过代价复杂度剪枝、 C.算法不能用于处理不完整数据、 C.算法采用基尼系数的大小来度量特征的各个划分点、 C.选择属性用的是()、 CART算法采用信息增益率的大小来度量特征的各个划分点、 C支持向量机理论上不能处理太多的特征、 C身高.m，体重kg的男人穿什么尺码的T恤、 DBSCAN;Kmeans、 DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇、 DBSCAN算法将点分成核心点、 D如果n较小，而m较大，例如n在之间，而m大于，则使用支持向量机会非常慢，解决方案是创造、 D如果您的模型拟合训练集，那么获取更多数据可能会有帮助、 D根据一个人的身高和体重判断他(她)的性别、 D根据房屋大小、 ELM有多个隐藏层、 FPgrowth只需要一次遍历数据，大大提高了效率、 FPGrowth和Apriori算法的比较，正确的是()、 FPgrowth算法在数据库较大时，不适宜共享内存、 FPGrowth算法的优点包括()、 FPTree算法、 FPTree算法DK均值法、 GBDT使用的是放回采样、 GBDT由哪三个概念组成：()ARegressionDecisionTree(即DT)BGradientBoosting(即GB)CShrinkage(缩减)DBootstrap(自助采样法)、 GBDT算法的描述，不正确的是()A决策树+Boosting=GBDTBGBDT算法主要是用了Boosting方法CGBDT与AdaBoost的对比，都是Boosting家族成员，使用弱分类器；都使用前向分步算法D梯度提升算法通过迭代地选择一个梯度方向上的基函数来逐渐逼近局部极小值、 Id、 ID和C.和CART都只能用于分类问题，不能用于回归问题、 ID没有剪枝策略、 ID算法只能用于处理离散分布的特征、 ID算法的核心思想就是以信息增益来度量特征选择，选择信息增益最大的特征进行分裂、 ID算法的缺点不包括()、 ID选择属性用的是()、 KD树(KDimensionTree)的描述中，不正确的是()、 KD树切分时，从方差小的维度开始切分、 Kmeans;k近邻;感知机、 Kmeans算法不会出现局部极小值的问题、 KNN分类的时候，对新的样本，根据其k个最近邻的训练样本的类别，通过多数表决等方式进行预测、 KNN没有显示的训练过程，它在训练阶段只是把数据保存下来，训练时间开销为，等收到测试样本后进行处理、 KNN算法在什么情况下效果较好、 KNN算法的缺点包括以下几点、 K均值使用簇的基于层次的概念、 K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定、 K的值;距离度量方式;决策规则、 k近邻法(kNearestNeighbor，kNN)是一种比较成熟也是最简单的机器学习算法，可以用于分类，但不能用于回归方法、 Lasso回归适用于特征选择、 LightGBM与XGBoost相比，主要有以下几个改进：(多选)()A基于梯度的单边采样算法(GradientbasedOneSideSampling，GOSS)B互斥特征捆绑算法(ExclusiveFeatureBundling，EFB)C直方图算法(Histogram)D基于最大深度的Leafwise的垂直生长算法、 LightGBM与XGBoost相比，主要的优势不包括()A更快的训练速度B更低的内存消耗C更好的准确率D采用二阶泰勒展开加快收敛、 LightGBM在建树过程中，采用基于最大深度的Leafwise的垂直生长算法、 L正则化、 L正则化往往用于防止过拟合，而L正则化往往用于特征选择、 L正则化得到的解更加稀疏、 L正则化比L正则化使用更广泛、 Minsky在上世纪年代末指出了神经网络算法的哪种缺点，使得神经网络算法陷入低潮（）、 mooc慕课答案、 mooc慕课答案题库、 mooc答案、 mooc答案题库、 mooc题库、 n++、 p（运动鞋｜女性)=.、 PCA会选取信息量最少的方向进行投影、 PCA各个主成分之间正交;PCA运算时需要进行特征值分解;PCA运算结果受到属性方差的影响、 PCA投影方向可从最大化方差和最小化投影误差这两个角度理解、 PCA无需进行零均值化、 PCA是一种有效的降维去噪方法、 PCA算法很难去除噪声、 PCA算法获取的超平面应具有哪些性质（）、 PCA转换后选择的第一个方向是最主要特征、 precision、 python、 p取时是曼哈顿距离;p取时是欧氏距离;p取无穷时是切比雪夫距离;闵可夫斯基空间不同于牛顿力学的平坦空间、 RegressionDecisionTree(即DT);GradientBoosting(即GB);Shrinkage(缩减)、 Sigmoid;Tanh;ReLU、 Sigmoid函数的范围是（，）A正确B错误、 Sigmoid函数计算量小、 SMOTE算法是用了上采样的方法、 SVD可用于求解矩阵的伪逆、 SVD并不要求分解矩阵必须是方阵、 SVM中核函数将高维空间中的数据映射到低维空间、 SVM中的代价参数C表示什么、 SVM原理描述不正确的是（）、 SVM方法简单，鲁棒性较好;SVM分类面取决于支持向量、 SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimalmarginclassifier）()A对B错、 SVM普遍使用的准则描述不正确的是：（）(n为特征数，m为训练样本数、 SVM的基本模型是在特征空间中寻找间隔最小化的分离超平面的线性分类器、 SVM的数据需要归一化或者标准化、 SVM算法的性能取决于：()A核函数的选择B核函数的参数C软间隔参数CD以上所有、 SVM算法的最小时间复杂度是O(n^)、 TP;FN、 TP;FP、 X、 x‘y、 XGBoost对损失函数做了二阶泰勒展开，GBDT只用了一阶导数信息，并且XGBoost还支持自定义损失函数，只要损失函数一阶、 XGBoost算法要求对数据进行归一化或者标准化、 XGBoost算法说法错误的是()AXGBoost算法的目标函数采用了二阶泰勒展开BXGBoost算法的速度要比GBDT快CXGBoost算法要求对数据进行归一化或者标准化DXGBoost算法的效果通常优于传统的机器学习模型、一个包含n类的多分类问题，若采用一对剩余的方法，需要拆分成多少次、一个正例(，)，一个负例(，)，下面哪个是SVM超平面?（）Ax+y=By+x=Cx+y=D无法计算、一个正负样本不平衡问题(正样本%，负样本%)、一个计算机程序从经验E中学习任务T，并用P来衡量表现、一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别种不同的人员：狱警，小偷，送餐员，其他、一般的多层感知器包含几种类型层次的神经元()、万条数据划分训练集、下列关于Apriori算法说法错误的是()、下列关于Kmeans聚类算法的说法错误的是()、下列关于朴素贝叶斯的特点说法错误的是（）A朴素贝叶斯模型发源于古典数学理论，数学基础坚实B朴素贝叶斯模型无需假设特征条件独立C朴素贝叶斯处理过程简单，分类速度快D朴素贝叶斯对小规模数据表现较好、下列关于线性回归分析中的残差（Residuals）说法正确的是、下列哪一项不是逻辑回归的优点、下列哪个距离度量不在KNN算法中体现：()、下列哪些学习问题不属于监督学习、下列哪种方法可以用来缓解过拟合的产生：（）、下列说法正确的是、下列选项中，关于KNN算法说法不正确是：()、下面关于支持向量机的描述正确的是()、下面关于随机森林和梯度提升集成方法的说法哪个是正确的、下面哪一项不是Sigmoid的特点、下面哪些是分类算法、下面哪些是聚类的评价指标()、下面哪些模型属于线性模型、下面哪种学习方法最适合此种应用需求：A二分类问题B多分类问题C回归问题D聚类问题、下面属于降维常用的技术的有：()、与Apriori算法相比，该算法只需对数据库进行两次扫描;该算法不需要对项目进行配对，因此速度更快;数据库存储在内存中的压缩版本中;对长、两个向量的余弦相似度越接近，说明两者越相似、两个向量的长度分别为和，两者之间的夹角为度，则以下选项错误的是()、两者都是使用了Boosting思想、个、中国大学MOOC慕课答案、中国大学mooc慕课答案大全、中国大学mooc慕课答案题库、中国大学mooc测验作业答案、中国大学MOOC答案、中国大学MOOC答案 CSDN、中国大学mooc答案公众号、中国大学MOOC答案公众号免费、中国大学mooc答案合集、中国大学MOOC答案在哪里查、中国大学MOOC答案查询、中国大学mooc答案题库、中国大学MOOC网课答案查询方法、中国大学慕课mooc答案题库、中国大学慕课答案、中国大学慕课答案题库、中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵、为了观察测试Y与X之间的线性关系，X是连续变量，使用下列哪种图形比较适合、为避免BP算法在迭代过程中出现局部极小值的问题，那么采取以下哪种方法可行（）、主成分分析;奇异值分解、二阶可导、于是，搜索时同一组新闻事件往往隶属同一主题的，所以显示到一起、交叉熵(CrossEntropy)损失函数、交叉验证可利用模型选择避免过拟合的情况;交叉验证可对模型性能合理评估;交叉验证大大增加了计算量、什么是P的合理选择、以A表示事件“甲种产品畅销，乙种产品滞销”，则其对立事件为A“甲种产品滞销，乙种产品畅销”B“甲乙两种产品均畅销”C“甲种产品滞销”D“甲种产品滞销或乙种产品畅销”、以上所有、以下不属于聚类算法的是（）、以下关于AdaBoost算法说法正确的是()、以下关于FPGrowth算法表述不正确的有()、以下关于GBDT算法说法错误的是()、以下关于KD树的说法错误的是()、以下关于Kmeans算法错误的有()、以下关于KNN说法正确的是(多选)()、以下关于PCA说法正确的是()、以下关于PCA说法正确的是(多选)(）、以下关于ROC和PR曲线说法不正确的是()、以下关于sigmoid函数的优点说法错误的是、以下关于Sigmoid的特点说法错误的是()、以下关于SVD的优化过程说法错误的是（）、以下关于SVD说法正确的有()、以下关于交叉验证说法正确的是()、以下关于偏差(Bias)和方差(Variance)说法正确的是()、以下关于关联规则说法错误的是()、以下关于决策树原理介绍错误的有()、以下关于决策树特点分析的说法错误的有()、以下关于决策树算法说法错误的是()、以下关于分类问题的说法错误的是、以下关于剪枝操作说法正确的是()、以下关于学习率说法错误的是（）、以下关于感知器说法错误的是()、以下关于支持向量机的说法正确的是（）、以下关于极限学习机（ELM）说法错误的是（）、以下关于特征选择的说法正确的是、以下关于训练集、以下关于逻辑回归与线性回归问题的描述错误的是（）A逻辑回归用于处理分类问题，线性回归用于处理回归问题B线性回归要求输入输出值呈线性关系，逻辑回归不要求C逻辑回归一般要求变量服从正态分布，线性回归一般不要求D线性回归计算方法一般是最小二乘法，逻辑回归的参数计算方法是似然估计法、以下关于降维的说法不正确的是、以下关于随机森林(RandomForest)说法正确的是()、以下关于集成学习特性说法错误的是()、以下哪些不是二分类问题、以下哪些不是聚类中用于衡量度量距离的指标（）、以下哪些可作为kmeans方法停止循环的指标（）、以下哪些方法不能用于处理欠拟合、以下哪些方法不能用于处理过拟合、以下哪些是PCA算法的主要应用（）、以下哪些是使用数据规范化(特征缩放)的原因、以下哪组变量之间存在线性回归关系、以下哪项是KNN算法的缺点、以下哪项陈述是正确的、以下属于关联规则分析的是()、以下算法不属于生成模型()A朴素贝叶斯模型B混合高斯模型C隐马尔科夫模型D支持向量机、以下算法属于判别模型的是（）A朴素贝叶斯模型B深度信念网络C隐马尔科夫模型D线性回归、以下说法错误的是、以下距离度量方法中，在城市道路里，要从一个十字路口开车到另外一个十字路口的距离是：()、以下那种算法不是集成学习算法()A随机森林BAdaBoostCXGBoostD决策树、以下那种算法需要对数据进行归一化或者标准化()、以下那种说法是错误的()、低方差、余弦相似度、余弦相似度为时候，两个向量完全不相关、余弦相似度没法计算，因为没给出具体坐标值、你正在训练一个分类逻辑回归模型、使用购物车分析的方法，一定可以提高销售额、信息增益、信息增益率、假如你在训练一个线性回归模型，则：.如果数据量较少，容易发生过拟合、假如使用一个较复杂的回归模型来拟合样本数据，使用Ridge回归，调试正则化参数，来降低模型复杂度，若正则化系数较大时，关于偏差(bias)和方差(variance)，下列说法正确的是?()A偏差减小B偏差增大C方差减小D方差增大、假如在这个非平衡的数据集上建立一个模型，得到训练样本的正确率是%，则下列说法正确的是、假设X和Y都服从正态分布，那么P(X<，Y<)就是一个（），表示X<，Y<两个条件同时成立的概率，即两个事件共同发生的概率、假设会开车的本科生比例是%，会开车的研究生比例是%、假设使用逻辑回归进行多类别分类，使用OVR分类法、假设我们给一个学习算法输入了很多历史天气的数据，让它学会预测天气、假设有三类数据，用OVR方法需要分类几次才能完成、假设有个二维数据点：D={(，)，(，)，(，)，(，)，(，)，(，)}，第一次切分时候，切分线为()、假设有张照片，其中，猫的照片有张，狗的照片是张、偏差增大;方差减小、公司里有一个人穿了运动鞋，推测是男还是女、关于Apriori和FPgrowth算法说法正确的是()、关于Bagging方法，以下说法错误的是()A对各弱分类器的训练可以通过并行方式完成B最终分类结果是由各弱分类器以一定的方式投票决定的C由于各分类器是独立的，弱分类器的训练数据也是相互独立的D对各弱分类器的训练可以通过串行方式进行、关于BP算法优点说法正确的是（）、关于BP算法优缺点的说法错误的是()、关于BP算法信号前向传播的说法正确的是（）、关于BP算法反向传播的说法正确的是（）、关于BP算法特点描述错误的是()、关于BP算法缺点的说法正确的是（）、关于C.算法，错误的是()、关于CART算法，错误的是()、关于DBSCAN算法，以下说法正确的是()、关于kmean算法的实现描述错误的是（）A收敛速度慢B原理简单，实现容易C可以轻松发现非凸形状的簇D需要事先确定k的值、关于KNN算法的描述，不正确的是()、关于K均值和DBSCAN的比较，以下说法不正确的是()、关于L正则化和L正则化说法错误的是()、关于PCA和SVD比较错误的是（）、关于PCA特点说法错误的是（）、关于SVM的描述正确的是：（）A支持向量机模型定义在特征空间上的间隔最大的线性分类器B支持向量机可以通过核技巧，这使之成为实质上的非线性分类器C支持向量机的学习策略就是间隔最大化D支持向量机训练时候，数据不需要归一化或者标准化、关于余弦相似度，不正确的是()、关于关联规则，正确的是：()、关于剪枝，以下算法正确的是：()、关于各类核函数的优缺点说法错误的是：（）、关于密度聚类和层次聚类说法错误的是（）、关于层次聚类，正确的是()、关于拉普拉斯平滑说法正确的是（）A避免了出现概率为的情况B加上拉普拉斯平滑有助于提高学习性能C会使得最终结果可能大于D以上说法都不对、关于支持向量机中硬间隔和软间隔的说法错误的是（）、关于数据规范化，下列说法中错误的是()、关于特征选择，下列对Ridge回归和Lasso回归的说法正确的是：()、关于特征选择，下列对Ridge回归和Lasso回归说法正确的是、关于维数灾难的说法错误的是（）、关于聚类的说法正确的有（）A其目的是根据过去的观测结果来预测新样本的标签为聚类B聚类的算法训练样本往往都不含有标签C聚类算法对于孤立的野值不敏感D聚类算法的更新步骤可解释性不强、关于这两句话，下列说法正确的是、关联规则使用的主要指标有()、关联规则发现、关联规则挖掘、关联规则挖掘的算法主要有：Apriori和FPGrowth;一个项集满足最小支持度，我们称之为频繁项集;支持度是衡量关联规则重要性的一个指标、关联规则的评价指标是：()、具有较高的支持度的项集具有较高的置信度、决策树、决策树剪枝的基本策略有预剪枝和后剪枝;ID算法没有剪枝操作;剪枝是防止过拟合的手段、决策树方法通常用于关联规则挖掘、决策树有哪些代表算法()、决策树的说法正确的是()、决策树算法属于无监督学习、减小训练时间;方便实现数据可视化;方便消除冗余特征、减少树的深度、几种常见的降维算法有共同特点有（）、分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于()问题、分类问题输入属性必须是离散的、分裂聚类(自上而下)两种方法;因为每个样本只属于一个簇，所以层次聚类属于硬聚类、分裂聚类(自上而下)两种方法D因为每个样本只属于一个簇，所以层次聚类属于硬聚类、分裂聚类是从上而下进行聚类;聚合聚类是从下而上进行聚类;层次聚类又有聚合聚类(自下而上)、划分聚类、则以下哪项计算错误（）、初始聚类中心的选择对聚类结果影响不大、判别模型所学内容是决策边界、利用KD树进行搜索时，正确的方式是()、单层感知器可以用于处理非线性学习问题、卫生间数量等特征预估房价、只适用于线性模型，不适合逻辑回归模型等其他模型;不需要选择学习率;当特征数量很多的时候，运算速度会很慢;不需要迭代训练、可以轻松发现非凸形状的簇、可用作数据挖掘分析中的关联规则算法有()、可解释性差，无法给出决策树那样的规则;对训练数据依赖度特别大，当样本不平衡的时候，对少数类的预测准确率低;计算复杂性高；空间复杂性高，尤其是特征数非常多的时候、可解释性强;其可作为分类算法，也可用于回归模型;CART使用的是二叉树、可解释性强B其可作为分类算法，也可用于回归模型CCART使用的是二叉树D不能处理连续型特征、向模型中添加新特征总是会在训练集上获得相同或更好的性能、向量x=[，，，，，]的L范数是多少、哪一个是机器学习的合理定义、 ‌哪些机器学习模型经过训练，能够根据其行为获得的奖励和反馈做出一系列决策、哪些算法不需要数据归一化、哪些类型的数据适合做降维（）、哪种开发语言最适合机器学习、回归算法、回归问题和分类问题的区别是、回归问题和分类问题的区别是什么、回归问题输出值是连续的，分类问题输出值是离散的、在SVM中，margin的含义是()A差额B损失误差C间隔D幅度、在分类准确性和模型复杂度之间的权衡、在每一轮迭代中都赋予一定的概率接受次优解，但是概率随迭代不断降低、在深层次神经网络反馈传输中，不易出现梯度消失、在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差、在这里，我们用P(Y)来代表在没有训练数据前假设Y拥有的初始概率，因此称其为Y的后验概率，它反映了我们所拥有的关于Y的背景知识、在随机森林里，你生成了几百颗树(T，T…..Tn)，然后对这些树的结果进行综合，下面关于随机森林中每颗树的说法正确的是、均一性;完整性;轮廓系数、均为章节测试、均方根误差BKappa统计、基于梯度的单边采样算法(GradientbasedOneSideSampling，GOSS);互斥特征捆绑算法(ExclusiveFeatureBundling，EFB);直方图算法(Histogram);基于最大深度的Leafwise的垂直生长算法、基于这一点，以下哪种规格的数据集并不适用于该算法?()A大数据集B小数据集C中数据集D不受数据集大小的影响、增加数据属性的复杂度、增加更多的特征，然后使用逻辑回归或不带核函数的支持向量机、增加模型复杂度;减小正则化系数;添加新特征、增加模型的特征数量;尝试减少正则化系数、增大正则化系数、处理非线性数据较容易、多分类问题、大学慕课MOOC的答案在哪里、大数据集、大部分的机器学习工程中，数据搜集、奇异值跟特征值性质完全不同、如果一个对象不强属于任何簇，那么该对象是基于聚类的离群点、如果一个样本空间线性可分，那么，我们能找到()个平面来划分样本、如果两个变量相关，那么它们一定是线性关系、存款数量来判断信用卡是否会违约、学习率必须是固定不变的、它易于理解、它通过减少迭代次数来获得一个好的解，从而加快了梯度下降的速度;它不能防止梯度下降陷入局部最优、密度聚类、密度聚类对噪声数据非常敏感、对于n类别，需要训练n个模型、对于在原空间中线性不可分问题，支持向量机（）、对于非概率模型而言，可按照判别函数线性与否分成线性模型与非线性模型、对各弱分类器的训练可以通过串行方式进行、对异常点敏感，异常点会获得较高权重、对数据分布较多的类别赋予更大的权重、将数据映射到核空间中、已知你朋友的信息，比如经常发email的联系人，或是你微博的好友、已知公司里男性人，女性人，男性穿运动鞋的有人，穿拖鞋的有人，女性穿运动鞋的有人，穿高跟鞋的有人、市场上某商品来自两个工厂，它们市场占有率分别为%和%，有两人各自买一件，则买到的来自不同工厂之概率为()、并且，T的表现P随着经验E的增加而提高、引言引言课后测试、强化学习、当σ(z)小于.时，预测y=、当所有数据隶属的簇不再发生变化的时候、当数据分布不平衡时，我们可采取的措施不包括（）、当簇内样本点数量大于某个阈值时，便将该簇进行拆分，这种聚类方式为（）、影响KNN算法效果的主要因素包括()、微信的朋友圈，我们可运用聚类方法自动地给朋友进行分组，做到让每组里的人们彼此都熟识、患者的年龄来判断良性或恶性、患者的年龄来判断良性或恶性，这是一个回归问题、慕课答案、慕课答案免费查询、慕课答案题库、慕课题库、我们想要在大数据集上训练决策树模型，为了使用较少的时间，可以：（）、所有x值小于指定值的节点会出现在右子树、投票四个部分、投票四个部分C随机森林算法容易陷入过拟合D随机森林构建决策树时，是无放回的选取训练数据、损失函数越小，模型训练得一定越好、掷二枚骰子，事件A为出现的点数之和等于的概率为（）A/B/C/D都不对、支持向量是最靠近决策表面的数据点、支持向量机、支持向量机CApriori算法、支持向量机有哪些常用的核函数()、支持向量机模型定义在特征空间上的间隔最大的线性分类器;支持向量机可以通过核技巧，这使之成为实质上的非线性分类器;支持向量机的学习策略就是间隔最大化、支持向量机理论上不能处理太多的特征、支持度、效率很高、散点图、数据之间的相关关系可以通过以下哪个算法直接挖掘()、数据压缩、数据清洗、无数、无监督学习、既能用于处理离散分布的特征，也能用于连续分布的特征处理、早期的神经网络算法无法处理非线性学习问题、是一种监督学习的方法;可用于多分类的问题;支持非线性的核函数、是否确保间隔最大化、显著性检验C支持度、曼哈顿距离、最近重构性;最大可分性、朴素贝叶斯不需要使用联合概率、朴素贝叶斯对缺失数据较敏感、朴素贝叶斯属于概率模型、朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性相关性较小时，朴素贝叶斯性能良好、朴素贝叶斯模型对输入数据的表达形式很敏感、朴素贝叶斯模型无需假设特征条件独立、朴素贝叶斯法的基本假设是条件独立性、朴素贝叶斯的优点不包括（）A算法逻辑简单，易于实现B分类过程中时空开销小C对缺失数据不太敏感，算法也比较简单，常用于文本分类D朴素贝叶斯模型对输入数据的表达形式很敏感、朴素贝叶斯适用于小规模数据集，逻辑回归适用于大规模数据集、机器学习(温州大学) 中国大学MOOC慕课答案、机器学习(温州大学) 中国大学mooc慕课答案2023版 m106651、机器学习(温州大学) 中国大学MOOC答案、机器学习(温州大学) 中国大学慕课答案、机器学习方法传统上可以分为()类、机器学习的方法由()等几个要素构成、机器学习能使计算机能够在没有明确编程的情况下学习、机器学习这个术语是由()定义的、构建一个最简单的线性回归模型需要几个系数（只有一个特征）、构建决策树、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的（）问题、某超市研究销售记录发现买啤酒的人很大概率也会买尿布，这属于数据挖掘的哪类问题?A关联规则发现B聚类C分类D自然语言处理、标准化在任何场景下受异常值的影响都很小、样本较少但典型性好、根据以往经验和分析得到的概率、根据肿瘤的体积、梯度提升算法通过迭代地选择一个梯度方向上的基函数来逐渐逼近局部极小值、模型;损失函数;优化算法;模型评估指标、模型正确率并不能反映模型的真实效果、欠拟合的处理主要有哪些方式：()A增加模型复杂度B减小正则化系数C增大正则化系数D添加新特征、正三角形的边长与周长、正交矩阵投影变换之后的矩阵不同坐标之间是不相关的、正则化、正确、正确KNN算法KNN算法课后测验、正确下方是付费阅读内容：本平台商品均为虚拟商品，不支持退换货，请在购买前确认您需要购买的资料准确无误后再购买，望知悉！[rihide]post_id=”″show_buy_btn=”true”]下方为已购买的内容：金玉姻缘判断题《红楼梦》中“金玉姻缘”贯穿整部小说，因此完整清晰地出现过十多次、正确关联规则关联规则课后测验、正确回归回归课后测试、正确逻辑回归逻辑回归课后测验、正确降维降维课后测验、正确预测未来日期天气的概率、残差均值总是为零、每棵树是通过数据集的子集和特征的子集构建的、测试集，数据可以这样划分：%，%，%、深度学习、特征之间存在线性关系的数据、特征工程这三个步骤绝大部分时间，而数据建模，占总时间比较少、特征空间越大，过拟合的可能性越大、相同偏差、相对误差、短频繁模式的挖掘具有高效性和可扩展性、硬间隔有利于消除模型的过拟合、确定性、神经网络算法有时会出现过拟合的情况，那么采取以下哪些方法解决过拟合更为可行（）、简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（）A层次聚类B划分聚类C非互斥聚类D模糊聚类、算法考虑了数据属性之间的相关性、类别不平衡问题中，ROC曲线比PR曲线估计效果要差、线性SVM和一般线性分类器的区别主要是（）、线性回归、线性回归中，我们可以使用最小二乘法来求解系数，下列关于最小二乘法说法正确的是?()A只适用于线性模型，不适合逻辑回归模型等其他模型B不需要选择学习率C当特征数量很多的时候，运算速度会很慢D不需要迭代训练、给定关联规则AB，意味着：若A发生，B也会发生、置信度、置信度(confidence);支持度(support);提升度(lift)、置信度(confidence)是衡量兴趣度度量()的指标、置信度D平均绝对误差、而在属性个数比较多或者属性之间相关性较大时，分类效果不好、职业、联合概率、聚类、聚类;关联规则、聚类;降维、聚类属于哪种学习方式()、聚类的代表算法有()、聚类的算法训练样本往往都不含有标签、若在某大学研究生占学生比例是%，则会开车的学生是研究生的概率是多少、若数据小于对应节点中k维度的值，则访问左节点、获取更多的训练数据可解决高方差的问题、计算之前不需要对训练数据进行归一化、计算复杂度低;对数据没有假设;对异常值不敏感、计算成本高、训练集是用来训练以及评估模型性能、设置一个正则项减小模型的复杂度、评价指标中，召回率(Recall)的计算需要哪些数值()、评价指标中，精确率(Precision)的计算需要哪些数值()、评估完模型之后，发现模型存在高偏差(highbias)，应该如何解决、识别结果：TP=，FN=，FP=，TN=，则可以得到：()、谷歌新闻每天收集非常多的新闻，并运用()方法再将这些新闻分组，组成若干类有关联的新闻、购物篮分析、距离度量的方式通常用曼哈顿距离、身高.m，体重kg的男人穿什么尺码的T恤、输入层、输入层;输出层;隐藏层、输入层D各个神经元根据预测误差对权值进行调整、输出层依次传播C预测误差需逆向传播，顺序是输出层、输出层阈值梯度和隐层与输出层的连接权值、边界点和噪音点三类;DBSCAN算法是一种基于密度的聚类算法、边界点和噪音点三类CDBSCAN算法是一种基于密度的聚类算法DDBSCAN算法需要在指定簇的个数、过拟合的处理可以通过减小正则化系数、这两种方法都可以用来做分类;两种方法都可以用来做回归、选出所有正确项（）A在构建学习算法的第一个版本之前，花大量时间收集大量数据是一个好主意、选出所有正确项A将正则化引入到模型中，总是能在训练集上获得相同或更好的性能B在模型中添加许多新特性有助于防止训练集过度拟合C将正则化引入到模型中，对于训练集中没有的样本，总是可以获得相同或更好的性能D向模型中添加新特征总是会在训练集上获得相同或更好的性能、选择特征、选择的特征需尽可能反映不同事物之间的差异、逻辑回归;KNN;线性回归、逻辑回归BK均值法、逻辑回归一般要求变量服从正态分布，线性回归一般不要求、逻辑回归使用了Sigmoid激活函数;使用一个非常大的训练集使得模型不太可能过拟合训练数据、逻辑回归分类的精度不够高，因此在业界很少用到这个算法A正确B错误、逻辑回归和朴素贝叶斯都有对属性特征独立的要求A正确B错误、逻辑回归是生成模型，朴素贝叶斯是判别模型A正确B错误、逻辑回归的损失函数是交叉熵损失A正确B错误、逻辑回归的损失函数是哪个、逻辑回归的激活函数是Sigmoid、逻辑回归的特征一定是离散的、逻辑回归算法资源占用小，尤其是内存、逻辑回归通常采用哪种正则化方式、避免了出现概率为的情况、都利用了矩阵分解的思想、采用二阶泰勒展开加快收敛、错误、错误[/]完整、错误人工神经网络人工神经网络课后测验、错误支持向量机支持向量机课后测验、错误朴素贝叶斯朴素贝叶斯课后测验小提示本节包含奇怪的同名章节内容、错误聚类聚类课后测验、错误集成学习集成学习课后测验、间隔、闵可夫斯基距离中的p取或时的闵氏距离是最为常用的，以下哪项是正确的()、降维不会对数据产生损伤、降维属于哪种类型的学习问题()、降维涉及的投影矩阵一般要求正交，正交矩阵用于投影的优缺点说法正确的是（）、降维的优点有哪些（）、随机梯度下降，每次迭代时候，使用一个样本、随机森林;AdaBoost、随机森林和GBDT的描述不正确的是()A两者都是由多棵树组成，最终的结果都是由多棵树一起决定B两者都是使用了Boosting思想C随机森林最终是多棵树进行多数表决(回归问题是取平均)，而GBDT是加权融合D随机森林每次迭代的样本是从全部训练集中有放回抽样形成的，而GBDT每次使用全部样本、随机森林和GBDT都是使用了Bagging思想、随机森林学习过程分为选择样本、随着训练样本的数量越来越大，则该数据训练的模型将具有：()、隐层、隐层的阈值梯度只跟本层的神经元输出值有关、隐藏层中常用的激活函数有(多选)()、隐藏层和输出层三层、集成多个线性分类器也无法解决非线性分类问题、集成学习有以下哪几种代表算法(多选)()、集成学习的数据不需要归一化或者标准化、需点击上方按钮支付元购买，所有、马氏距离、验证集、验证集和测试集说法不正确的是（）、高斯核;线性核;多项式核、高斯核计算简单，不容易过拟合、高维度数据可使得算法泛化能力变得越来越强
文章导航
上一篇：传感器原理及应用(电子科技大学)1451297476 中国大学mooc答案满分完整版章节测试
下一篇：卫生法学(重庆医科大学) 中国大学mooc答案满分完整版章节测试

引言 引言课后测试

逻辑回归 逻辑回归课后测验

回归 回归课后测试

朴素贝叶斯 朴素贝叶斯课后测验

机器学习实践 机器学习实践课后测验

KNN算法 KNN算法课后测验

引言引言课后测试

逻辑回归逻辑回归课后测验

回归回归课后测试

朴素贝叶斯朴素贝叶斯课后测验

机器学习实践机器学习实践课后测验