数据赋人工系统以智能。《R语言数据分析》从问道、执具、博术三个方面,阐述机器学习/数据挖掘的方法论(道)、编程工具R语言(具)以及经典算法模型(术)。通过课程的学习,可一起领悟数据分析之哲理、掌握模型算法之要义、提升工程实践之素养,推开人工智能的大门,为同学们在机器学习/数据挖掘领域登堂入室奠定基础
学堂在线北京邮电大学R语言数据分析(2022春)作业题答案
第1章 气象万千、数以等观
- 等号可以表示那些含义? A等同于 B定义为 C映射 D联系
- 对于照片中人的年龄识别,可以认为是将特征取值与人类可能的年龄划上了等号…
- 在玻意耳定律中,体积与压强(经过变换)之后划上了等号,表明二者质非相同,量却相等…
- 机器学习中的有监督学习,主要体现为在自变量与因变量之间划上等号…
- 若要将邮件文本特征与是否是垃圾邮件划上等号,必须完成以下哪项工作? A过滤垃圾邮件 B建立模型 C绘…
第13章 方以类聚、物以群分
- 聚类分析将对象分成不同的簇,使得簇内对象彼此相似,簇间对象彼此相异…
- 聚类属于无监督学习,和分类不同,需要在预先不知道分类的情况下,将数据划分成有意义或有用的簇,捕获数…
- 以下属于数据标准化方法的有 Amin-max标准化 Bz-score标准化 C正项序列归一化 D连续数据离散化…
- R语言中可直接用于数据标准化的函数有: Abase::mean() Bbase::scale() Cstats::sd() De1071::kurt…
- 欲判断数据是否适合聚类,可计算相应的Hopkins统计量。一般而言,Hopkins统计量接近于0.5,更适合开展…
- 综合考虑凝聚性和分离性,可采用轮廓系数silhouette coefficient评估聚类结果…
- 计算轮廓系数时,至少需要给定的两个参数是: A对象之前的距离 B聚类所采用的方法 C对象所属的类 D类…
- 在R语言开源生态中,与kMeans算法相关的函数有 Astats::kmeans() Bfpc::kmeansruns() Cfpc::kmeans…
- 在k-Means建模过程中,若通过轮廓系数来优选k的取值,则轮廓系数最小的k值,为最优k值…
- 层次聚类hierarchical clustering在不同层次上对数据集进行划分,通过树状图dendrogram来表征对象…
- 自下而上的层次聚类方法,其基本过程是每一次合并最接近的两个簇,直至仅剩下一个簇…
- 簇之前的距离基于点之间的距离进行计算,具体可以包括: A最小距离 B最大距离 C平均距离 D均值距离…
- DMwR::outliers.ranking()算法基于层次聚类进行异常检测,其核心原理是离群值不易于合并,被合并时其…
第12章 既是世间法、自当有分别
- 分类与回归的核心任务是建立函数关系y=f(X),若y为数值变量,称之为回归;若y为类别变量,称之为分类…
- 以下关于近邻法的描述,正确的是 A近邻法是惰性学习方法 B测试记录的标签,取决于训练集中离得最近的…
- 决策树建模过程中,常用的不纯度指标有 A分类错误率 BGini指数 C信息增益 D增益率…
- 分类回归树CART可通过 以下哪个函数实现 Ae1071::naiveBayes() Bstats::hclust() Crpart::rpart(…
- 以下用于rpart树模型可视化的函数有 Arpart::predict.rpart() Brpart.plot::rpart.plot() Crpart…
- 随机森林建模过程中,通过有放回的抽样方法得到自助样本,样本大小一般是原数据集的36%左右…
- 在朴素贝叶斯分类器中,假定特征之间相互独立
- 贝叶斯公式p(y|X) = p(y) * (p(X|y) / p(X))用以分类,可将p(X|y) / p(X)视为X出现时对于y的提升程…
- 逻辑斯蒂回归可以视为广义线性模型,其连接函数为logit函数
- 在神经网络训练过程中,为了实现节点间权值的迭代优化,需要利用本节点的输出与实际值的偏差信息…
- 对于线性可分但存在噪声点数据的情形,支持向量机通过引入松弛变量的方法进行处理…
- 在R语言中,可用以支持向量机建模的函数有: Akernlab::ksvm() Bstats::glm() Ce1071::svm() Dkknn::…
第11章 相随相伴、谓之关联
- 关联分析(Association Analysis)用于发现隐藏在大型数据集中有意义的联系,所发现的联系可以用频繁项…
- 项集出现的频度是包含该项集的事务数,简称为项集的支持度
- 如果项集的支持度满足预定义的最小支持度阈值,称之为频繁项集
- 规则X→Y的置信度定义为P(Y|X)
- Apriori算法所基于的先验性质是:非频繁项集的超集必定是非频繁的
- 在Apriori算法中,在得到频繁的k-1项集之后,通过以下哪种连接方法,生成k-项集候选 A所有的k-项集都看…
- 如果规则X→(Y-X)不满足置信度阈值,则规则X'→(Y-X')的规则也一定不满足置信度阈值,其中X为X'的真…
- 满足最小支持度和置信度要求的规则X→Y是强规则,意味着X的出现有助于促进Y的出现…
- 对于规则X→Y和规则Y→X,相同的度量指标是 A支持度 B置信度 C提升度 D因果置信度…
- 若要通过arules::apriori挖掘若干连续变量之间的关联关系,通常需要对这些变量进行离散化处理…
- apriori算法采用逐层递进的方法生成频繁项集。若事务记录中共有N个项,则首先查找频繁的N项集,在此…
- 在Apriori算法中,需要先生成关联规则,然后才可以生成频繁项集
- 支持度用以减少偶然性,置信度用以增加推断能力。因此,支持度设为0.8,置信度设为0.01是一个合理的参…
- 设I={I1, I2, I3, I4, I5},若频繁3-项集为{I1, I2, I3}, {I1, I2, I4},则可以将{I1, I2, I3, I4}作…
- 由于Apriori在挖掘规则的过程中,已经设置了支持度和置信度,因此对于挖出的规则无需进行评估…
- 若规则X→Y大于预先定义的最小支持度阈值和最小置信度阈值要求,则表明Y伴随X出现,X与Y是正相关关系…
- 规则X→Y所表示的只是伴随关系,而非因果关系,即:X伴随着Y的出现而出现…
- 在支持度、置信度框架之下,FP-Growth等算法,可以挖出比Apriori算法更多更好的规则…
第10章 观数以形
- 在R语言中,茎叶图可通过以下哪个函数实现 Agraphics::stem() Bgraphics::barplot() Cgraphics::bo…
- 在ggplot绘图系统中,几何映射geom与统计变换stat是成对出现
- 在ggplot2绘图系统中,通过以下哪个函数绘制概率密度图 Ageom_density Bgeom_point Cgeom_step Dge…
- 箱线图通过分位数来刻画数据的分布
- 在箱线图中,符合以下哪些条件的数据被视为异常数据 A大于Q3+1.5*IQR B小于Q1-1.5*IQR C处于上边界…
- 哪些统计量可用来刻画数据的分散程度 A极差 B四分位距 C标准差 D中位数…
- 可直接用来计算相关系数的函数是 Astats::cor() Bstats::cov() Cstats::dist() Dstats::density(…
- 层峦叠嶂图属于何种分组图形 A分组箱线图 B分组概率密度图 C分组直方图 D分组茎叶图…
- 数据空间的密度,可定义为单位体积内数据的质量
- 在计算Hopkins统计量时,随机抽取的点的个数,一般接近于记录数
第9章 最美不过数据框
- 数据框中的列,可表达的含义有 A属性 B特征 C数据空间的维度 D变量
- 数据框中的行,可表达的含义有 A样本 B观测记录 C特征向量 D数据空间中的数据点…
- 数据框可视为函数的三种表达方式之一——列表法
- 数据框的每一行,表现为数据空间中的一个点
- 数据空间中的列,可以作为数据空间的维度
- 数据框中的自变量,一般都表现为数据空间的维度,而因变量的取值(如类别),一般表现为数据点的标签…
- 数据框中蕴含的关系结构包括 A映射关系 B距离关系 C伴随关系 D相关关系…
第8章 人人都爱tidyverse
- magrittr扩展包中的管道操作符,x %>% f %>% g表示f(g(x))
- x %>% f(y, z, .)等价于f(x, y, z)
- x %>% tail(n=3)等价于tail(x, n = 3)
- df %>% select(1:3) %>% tail(n = 3) 表示选取数据框df的前三列后三行
- df %>% mutate(sum3 = rowSums(.[1:3]))表示基于df产生一个临时对象,该对象比数据框df多一列sum3,…
- 以下代码中,表示将数据框df按照其中的col1列从高到低进行排序的是 Adf %<>% arange(desc(col1)) B…
- tidyr::spread()的功能是将长的数据变为宽的数据
- tidyr::gather()的功能是将宽的数据变为长的数据
- 分组之后进行summarise(freq = n()),此处的freq表示 A每组的记录数 B总的记录数 C每组的列数 D总…
- 在dplyr扩展包中,列操作的函数有 Aselect() Bmutate() Cfilter() Darrange()
- 在dplyr扩展包中,行操作的函数有 Aselect() Bmutate() Cfilter() Darrange()
- 宽数据变为长数据,将由之前的若干列变为两列
- 对于一个100×8的数据框,若将其中的5列数据由宽变长,变换之后的数据框的行列数分别为 A100行8列 B5…
第7章 数据对象——面向数据对象学习R语言
- 对于向量x <- c(first = 1, second = 2, third = 3), 合法的访问方式有: Ax[c(1, 2, 1, 3)] Bx[c(…
- 语句1:10 - 1:3的结果是 A0 0 0 3 3 3 6 6 6 9 B0 0 0 4 5 6 7 8 9 10 C0 1 2 2 3 4 4 5 6 9 D语…
- 语句sort(c(3, 1, 4, 1, 5, 9, 2, 6))的结果是: A1 1 2 3 4 5 6 9 B9 6 5 4 3 2 1 1 C6 8 5 3 1 7…
- 语句order(c(3, '.', 1, 4, 1, 5))的结果是 A"." "1" "1" "3"…
- 用以表征等级、规模的变量,属于以下哪种变量 A定类变量 B定序变量 C定距变量 D定比变量…
- 利用R语言进行有监督学习,若将其视为分类问题对待,则因变量一般要转换为因子…
- 可以作为矩阵M的列下标的是 A落入区间[1, ncol(M)]的正整数 B落入区间[-ncol(M), -1]的负整数 C…
- 无论外部数据是图片、音频还是文本,均可转换为向量/因子/矩阵/数组/列表/数据框中的某种类型之一…
- 数组对象可通过array()函数创建
- 若字符向量partA是列表my_list的第1个组成部分,那么my_list[1]的结果是 A列表对象 B字符对象 C序…
- 对于列表my_list的第一个组成部分partA,以下描述正确的是: A语句my_list['partA']与my_list[['part…
- 在R语言数据建模中,用得最多的数据对象是 A向量 B列表 C因子 D数据框…
- 要将数据框df(包含3列)的第2列和第3列调换位置,正确的代码是 Adf <- df[, c(1, 3, 2)] Bdf[, c(1,…
第6章 基础编程——用别人的包和函数讲述自己的故事
- 以下选项中,不包含在CRISP-DM数据处理流程中的是: A数据理解 B建模 C推理 D评估…
- R代码的组成部分有 A数据对象 B函数调用 C注释 D变量定义
- R编码的基本过程可以概括为“利用别人的包和函数,讲述自己的故事”…
- R里边的循环结构有哪些实现方式 Afor Bwhile Cuntil Drepeat
- repeat循环体中必然有一条next语句,否则会形成死循环
- 欲查询if的帮助文档,正确的语句是 Ahelp('if') B?if C?'if' D?"if"…
- 与1+1等价的语句有 A'+'(1, 1) B"+"(1, 1) C%+%(1, 1) D
- magrittr扩展包中的管道操作符lhs%>%rhs是一个函数,lhs和rhs分别为一个数据对象及函数对象…
- 泛型函数可以根据对象所属类型的不同,执行不同的操作
- 常见的+属于泛型函数,ggplot2扩展包对其进行了扩展
第5章 工欲善其事、必先利其器
- R是一个数据分析和绘图的环境
- R只适合传统统计,不适合机器学习和数据挖掘等任务
- 大部分数据科学团队,都同时使用两种以上的工具,如R和Python
- 本课程代码及数据托管于https://github.com/byaxb/RDataAnalytics
第4章 源于数学、归于工程
- 数学是研究模式的科学
- 以下属于有监督学习算法的有 A近邻法 Bk-均值 C随机森林 D孤立森林
- 在最近邻法中,每个训练样本的势力范围是半径为r的球体
- 近邻法分类的基本原理是根据数据空间中距离的远近,将测试点分配至不同的类中心…
- 决策树的构建过程,主要是通过属性取值不同,对空间进行细分,在细分空间中标签足够纯,从而实现分类…
- 随机森林的总体结构依然是一棵决策树,树的分枝又由若干棵决策树构成…
- 朴素贝叶斯分类器是将特征属性的取值作为新的证据,对对象所属类别的先验概率进行调整,从而实现分类…
- 逻辑斯蒂回归模型可以作为神经网络的计算节点
- 支持向量机是在特征张成的数据空间中,通过分类超平面实现类别的划分…
- 对于特定情境的建模问题,正确的答案、正确的模型应该是唯一的
第3章 格言联璧话学习
- 所有的模型都是错的,但有些是有用的
- 无监督学习本身没有类标签,因此无法判断模型是否正确,也无需开展模型评估…
- 相关关系不能等同于因果关系
- 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已…
- 在集成学习中,单个分类器一般称之为弱分类器,组合分类器称之为强分类器…
- 数据密集型科学发现是一种新的范式,无需掌握机理模型,也无需了解业务背景…
第2章 所谓学习、归类而已
- 分类是无监督学习的代表,聚类是有监督学习的代表
- 以下哪些行为可以视为归类行为 A识别火源 B打开灭火器 C喷射泡沫 D确认火已扑灭…
- 从认知的角度看,以下说法正确的是 A概念化是归类 B学习是归类 C感知是归类 D决策是归类…
- 一般认为,数据挖掘可以包含数据分析技术和数据管理技术
- 机器所能学到的知识包括 A模式 B模型 C算法 D函数
- 关联规则主要表现为项集之间的因果关系
- 聚类分析的结果主要表现为数据空间的距离结构
- 模型不在于构建,而在于选择
- 就逻辑推理方式而言,训练模型的过程属于 A归纳 B演绎 C都是 D都不是…
- 就逻辑推理方式而言,将模型应用于预测的过程属于 A归纳 B演绎 C都是 D都不是…
- 为确保模型的有效性,需要采用数学的方法对算法习得的模型进行证明…
- 结构风险最小化策略,主要是为了提升模型在训练集上的性能指标
第14章 庐山烟雨浙江潮
- 适合于形容"发现历史数据背后的规律"的特点的成语是 A往者不可谏、来者犹可追 B万物并作、吾以观…
- 属于明显的"特征提取与分类"行为的是 A见貌辨色、揣骨听声 B看云识天气 C确认过眼神、遇上对的人…
- 适合于形容"梯度下降"的特点的成语是 A鱼目混珠、混淆视听 B数同类者无远、数异类者无近 C因势利…
- 适合于形容"聚类分析"的特点的成语是 A物以类聚、人以群分 B取长补短 C绳锯木断、水滴石穿 D泰山…
- 适合于形容"经验风险最小化"的特点的成语是 A众擎易举 B集腋成裘 C知错能改、善莫大焉 D福兮祸所…
- 适合于形容"模型泛化与迁移"的特点的成语是 A橘生淮南则为橘、生于淮北则为枳 B千羊之皮、不如一…
- 适合于形容"模型参数设置"的特点的成语是 A狮象搏兔、皆用全力 B磨而不磷、涅而不缁 C量体裁衣 D…
- 适合于形容"特征选择不当"的特点的成语是 A缘木求鱼、问道于盲 B千锤打锣、一锤定音 C豪末不掇、…
- 适合于形容"垃圾数据未清理"的特点的成语是 A一手独拍、虽疾无声 B鱼目混珠、混淆视听 C差之毫厘…
- 适合于形容"异常检测"的特点的成语是 A日中则昃、月满则亏 B无根之木、无源之水 C卓尔不群、鹤立…