商务智能是用现代计算机技术辅助商业决策并实现商业价值的一门学科。在信息技术高速发展的今天,社会各领域的管理人员可利用该技术对拥有的数据资源进行全方位的深入分析。本课程讲授商务智能的发展历史与现状、关键技术和典型应用并组织项目开发实践,培养具有良好商务智能意识、掌握丰富商务智能知识、能熟练使用计算机软件进行商务智能分析、能使用当前主流技术包括数据挖掘和深度学习开发商务智能软件、具有创新创业意识的高素质学生。
武汉大学商务智能(2023春)章节作业题答案
商务智能概况
- 下列不属于数据挖掘功能的是____ A关联 B分类 C预测 D误差分析
- 商务分析简单分类中不包括____ A描述性分析 B实验性分析 C预测性分析 D规范性分析…
- 预测性分析中运用到的技术有____ A数据挖掘 B时间序列预测 C统计技术…
- 规范性分析中使用到的技术有____ A优化 B模拟 C决策建模 D专家系统…
- 商务智能系统通常包括____ A数据仓库及其数据源 B商务分析工具 C实验数据分析工具 D用户界面…
- 商务智能的价值体现在____ A制定合适的市场营销策略 B改善顾客管理 C经营成本与收入分析 D提…
- 下列哪一项不属于商务智能的目标____ A交互式访问数据 B操纵数据 C污染数据 D获得有价值的洞…
- 特征是数据汇总的形式。( )
- 知识发现过程包括数据清理、数据集成、数据变换、数据挖掘、模式评估和知识表示。( )…
- 数据模式只能从同一类型的数据库挖掘。( )
- 模式兴趣度度量客观的才可以用来指导发现过程。( )
- 数据是描述事物的符号,通过有意义的组合来表达现实世界中某种实体的特征。( )…
- 知识是对信息内容进行的挖掘、分析、概括、断和推论。知 识作为一种资源,其重要性越来越受到重视…
- 知识分为事实性知识和逻辑性知识。( )
- 商务智能的目标是交互式访问数据,操纵数据、获得有价值的洞察、 做出更好的决策。( )…
数据采集与集成
- 当超过规定的存储期限,数据从仓库中删除,同时定期加载新的数据输入数据仓库。( )…
- 数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为上层应用提供统一用户接口,完成数据查…
- 数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。( )
- 数据仓库从数据源经过转换、集成后获得,同时提供给可视化用户接口用于下层分析。( )…
- 数据仓库是面向主题的,其数据包括元数据和经过ETL的业务数据。数据仓库是数据集市的一个子集。( )…
- 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区…
- Scrapy是一个开源的网络资源获取框架。其最初是为了页面抓取所设计的,使用它可以以快速、简单、可…
- 网络爬虫是一种按照一定的规则,自动地抓取因特网信息的程序。( )
- 传统爬虫从一个或若干初始网页的URL开始信息抓取 ,在抓取网页的过程中,不断从当前页面上抽取新的UR…
- 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是____ A有放回的简单随机抽样 B无放…
- 数据仓库是随着时间变化的,下面的描述不正确的是____ A数据仓库随时间的变化不断增加新的数据…
- 在有关数据仓库测试,下列说法不正确的是____ A在完成数据仓库的实施过程中,需要对数据仓库进行…
- 关于基本数据的元数据是指____ A基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的…
- 数据采集得到的数据源可以来源于____ A企业各种应用系统 B办公自动化系统等产生 的业务数据、…
- 数据仓库特性具有易失性。
数据挖掘
- 数据挖掘的主要挑战有____ A挖掘方法 B用户交互 C效率和可扩展性 D数据库类型的多样化…
- 下列几种数据挖掘功能中被广泛的用于购物篮分析的是____ A关联分析 B分类和预测 C聚类分析 D…
- 数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。( )…
- 数据挖掘需要掌握一定的机器学习模型例如贝叶斯方法、决策树、监督学习模型。( )…
- 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。( )…
- 数据仓库一般存储在线交易数据,数据库存储的一般是历史数据。( )
- 数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。( )…
- 商业智能是数据挖掘的核心,分类和预测技术是商业智能的预测分析的核心。( )…
- 超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?____ A…
- 数据挖掘算法的组件包括____ A模型或模型结构 B评分函数 C优化和搜索方法 D数据管理策略…
- 数据挖掘的预测建模任务主要包括哪几大类问题____ A分类 B回归 C模式发现 D模式匹配…
- 通过数据挖掘过程所推倒出的关系和摘要经常被称为____ A模型 B模式 C模范 D模具…
- 数据挖掘任务可以被归类为两种类别:描述性的和非描述性的。( )
- 数据挖掘过程应该是高度交互性的。需要建立灵活的用户界面和探索性的挖掘环境,以便于用户的交互。…
- 数据挖掘的步骤是数据清理、数据集成、数据选择、数据转换、数据挖掘、模式评估、知识表示。( )…
认识数据
- 结构化数据包括标称、序数、数值和文本。
- 下面哪个不属于数据的属性类型 A标称 B序数 C区间 D相异
- 属于定量的属性类型是____ A标称 B序数 C区间 D相异
- 光年所属的属性类型为____ A标称属性 B序数属性 C区间标度属性 D比率标度属性…
- 曼哈顿距离可用于计算数值属性相异性的距离度量。( )
- 某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为y=8.25x+60.13,下列叙…
- 衡量中心性的测量有均值、中值、众数和中列数。( )
- 某班数学期末考成绩分组数据如下,则数据的中位数区间是____ A60至69分 B70至79…
- 只有非零值才重要的二元属性被称作____ A计数属性 B离散属性 C非对称的二元属性 D对称属性…
- 下面哪个不属于数据的属性类型____ A标称 B序数 C区间 D相异
- 下列属于定量的属性类型是____ A标称 B序数 C区间 D相异
- 离群点是指数据集中不遵守一般行为和模型的数据。( )
- 频繁模式,含义是数据中经常发生的模式。包括频繁项集,频繁序列,频繁子结构。( )…
- 聚类分析针对有标签的数据进行。基于最大化类别内部的相似度,最小化类别之间的相似度的原则来分组…
- 回归是建立离散值函数模型,预测缺失或难以获得的数值型数据。( )…
数据统计描述
- 最常用的中心性度量之一是数据的均值。( )
- 中列数是数据集中最大值和最小值的平均值。可以用来评估数值型数据的中心性趋势。( )…
- 在对称的单峰频率曲线数据分布中,平均数,中值和众数 都在同样的中点值上。( )…
- 众数可以是定性但不能定量的属性。( )
- 为了处理由少数极端值带来的效果,可以使用削减均值,即去掉极端大和极端小的值之后的平均值。( )…
- 当数据集很大时,计算中值代价很高。对于数值型属性,比较容易计算其近似值。( )…
- 对于偏斜的数据,使用众数是更好的中心性测量。( )
- 相对均值而言,中位数对极端值比较敏感。( )
- 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到…
- 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是____ A2 B3 C3.5 D5
- 考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是____ A31 B24 C55 D3
- 假设我们有salary的如下值(以千美元为单位),按递增次序显示:30,31,47,50,52,52,56,60,63,70,70,110 …
- 下列数据中的中列数是____ 30,31,47,50,52,52,56,60,63,70,70,110 A70 B52 C56 D60…
- 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33…
挖掘关联规则
- 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。 ( )…
- 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。 ( )…
- 具有较高的支持度的项集具有较高的置信度。 ( )
- 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。( )…
- 下表是一个购物篮,假定支持度阈值为40%,其中____是频繁闭项集。
- 一个数据库有5 个事务,如下表所示。设min_sup=60%,min_conf = 80%。从下列选项中不是频繁2-项集…
- 关联规则的经典算法包括Apriori和FP-growth,其中Apriori的效率更高。( )
- Aprior算法包括连接和剪枝两个基本步骤。( )
- 考虑下面的频繁3-项集的集合: {1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,…
- 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。( )…
- Apriori算法的计算复杂度不受____影响。 A支持度 B项数(维度) C事务数 D事务平均宽度…
- 下面购物篮能够提取的3-项集的最大数量是多少()
- 下列算法属于频繁项集挖掘方法的是() AAGNES BCart CDIANA DApriori
- 下面选项中t不是s的子序列的是____ As=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}> Bs=<{2,4},{3,5,…
- 频繁项集、频繁闭项集、最大频繁项集之间的关系是:____ A频繁项集 频繁闭项集 =最大频繁项集 B…
分类技术
- 剪枝是决策树学习算法对付____现象的主要手段? A标记噪声 B数据少 C过拟合 D欠拟合…
- 利用分类函数将数据映射到给定类别的过程叫做分类。 ( )
- 分类中测试集与训练集不独立也不会影响模型的性能。 ( )
- 无监督学习中的样本类编号是未知的。 ( )
- 决策树的生成由构建和剪枝两部分组成。 ( )
- 决策树可被用于对未知样本进行分类。 ( )
- C4.5用信息增益比来选择特征。 ( )
- 增益率的表达式是Gain_ratio(D,a)=___ AGain(D,a)+IV(a) BGain(D,a)-IV(a) CGain(D,a)*IV(a) …
- 下列说法错误的是 ___ A划分选择的各种准择对泛化性能的影响有限 B划分选择的各种准择对决策…
- 信息熵是度量样本集合___最常用的一种指标 A对称差 B纯度 C大小 D重要性…
- 以下哪个是信息增益的定义___ A划分前的信息熵-划分后的信息熵 B划分后的信息熵-划分前的信息…
- 以下哪个不是决策树算法___ ACart BId3 CC4.5 DBIRCH
- Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类…
- 无监督学习常被用于聚类分析。 ( )
- 以下哪项关于决策树的说法是错误的___ A冗余属性不会对决策树的准确率造成不利的影响 B子树可…
概率分类法
- 朴素贝叶斯分类法的性能可以媲美特定的神经网络。( )
- 贝叶斯分类是非增量式的。( )
- 朴素贝叶斯分类的优势在于易于实现且各属性间无依赖性。( )
- 朴素贝叶斯分类在大量的情况下都能得到较好的结果。( )
- ROC曲线能够显示分类器TPR和FPR之间的关系。( )
- AUC的值就是处于ROC曲线下方的那部分面积的大小。( )
- 当测试集中的正负样本的分布变化的时候,Precision-Recall曲线能够保持不变。( )…
- 两个模型AUC值相等则代表模型效果相同。( )
- 特效性计算公式为____ ATN/P BTP/P CTN/N DTP/N
- 以下哪个不能用于度量评估分类器的性能____ A可伸缩性 B可变通性 C可解释性 D鲁棒性…
- 如下表,精度为____ A0.91 B0.09 C0.95 D0.93
- 以下哪个是计算F_β度量的公式____ A((1+β^2 )×precision×recall)/(β^2×precision+recall)…
- 如1的表中,错误率为____ A0.91 B0.09 C0.95 D0.93
- 如1的表中,F值为_____ A0.91 B0.09 C0.95 D0.93
- 如1的表中,召回率为___ A0.91 B0.09 C0.95 D0.93
聚类分析
- 以下哪个是层次聚类的优点____ A可以聚类成其它形状 B计算复杂度低 C算法不会聚类成链状 D奇…
- 层次聚类算法不需要预先指定聚类数。 ( )
- K-means算法对离群点不敏感。 ( )
- 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。 ( )…
- 聚类分析可以看作是一种非监督的分类。 ( )
- 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。 ( )…
- K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。 ( )…
- 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。 ( )…
- 聚类是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知…
- K-means算法的缺点是____ A当数据簇近似于高斯分布时,效果不佳 B不适合太离散的分类、样本类别…
- 以下属于聚类算法的是____。 AK-Medoide BKDD CApriori DC4.5
- 以下聚类方法中,属于层次聚类的方法是____ AK-Medoids BK-Means CAGNES DEM…
- 通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树,这种聚类类型称作____ A层次聚…
- K-means算法的优点是____ A时间复杂度接近对数 B对大数据集有效 C对噪声不敏感 D可以发现非…
- 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?____ A…