1[.单选题]从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程是()。
A.数据分析
B.数据挖掘
C.数据可视化
D.数据研究
[答案]B
[解析]数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。
2[.单选题]下列选项中不属于大数据“4V”特性的是()。
A.数据量大
B.数据多样性
C.价值密度高
D.数据的产生和处理速度快
[答案]C
[解析]大数据具有数据量大、数据多样性、价值密度低、数据的产生和处理速度快等“4V”特性。
3[.单选题]对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现预测其他数据项的出现的方法称为()。
A.聚类分析
B.趋势与演化分析
C.关联分析
D.分类
[答案]C
[解析]关联分析就是对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现预测其他数据项的出现。一个典型的例子就是购物篮分析,其目的是发现交易数据中不同商品之间的联系规则,让营销商制定更好的营销策略。例如,经典的啤酒和尿布案例,数据挖掘发现在大型超市中购买啤酒的男士经常同时购买小孩的纸尿裤,基于这一发现,超市把啤酒和纸尿裤摆放在一起,结果两种商品的销售量都有明显提升。消费者行为海量数据的关联分析在电商精准销售中得到广泛应用,对其货品种类库存、仓储物流和广告业务都有极大的效益回馈。
4[.单选题]()数据是指存储在数据库里,可以用二维表结构实现表达的数据。
A.结构化
B.半结构化
C.非结构化
D.以上全是
[答案]A
[解析]结构化数据是指存储在数据库里,可以用二维表结构实现表达的数据;非结构化数据是指数据结构不规则或不完整,没有预定义的数据,包括所有格式的办公文档、文本、图片、报表、图像、音频信息、视频信息等;半结构化数据是介于完全结构化数据和完全非结构化数据之间的数据,具有一定的结构性,例如员工简历,有的简历只有教育情况,有的简历包括教育、婚姻、户籍、出入境等很多信息。
5[.多选题]大数据的“4V”特性有()。
A.数据量大
B.数据多样性
C.价值密度低
D.数据的产生和处理速度快
E.数据易被取得
[答案]A,B,C,D
[解析]大数据的“4V”特性有数据量大、数据多样性、价值密度低、数据的产生和处理速度快。
6[.多选题]数据挖掘的定义包含以下几层含义()。
A.数据源必须是真实的、大量的、有噪声的
B.发现的是用户感兴趣的知识
C.所有发现的知识都是绝 对的
D.发现的知识是可接受、可理解、可运用的
E.并不要求发现放之四海而皆准的知识,仅支持特定的发现问题
[答案]A,B,D,E
[解析]数据挖掘(datamining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值的信息和知识的过程。该定义包含以下几层含义:(1)数据源必须是真实的、大量的、有噪声的;(2)发现的是用户感兴趣的知识;(3)发现的知识是可接受、可理解、可运用的;(4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。
7[.多选题]分类技术是一种监督学习,即使用已知类别的训练数据建立分类模型的方法,常用的分类技术包括()。
A.基于分层的方法
B.决策树分类法
C.基于网格的方法
D.贝叶斯分类法
E.神经网络
[答案]B,D,E
[解析]1、分类就是确定目标对象属于哪个预定的类别,以实现对未来潜在的预测需求。例如,在邮件系统中区分出垃圾邮件,在贷款客户中判断出有风险客户等。分类技术是一种监督学习,即使用已知类别的训练数据建立分类模型的方法,常用的分类技术包括决策树分类法、贝叶斯分类法、关联分类法、支持向量机、神经网络等。2、聚类要划分的类是未知的,聚类分析是根据观察学习来确定数据之间的关系,因此是一种无监督学习。常用的聚类方法包括基于划分的方法(例如k-均值算法)、基于分层的方法、基于密度的方法、基于网格的方法和基于模型的方法。
8[.多选题]大数据的特性包括()。
A.数据量大
B.数据多样性
C.价值密度低
D.数据的产生和处理速度快
E.数据挖掘
[答案]A,B,C,D
[解析]此题考查大数据的特性。大数据具有“4V”特性:数据量大、数据多样性、价值密度低、数据的产生和处理速度快。
9[.多选题]在数据挖掘中,下列对于分类概念描述不正确的是()。
A.分类就是确定目标对象属于哪个预定的类别,以实现对未来潜在的预测需求。
B.分类是根据观察学习来确定数据之间的关系,是一种无监督学习。
C.分类是对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现预测其他数据项的出现。
D.分类技术是一种监督学习,即使用已知类别的训练数据建立分类模型的方法。
E.常用的分类技术包括决策树分类法、贝叶斯分类法、关联分类法、支持向量机、神经网络等。
[答案]B,C
[解析]本题考查分类的概念及特征。1、分类就是确定目标对象属于哪个预定的类别,以实现对未来潜在的预测需求。例如,在邮件系统中区分出垃圾邮件,在贷款客户中判断出有风险客户等。分类技术是一种监督学习,即使用已知类别的训练数据建立分类模型的方法,常用的分类技术包括决策树分类法、贝叶斯分类法、关联分类法、支持向量机、神经网络等。2、聚类分析是根据观察学习来确定数据之间的关系,因此是一种无监督学习,B选项不属于。3、关联分析就是对数据集中反复出现的相关关系和关联性进行挖掘提取,从而可以根据一个数据项的出现预测其他数据项的出现,C选项不属于。