大数据相关概念【彩民之家高手论坛】

2019-10-11 12:13 来源:未知

  ① 轮转法可有效应用于需要访问整个关系的查询处理,当需要访问部分记录时,散列法和范围法更优

  可靠性:能搞自身的维护数据的多个成本,并且在任务失败是自动的重新部署计算任务  

60. 考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为 (C)

二、数据仓库及数据挖掘

数据挖掘与数据分析两者紧密相连,具有循环递归的关系,数据分析结果需要进一步进行数据挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。
而两者的具体区别在于:
(其实数据分析的范围广,包含了数据挖掘,在这里区别主要是指统计分析)  

  1. OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是: (D)

  ③ 复杂性:分布式查询、事务管理

     数据仓库主要用来支持企业的分析决策,因此针对这些数据只要会进行查询操作,一般情况下并不会对数据进行修改和更新。和OLTP数据库主要存储当前数据不同,数据仓库中一般会保存长期的历史数据,数据的时间跨度可能是三年五年甚至更久,这样才能够分析出数据的长期变化趋势,比较不同时期企业的运营状况有何不同。

A 时序数据

  ④ 混合式:介于分割与全复制之间

  约束上:数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,而数据挖掘不需要假设,可以自动建立方程。  

A.数据仓库就是数据库

一、对象数据库

                       彩民之家高手论坛 1

二、 多选题

  ③ 范围划分法:首先对记录进行排序,然后按照排序码将其划分成n个区域,使每个区域中近似含有相同数目的记录,处于第i个区域的记录分布于处理机i

  数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 

D、聚类技术

  ② 分割式:所有全局数据有且只有一份,分割成若干被分配在特定场地上的片段

  • 数据仓库的组成:

A 有放回的简单随机抽样

    1) 分片透明性:用户无需考虑数据分片,最高层次的透明性

 4.hadoop是什么? 处理分布式数据的批处理模型平台的特点?

C、稀疏性

  ② 散列法:使用特定的哈希函数,作用于选定的属性,将记录划分到不同的处理机

  什么是大数据的特点?在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

B、OPOSSUM

注意:支持度没有先后顺序之分。{尿布,啤酒}的支持度等于{啤酒,尿布}的支持度

  1.  (1)Subject Oriented

C,0.4678

  ② 基于关系数据库的OLAP(ROLAP

  1. (4)Time Variant

B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>

五、空间数据库

  Value : 以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。

A、频繁子集挖掘

 

OLTP 系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作;
OLAP 系统则强调数据分析,强调SQL执行市场,强调磁盘I/O,强调分区等。 
OLTP与OLAP之间的比较:     OLTP,也叫联机事务处理(Online Transaction Processing),表示事务性非常高的系统,一般都是高可用的在线系统,以小的事务以及小的查询为主,评估其系统的时候,一般看其每秒执行的Transaction以及Execute SQL的数量。在这样的系统中,单个数据库每秒处理的Transaction往往超过几百个,或者是几千个,Select 语句的执行量每秒几千甚至几万个。典型的OLTP系统有电子商务系统、银行、证券等,如美国eBay的业务数据库,就是很典型的OLTP数据库。 OLTP系统最容易出现瓶颈的地方就是CPU与磁盘子系统:

B. 聚类

  ① 轮转法:如果系统有n个CPU,将第i条记录划分到第i mod n 处理器的方法称为轮转划分方法

   大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.

  优势:增强的可用性:当存储某个关系的产地系统崩溃时,可继续使用存储在别的场地的副本

  数据量上:数据分析的数据量可能并不大,而数据挖掘的数据量极大。  

D,EM

  数据分配(对分片结果操作),将分片产生的片段分配存储在各个场地上。解决数据分配的方法:

  可扩容性:能可靠的储存和处理PB级的数据

A. 探索性数据分析

 

1.什么是大数据?大数据的特点?

Q3位置:(7 1*0.75) = 6 对应数55

 

     传统的OLTP数据库是面向应用进行数据组织的,而数据仓库则侧重于数据分析工作,它的数据是面向主题进行组织的。主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。例如对于一个医药连锁零售企业,其OLTP数据库所面向的应用可能是采购,销售,而其数据仓库所面向的应用可能是供应商、客户、会员等。

D. 寻找模式和规则

 

下面我就从数据仓库的4个基本特性来说一下它与传统的OLTP(on-line transaction processing联机事务处理)数据库的区别:

C、Jaccard系数

  数据仓库是一个面向主题的集成的非易失的且随时间变化的集合

  对于OLAP系统,SQL 的优化非常重要,因为它的数据量很大,做全表扫描和索引对性能上来说差异是非常大的。

Q3的位置:(8 1)*0.75 = 6 3/4 Q3=33 (55-33)*(3/4)=49.5

  优缺点:

  高效率:通过分发数据,可以在数据所有的结点上进行并发的处理,这使得处理的速度非常快  

9 牛奶,尿布,面包,黄油

  ③ 散列法优点是:即使数据随时间增加或减少,也能保存均匀分布

(1)CPU出现瓶颈常表现在逻辑读总量与计算性函数或者是过程上,逻辑读总量等于单个语句的逻辑读乘以执行次数,如果单个语句执行速度虽然很快,但是执行次数非常多,那么,也可能会导致很大的逻辑读总量。设计的方法与优化的方法就是减少单个语句的逻辑读,或者是减少它们的执行次数。另外,一些计算型的函数,如自定义函数、decode等的频繁使用,也会消耗大量的CPU时间,造成系统的负载升高,正确的设计方法或者是优化方法,需要尽量避免计算过程,如保存计算结果到统计表就是一个好的方法。 (2)磁盘子系统在OLTP环境中,它的承载能力一般取决于它的IOPS处理能力. 因为在OLTP环境中,磁盘物理读一般都是db file sequential read,也就是单块读,但是这个读的次数非常频繁。如果频繁到磁盘子系统都不能承载其IOPS的时候,就会出现大的性能问题。   OLTP比较常用的设计与优化方式为Cache技术与B-tree索引技术,Cache决定了很多语句不需要从磁盘子系统获得数据,所以,Web cache与Oracle data buffer对OLTP系统是很重要的。另外,在索引使用方面,语句越简单越好,这样执行计划也稳定,而且一定要使用绑定变量,减少语句解析,尽量减少表关联,尽量减少分布式事务,基本不使用分区技术、MV技术、并行技术及位图索引。因为并发量很高,批量更新时要分批快速提交,以避免阻塞的发生。    OLTP 系统是一个数据块变化非常频繁,SQL 语句提交非常频繁的系统。 对于数据块来说,应尽可能让数据块保存在内存当中,对于SQL来说,尽可能使用变量绑定技术来达到SQL重用,减少物理I/O 和重复的SQL 解析,从而极大的改善数据库的性能。   这里影响性能除了绑定变量,还有可能是热快(hot block)。 当一个块被多个用户同时读取时,Oracle 为了维护数据的一致性,需要使用Latch来串行化用户的操作。当一个用户获得了latch后,其他用户就只能等待,获取这个数据块的用户越多,等待就越明显。这就是热快的问题。 这种热快可能是数据块,也可能是回滚端块。对于数据块来讲,通常是数据库的数据分布不均匀导致,如果是索引的数据块,可以考虑创建反向索引来达到重新分布数据的目的,对于回滚段数据块,可以适当多增加几个回滚段来避免这种争用。 
  OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策支持系统,就是我们说的数据仓库。在这样的系统中,语句的执行量不是考核标准,因为一条语句的执行时间可能会非常长,读取的数据也非常多。所以,在这样的系统中,考核的标准往往是磁盘子系统的吞吐量(带宽),如能达到多少MB/s的流量。
  磁盘子系统的吞吐量则往往取决于磁盘的个数,这个时候,Cache基本是没有效果的,数据库的读写类型基本上是db file scattered read与direct path read/write。应尽量采用个数比较多的磁盘以及比较大的带宽,如4Gb的光纤接口。
  在OLAP系统中,常使用分区技术、并行技术。
  分区技术在OLAP系统中的重要性主要体现在数据库管理上,比如数据库加载,可以通过分区交换的方式实现,备份可以通过备份分区表空间实现,删除数据可以通过分区进行删除,至于分区在性能上的影响,它可以使得一些大表的扫描变得很快(只扫描单个分区)。另外,如果分区结合并行的话,也可以使得整个表的扫描会变得很快。总之,分区主要的功能是管理上的方便性,它并不能绝对保证查询性能的提高,有时候分区会带来性能上的提高,有时候会降低。
  并行技术除了与分区技术结合外,在Oracle 10g中,与RAC结合实现多节点的同时扫描,效果也非常不错,可把一个任务,如select的全表扫描,平均地分派到多个RAC的节点上去。
  在OLAP系统中,不需要使用绑定(BIND)变量,因为整个系统的执行量很小,分析时间对于执行时间来说,可以忽略,而且可避免出现错误的执行计划。但是OLAP中可以大量使用位图索引,物化视图,对于大的事务,尽量寻求速度上的优化,没有必要像OLTP要求快速提交,甚至要刻意减慢执行的速度。   绑定变量真正的用途是在OLTP系统中,这个系统通常有这样的特点,用户并发数很大,用户的请求十分密集,并且这些请求的SQL 大多数是可以重复使用的。     对于OLAP系统来说,绝大多数时候数据库上运行着的是报表作业,执行基本上是聚合类的SQL 操作,比如group by,这时候,把优化器模式设置为all_rows是恰当的。 而对于一些分页操作比较多的网站类数据库,设置为first_rows会更好一些。 但有时候对于OLAP 系统,我们又有分页的情况下,我们可以考虑在每条SQL 中用hint。 如:       Select  a.* from table a;
分开设计与优化     在设计上要特别注意,如在高可用的OLTP环境中,不要盲目地把OLAP的技术拿过来用。   如分区技术,假设不是大范围地使用分区关键字,而采用其它的字段作为where条件,那么,如果是本地索引,将不得不扫描多个索引,而性能变得更为低下。如果是全局索引,又失去分区的意义。
  并行技术也是如此,一般在完成大型任务时才使用,如在实际生活中,翻译一本书,可以先安排多个人,每个人翻译不同的章节,这样可以提高翻译速度。如果只是翻译一页书,也去分配不同的人翻译不同的行,再组合起来,就没必要了,因为在分配工作的时间里,一个人或许早就翻译完了。
  位图索引也是一样,如果用在OLTP环境中,很容易造成阻塞与死锁。但是,在OLAP环境中,可能会因为其特有的特性,提高OLAP的查询速度。MV也是基本一样,包括触发器等,在DML频繁的OLTP系统上,很容易成为瓶颈,甚至是Library

没有这个答案,题目数据应该是{12, 24, 33, 24, 55, 68, 26}

  OLAP(Online Analytical Processing)联机分析处理,实现方法有三种:

OLTP与OLAP的介绍

27. 分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(对)

  支持度(pupport):{X, Y}同时出现的概率。例如{尿布,啤酒}同时出现的概率

什么是hadoop?

D、4

 

2.什么是数据仓库?

23.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子

  快照(Snapshot)是指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。快照可以是其所表示的数据的一个副本,也可以是数据的一个复制品,适合更新变化量小的数据

3.分析 ExtractTranformLoader 与 挖掘 DataMine 有何区别 ?

A、啤酒、尿布

  置信度(confidence):购买X的人,同时购买Y的概率。例如:购买尿布的人,同时购买啤酒的概率

  结果上:数据分析对结果进行解释,呈现出有效信息,数据挖掘的结果不容易解释,对信息进行价值评估,着眼于预测未来,并提出决策性建议。 数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。

69.( D )将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。

  ① 最基本特征本地自治非集中式管理高可用性

     数据仓库中数据的非易失性是针对应用来说的,但这并不表示从数据集成加载到数据仓库到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的,数据仓库会随时间变化不断增加新的数据内容,不断导出和删除过期的数据内容,经常按照时间段对数据进行重新综合。

A、统计方法

 

  在运行时不需要配置很高,是通过所有的机器来计算的  

5 面包、牛奶、尿布、可乐

  ② 共享磁盘系统(Shared Disk):每个CPU拥有自己的私有内存,并通过连接网络,直接访问所有磁盘,通过网络实现CPU之间的数据交换,增加了通信代价

  Cache等待,而在OLAP环境上,则可能会因为使用恰当而提高查询速度。     对于OLAP系统,在内存上可优化的余地很小,增加CPU 处理速度和磁盘I/O 速度是最直接的提高数据库性能的方法,当然这也意味着系统成本的增加。      
  比如我们要对几亿条或者几十亿条数据进行聚合处理,这种海量的数据,全部放在内存中操作是很难的,同时也没有必要,因为这些数据快很少重用,缓存起来也没有实际意义,而且还会造成物理I/O相当大。 所以这种系统的瓶颈往往是磁盘I/O上面的。

A、CURE

  ④ 其他:硬件独立性、操作系统独立性、网络独立性、数据库系统独立性

  Variety : 数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。

B、聚类算法

  ③ 全复制式:全局数据有多个副本,每个场地上有一个完整的数据副本

特点:  

B. 存储和管理

  关联规则:用于表示数据内隐含的关联性。例如:购买尿布的人往往会购买啤酒

  下面我们将对大数据这五种特点做简要的解释:
  Volume : 指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量。

A. 数据仓库随时间的变化不断增加新的数据内容;

  元数据描述了数据的结构、内容、链和索引等内容

(1)数据仓库数据库
  是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。
(2)数据抽取工具
  把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本、和SQL语句等,以访问不同的数据。数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。
(3)元数据
  元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。
  a. 技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
  b. 商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;
  元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
(4)访问工具
  为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;管理信息系统(EIS)工具;在线分析(OLAP)工具;数据挖掘工具。
(5)数据集市(DataMarts)
  为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。
(6)数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。
(7)信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是对付多用户访问的最有效方法。

B、邻近度

  元数据关于数据的数据,或叫描述数据的数据。用以构造、维持、管理和使用数据仓库,在数据仓库中尤为重要

  1. (2)Integrate
  1. 关于混合模型聚类算法的优缺点,下面说法正确的是( B )。

  ① 集中式:所有数据片段安排在一个场地上

小结:       联机分析处理(OLAP,On-line Analytical Processing),数据量大,DML少。使用数据仓库模板
      联机事务处理(OLTP,On-line Transaction Processing),数据量少,DML频繁,并行事务处理多,但是一般都很短。使用一般用途或事务处理模板。

A,预测准确度

 

  Velocity : 在数据量非常庞大的情况下,也能够做到数据的实时处理。  

B二年级

四、云计算数据库

   数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

C.数据仓库是面向业务的,支持联机事务处理(OLTP)

  并行数据库系统:通过并行实现各种数据操作,如数据载入、索引建立、数据查询等,可以提高系统的性能

  对象上:数据分析往往是针对数字化的数据,而数据挖掘能够采用不同类型的数据,比如声音,文本等。  

A、其支持度小于阈值

  实现并行DBMS的三种硬件结构:

 

A. 基于类的排序方案

三、XML数据库

     在数据仓库所有特性中,这是最重要的。数据仓库的数据是从企业中多个OLTP数据库中抽取出来的,操作型数据与分析型数据之间的差别甚大。首先,数据仓库的各个主题所对应的源数据在原有的OLTP数据库中可能存在许多重复的不一致的地方,而且这些源数据中也常常蕴涵了不同的业务处理逻辑;其次数据仓库中的综合数据常常无法从OLTP数据库系统中直接得到,因此在将数据加载到数据仓库之前,需要经过统一与综合。

D. 数据仓库的数据是反映历史变化的

  分布式数据库目标(12个):

  ETL/Extraction-Transformation-Loading——用于完成DB到DW的数据转存,它将DB中的某一个时间点的状态,“抽取”出来,根据DW的存储模型要求,“转换”一下数据格式,然后再“加载”到DW的一个过程,这里需要强调的是,DB的模型是ER模型,遵从范式化设计原则,而DW的数据模型是雪花型结构或者星型结构,用的是面向主题,面向问题的设计思路,所以DB和DW的模型结构不同,需要进行转换。   DM/Data Mining/数据挖掘——这个挖掘,不是简单的统计了,他是根据概率论的或者其他的统计学原理,将DW中的大数据量进行分析,找出我们不能直观发现的规律,比如,如果我们每天早上照相,量身材的时候,还记录下头一天吃的东西,黄瓜,猪腿,烤鸭,以及心情,如果记录上10年,形成了3650天的相貌和饮食心情的数据,我们每个人都记录,有20万人记录了,那么,我们也许通过这些记录,可以分析出,身材相貌和饮食的客观规律;再说一个典型的实例,就是英国的超市,在积累了大量数据之后,对数据分析挖掘之后,得到了一个规律:将小孩的尿布和啤酒放在一起,销量会更好——业务专家在得到该结论之后,仔细分析,知道了原因,因为英国男人喜欢看足球的多,老婆把小孩介绍男人看管,小孩尿尿需要尿布,而男人看足球喜欢喝酒,所以两样商品有密切的关系,放在一起销售会更好

C. 决策树算法对于噪声的干扰非常敏感

 

  Veracity : 随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。

D. 数据仓库设计

    3) 局部映像透明性:用户既要了解全局数据的分片情况,还有了解个片段的副本复制情况及位置分配情况

  Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。
  Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。

A. 根据内容检索

  在数据仓库中,元数据分成技术型元数据业务型元数据

  数据分析只是在已定的假设,先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘,也就是我们数据分析师系统成长之路的更上一楼”。

  ③ 混合型的OLAP(HOLAP

  首先,介绍一下ETL 和 DM:  

D、s=<{2,4},{2,4}> t=<{2},{4}>

  两阶段的提交协议将场地的事务管理器分为协调者参与者,通过协调者在第一阶段询问所有参与者事务是否可以提交,参与者做出应答,在第二阶段协调者根据参与者的回答决定是否提交

  1. (3)Non-Volatile

C 包装

 

B 序数

 

  1. 以下关于人工神经网络(ANN)的描述错误的有 (A)

  ① 基于多维数据库的OlAP(MOLAP

D、无向有环

  ② 范围法可能会导致数据偏斜,也就是不同片含有的记录数目特别大。数据偏斜会造成存有大片数据分片的处理机性能瓶颈问题

B 3

  ① 共享内存系统(Shared Memory):多个人CPU通过连接网络进行通信,并能访问公共的主存。随着CPU增加,造成内存冲突

B 22.6

 

  1. 以下哪个聚类算法不是属于基于原型的聚类( D )。

 

C, 互斥规则

  聚类算法:用于对集中的数据进行分组,使得每组内地数据尽量相似不同组间数据尽可能不同

A. 冗余属性不会对决策树的准确率造成不利的影响

  一维数据划分:将大数据集水平划分到多个磁盘上,可以通过并行读写有效利用多磁盘的I/O带宽:

D 第四个

  ③ 无资源共享系统(Shared Nothing):每个CPU拥有自己的内存和磁盘空间,并无公共区域,CPU之间所有通信通过连接网络来实现。存在通信代价,非本地磁盘的访问代价高

D、聚类

一共有多少类

E使用最可能的值填充空缺值

  ④ 层次结构(Hierachical):前三种体系的结合。分为两层,顶层时无共享结构,底层是共享内存或共享磁盘结构。集成了以上三种结构的优缺点

11.下面哪种不属于数据预处理的方法? (D)

    2) 位置透明性:用户只需考虑数据分片情况,无需考虑数据分片位置

B、划分聚类

 

A.概率

  分布式数据库系统的恢复控制采用的最典型策略是基于两阶段的提交协议

A. 分类

  聚类算法与分类算法的区别:聚类是未知结果有多少类,既可以聚成10类,也可能聚成100类。分类算法是已知

B,召回率

  ② 分布透明性(独立性)

B,0.35

A变量代换

C,外部结点(external node)

D. 隐马尔可夫链

C、组平均

B、可视化

A特征提取

D、7

B. 建模描述

A 一年级

28. 对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。 (对)

28.( ABCD )这些数据特性都是对聚类分析具有很强影响的。

 D散布图

B 24

C. 预测建模

A、精度

C. 预测建模

B 第二个

10 啤酒,饼干

C,Bayes

D 相异

E. 数据仓库是面向事务的

A、轮廓系数

B 过滤

A、1

A、1,2,3,4

Q1的位置:(8 1)*0.25 = 2 1/4 Q1 = 4 (12-4)*(1/4)=6

  1. 以下哪种方法不属于特征选择的标准方法: (D)

D,神经网络

  1. 下列哪个不是专门用于可视化时间空间数据的技术: (B)

25. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是: (A)

A、JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇。

C 3.5

10.下面属于数据集的一般特性的有:( B C D)

  1. 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 (C) ?

C 奇异值分解

23. 先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。(错)

A、STING

65.( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

  1. 在基于图的簇评估度量表里面,如果簇度量为proximity(Ci , C),簇权值为mi ,那么它的类型是( C )。

C. 文档知识发现

A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。

B、JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇。

  1. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)

A,规则集的表达能力远不如决策树好

C、组平均

B 序列数据

D、事务平均宽度

29. Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。 (错)

5 啤酒,饼干,尿布

D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.

C、O(log m)

C、JP聚类是基于SNN相似度的概念。

A 傅立叶变换

D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式

D.数据仓库支持决策而非事务处理

四分位数极差55-24 = 31

C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。

D,有序规则

  1. OLAP技术的核心是: (D)

A. 在线性;

C 第三个

  1. 在评价不平衡类问题分类的度量方法有如下几种,(ABCD)

E. 数据的表现

C、有向有环

D、频繁项集 = 频繁闭项集 = 最大频繁项集

C. 优化和搜索方法

  1. 如果规则集中的规则按照优先级降序排列,则称规则集是 (D)

C、面包、尿布

A、边界点

A,组合(ensemble)

A忽略元组

ID 购买项

D、1,3,4,5

A. 数据的抽取

13.上题中,等宽划分时(宽度为50),15又在哪个箱子里? (A)

18.下面不属于创建新属性的相关方法的是: (B)

A,构造网络费时费力

A、abc

7 面包,黄油,尿布

B、5

A、MIN(单链)

D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.

A、K均值

C. 数据的表现

D. 数据管理策略

A、高维性

查看博客:

D. 人工智能

D、对异常数据项敏感

C映射数据到新的空间

B、DBSCAN

C. 关联分析

6 牛奶,尿布,面包,黄油

  1. 以下哪项关于决策树的说法是错误的 (C)
  1. 在聚类分析当中,( AD )等技术可以处理任意形状的簇。
  1. 在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。
  1. 以下哪个聚类算法不属于基于网格的聚类算法( D )。

A 第一个

  1. 下面哪个属于映射数据到新的空间的方法? (A)

C、非互斥聚类

A. Precision, Recall 准确率和召回率

3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)

B、质心

  1. 通过数据挖掘过程所推倒出的关系和摘要经常被称为:(A B)

4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)

D 3

D、de

  1. 聚类分析可以看作是一种非监督的分类。(对)

B. 数据仓库使用的需求在开发出去就要明确;

A、基于图的凝聚度

B离散化

D 渐进抽样

C. 转轴

  1. 关于OLAP和OLTP的区别描述,不正确的是: (C)

C 渐进抽样

  1. DBSCAN在最坏情况下的时间复杂度是( B )。

54. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B)

D、Bregman散度

D、Jarvis-Patrick(JP)

C. 数据综合度越高,粒度也就越大,级别也就越高;

第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为四分位数极差(IQR),定义为

D 第四个

D. 寻找模式和规则

C、频繁数据项挖掘

A,DBSCAN

B、ad

C 3.2比特

A、二分K均值

  1. 数据仓库中间层OLAP服务器只能采用关系型OLAP (错)

A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.

D. (1) (2) (3) (4) (5)

  1. 联机分析处理包括以下哪些基本分析功能? (BCD)

D. 基于规格的排序方案。

B、WaveCluster

B 1.224

D,至少含有一个隐藏层的多层神经网络

A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。

  1. 有关数据仓库的开发特点,不正确的描述是: (A)

A、支持度阀值

42. 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含(C)

D,非常适合处理类分布不平衡的数据集

A 18.3

C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.

B. 计算机组成原理

A、模糊c均值

D 分辨率

D. 动态知识发现

  1. 非频繁模式__(AD)__

B 平行坐标系

D 四年级

1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)

  1. 数据挖掘算法的组件包括:(A B C D)

B、2

C. 数据仓库随事件变化不断删去旧的数据内容;

B、有向无环

Q3的位置= (n 1) × 0.75

16. 商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。 (对)

9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)

B. 切片

  1. 以下各项均是针对数据仓库的不同说法,你认为正确的有(BCDE )。
  1. 决策树中不包含一下哪种结点, (C)

n表示项数

C、Cohen度量

E 相异性

  1. 关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(错)

  2. 利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)。

A 不一致

C、关联分析算法

C. 矿产挖掘

  1. BIRCH是一种( B )。

D、噪声和离群点

  1. 在上题中,属于定量的属性类型是:(C)

59. 如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A)

  1. Apriori算法的计算复杂度受__(ABCD)?__影响。

A,根结点(root node)

D、核心点

排序后:12 ,24, 24, 26,33 ,55,68

B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.

B 无放回的简单随机抽样

A, B, C, D, (A)

D、特征选择算法

C、密度

D估计遗漏值

D 对称属性

E空间数据

D. 模具

B、基于原型的凝聚度

  1. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: (D)

B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。

C. 分类

排序后:2,4,12,24,26,33,55,68

C 1.458

56. 如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为(C);

E 维度高

C. 基于度量的排序方案

  1. 关于基本数据的元数据是指: (D)

彩民之家高手论坛 2

D、组平均

  1. 以下属于分类器评价或比较尺度的有: (ACD)

A,0.75

A 第一个

B,分类一个测试样例开销很大

A、系数

A, 无序规则

1. 数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。 (对)

32. SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器(minimal margin classifier) (错)

C 第三个

A 连续性

  1. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B)

C、CLIQUE

B,聚集(aggregate)

C. 模式发现

B,基于规则的分类器都对属性空间进行直线划分,并将类指派到每个划分

C、s=<{1,2},{3,4}> t=<{1},{2}>

C 55

2 寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤? (A B C D)

35. K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错)

D,真正率(ture positive rate,TPR)

D 矢量场图

  1. 下面属于维归约常用的线性代数技术的有: (A C)
  1. 基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。(对)

  2. 如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。(对)

B. 基于规则的排序方案

31. 在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。 (错)

D、混合模型在有噪声和离群点时不会存在问题。

  1. 在图集合中发现一组公共子结构,这样的任务称为 ( B )

Q2的位置= (n 1) × 0.5

E. 分类

A、平方欧几里德距离

D相异

  1. 关于OLAP和OLTP的说法,下列不正确的是: (A)

B、频繁子图挖掘

E.数据仓库的主要目标就是帮助分析,做长期性的战略制定

  1. 下表是一个购物篮,假定支持度阈值为40%,其中__(A D)__是频繁闭项集。

C、Apriori

1 abc

B. 回归

C、基于原型的分离度

C,最近邻分类器基于全局信息进行预测

B、EM算法

D、召回率

A. 根据内容检索

B. 由于OLAM的立方体和用于OLAP的立方体有本质的区别.

  1. 只有非零值才重要的二元属性被称作:( C )

D. 寻找模式和规则

D 3.8比特

C、Chameleon

C. 选择一个算法过程使评分函数最优

B. OLAP的最终数据来源与OLTP不一样.

B、共性分类相关系数

C聚集

B. 决定如何量化和比较不同表示拟合数据的好坏

  1. 在有关数据仓库测试,下列说法不正确的是: (D)

A. 分类

B. 数据越详细,粒度就越小,级别也就越高;

4. 模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(错)

  1. 如果规则 不满足置信度阈值,则形如 的规则一定也不满足置信度阈值,其中 是X的子集。(对)

  2. 具有较高的支持度的项集具有较高的置信度。(错)

D 特征加权

D. 寻找最佳决策树是NP完全问题

36. 给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(错)

33. 在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(错)

A, 无序规则

(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性

  1. 如下哪些不是最近邻分类器的特点, (C)

2 abcd

D、频繁模式挖掘

IQR = 43.5

  1. 下面关于数据粒度的描述不正确的是: (C)
  1. 以下哪些分类方法可以较好地避免样本的不平衡问题, (A)

三、 判断题

B. 子树可能在决策树中重复多次

  1. 关于OLAP的特性,下面正确的是: (D)

C,贝叶斯网络不适合处理不完整的数据

C、直接相似度

C、Chameleon

A 标称

D. OLTP以应用为核心,是应用驱动的.

C、频繁项集 频繁闭项集 最大频繁项集

D、JP聚类的基本时间复杂度为O(m)。

B 序数

  1. ( AB )都属于分裂的层次聚类算法。

B、都是不让人感兴趣的

1 面包、牛奶

  1. 贝叶斯信念网络(BBN)有如下哪些特点, (AB)

B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.

9.下列属于不同的有序数据的有:(ABCE)

A. 粒度是指数据仓库小数据单元的详细程度和级别;

D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.

D,网络结构确定后,添加变量相当麻烦

2 面包、尿布、啤酒、鸡蛋

A 矩阵

E Chernoff脸

B,穷举规则

  1. 设X={1,2,3}是频繁项集,则可由X产生__(C)__个关联规则。

D、O(m*log m)

A、层次聚类

A 计数属性

B. 分类和预测

A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.

B、MST

A. 关联规则发现

B,召回率(recall)

D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。

B,穷举规则

D,可以生产任意形状的决策边界

B,SVM

7.下面哪些属于可视化高维数据技术 (ABCE)

B. 聚类

A. 探索性数据分析

B,内部结点(internal node)

C、3

C非对称的二元属性

C. 基于WEB的OLAM是WEB技术与OLAM技术的结合.

C. Precision, ROC

A. OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;

值为:(A)

Q2的位置:(8 1)*0.5 = 4 1/2

C,训练ANN是一个很耗时的过程

B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。

3 牛奶、尿布、啤酒、可乐

  1. 下面购物篮能够提取的3-项集的最大数量是多少(C)
  1. 通过聚集多个分类器的预测来提高分类准确率的技术称为 (A)

A 主成分分析

18.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. (错)

B. Recall, Precision

B. 评分函数

C、混合模型很难发现不同大小和椭球形状的簇。

C. 预测建模

A. 频繁模式挖掘

C. (1) (2) (3) (4)

C、基于模板的方法

A, 无序规则

B、项数(维度)

D. 切块

2 面包,黄油,牛奶

19. Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息. (错)

D、Jarvis-Patrick(JP)

  1. 以下哪些算法是分类算法,(B)

E 离散化

1 牛奶,啤酒,尿布

  1. 以下哪些算法是基于规则的分类器 (A)

22. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D)

分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。

C,模型描述的简洁度

B、邻近度

C,无法被用来产生更易于解释的描述性模型

D、模糊聚类

  1. 对于数据挖掘中的原始数据,存在的问题有: (ABCDE)

C 三年级

6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)

A. C4.5

C、组平均

Q1位置:(7 1)*0.25 = 2 对应数24

A. 数据挖掘与知识发现

C. Na?ve Bayes

C, 互斥规则

A 等高线图

D. Recall, ROC

B 2.6比特

4 acde

A. 模型或模型结构

C、事务数

D. ANN

D. OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作.

D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.

D. 模式匹配

B. 对用户的快速响应;

  1. 以下属于聚类算法的是( ABD )。

C. 数据仓库的开发是一个不断循环的过程,是启发式的开发;

A,KNN

C、1,2,4,5

D. 寻找模式和规则

C. 数据仓库的数据是相对稳定的

C、包含负模式和负相关模式

D、兴趣因子

B,穷举规则

单选题

A、无向无环

B、几率

26. 聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。 (错)

B. (2) (3) (4)

彩民之家高手论坛 3

4 面包,黄油,饼干

C、MAFIA

D,投票(voting)

B重复

C. 数据预处理

D,叶结点(leaf node)

B、平方欧几里德距离

D事务数据

  1. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: (B)
  1. 检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。

B 饼图

A 0.821

C、余弦距离

5 de

26.( CD )都属于簇有效性的监督度量。

C,精度(precision)

A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>

C不完整

B、余弦距离

D、BIRCH

D 抽样

C、SOM

B、MAX(全链)

D. 在测试之前没必要制定详细的测试计划.

8 啤酒,尿布

A 31

B 特征提取

  1. 概念分层图是__(B)__图。

B. 建模描述

B. 捕捉到的新数据会覆盖原来的快照;

D. 多维分析;

  1. 数据挖掘的预测建模任务主要包括哪几大类问题? (A B)
  1. 如下那些不是基于规则分类器的特点,(AC)

C. 基本元数据包括日志文件和简历执行处理的时序调度信息;

A、频繁项集 频繁闭项集 =最大频繁项集

  1. 下列度量不具有反演性的是 (D)

D特征构造

B、规模

A、O(m)

14.下面哪个不属于数据的属性类型:(D)

B. 基本元数据包括与企业相关的管理方面的数据和信息;

来源:

57. 如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为(B)

B,C4.5

D、F度量

IQR = Q3 - Q1

68.( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

  1. 下列__(A)__不是将主观信息加入到模式发现任务中的方法。

B. 建模描述

C星形坐标

B. 建模描述

A 2

D 含噪声

A、分类器

  1. 数据仓库是随着时间变化的,下面的描述不正确的是 (C)

B使用属性的平均值填充空缺值

B、Rand统计量

A. 数据仓库开发要从数据出发;

A. (1) (2) (3)

B、MAX(全链)

C 26.8

D、共享最近邻

A,F1度量

C. 互操作性.

B 第二个

30.分类模型的误差大致分为两种:训练误差(training error)和泛化误差(generalization error). (对)

D,有序规则

D 27.9

B、DENCLUE

D,有序规则

C,合并(combination)

B. 数据仓库的数据是集成的

D、Ward方法

A, 无序规则

63. 简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )

B,穷举规则

16. 利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是(BD)

  1. 关于K均值和DBSCAN的比较,以下说法不正确的是( A )。

C, 互斥规则

C. OLTP面对的是决策人员和高层管理人员.

  1. 一个对象的离群点得分是该对象周围密度的逆。这是基于( C )的离群点定义。

A 1比特

D、CLIQUE

Q1的位置= (n 1) × 0.25

C使用一个全局常量填充空缺值

3 牛奶,尿布,饼干

D、基于图的凝聚度和分离度

C, 互斥规则

A、与同一时期其他数据对比

C、cd

B. 模式

A、MIN(单链)

74. 考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择( D )的相似度计算方法。

  1. 以下哪些学科和数据挖掘有密切联系?(A D)

C. 预测建模

C、密度

15. OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。 (对)

73. 以下是哪一个聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。( C )。

B、1,2,3,5

C时间序列数据

B 维度

A,它使用具体的训练实例进行预测,不必维护源自数据的模型

B.数据仓库是一切商业智能系统的基础

  1. 簇有效性的面向相似性的度量包括( BC )。

B、频繁项集 = 频繁闭项集 最大频繁项集

3 bce

  1. 寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(错)

  2. 离群点可以是合法的数据对象或者值。    (对)

  3. 离散属性总是具有有限个值。        (错)

  4. 噪声和伪像是数据错误这一相同表述的两种叫法。     (错)

  5. 用于分类的离散化方法之间的根本区别在于是否使用类信息。   (对)

  6. 特征提取技术并不依赖于特定的领域。      (错)

  7. 序列数据没有时间戳。      (对)

  8. 定量属性可以是整数值或者是连续值。     (对)

  9. 可视化技术对于分析的数据类型通常不是专用性的。    (错)

  10. DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)

D. 数据流挖掘

  1. 以下属于可伸缩聚类算法的是( A )。
  1. 什么是KDD? (A)

C 区间

39. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)40. DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)

A、曼哈顿距离

A. 聚类

D 0.716

B 特征加权

  1. 频繁项集、频繁闭项集、最大频繁项集之间的关系是: (C)

D,有序规则

A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;

B、MAX(全链)

  1. 下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是( D )。

A. 模型

归一化

B. KNN

C 曲面图

7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)

(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

D、Chameleon

  1. 数据仓库在技术上的工作过程是: (ABCD)

D. 自然语言处理

A、MST

四分位数(Quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

B. 领域知识发现

C、6

A. 统计

C. 模范

D使用与给定元组属同一类的所有样本的平均值

A. OLAP事务量大,但事务内容比较简单且重复率高.

C、离群点

A,神经网络对训练数据中的噪声非常鲁棒

ID 项集

D 维归约

C 稀疏性

D、OPOSSUM

8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)

D、主观兴趣度量

TID 项

B,对模型的过分问题非常鲁棒

C 区间

A 嵌入

(b)描述有多少比例的小偷给警察抓了的标准。

B特征修改

D 5

A、MIN(单链)

A. 决定要使用的表示的特征和结构

A 标称

B 离散属性

D、Ward方法

D、啤酒、牛奶

A. 数据仓库是面向主题的

B、啤酒、面包

D. 决定用什么样的数据管理原则以高效地实现算法。

6. 在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有: (ABCDE)

A、4

D,计算复杂度

B、O(m2)

2. 数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。(对)

  1. 不纯性度量中Gini计算公式为(其中c是类的个数) (A)

43.下面选项中t不是s的子序列的是 ( C )

D, 0.5738

C 分层抽样

C、熵

C,K-Mean

  1. 下面列出的条目中,哪些是数据仓库的基本特征: (ACD)
  1. 考虑值集{12, 24, 33, 2, 4, 55, 68, 26},其四分位数极差是:(A)

B,可以处理冗余特征

4 面包、牛奶、尿布、啤酒

版权声明:本文由彩民之家高手论坛发布于彩民之家高手论坛,转载请注明出处:大数据相关概念【彩民之家高手论坛】