当前位置:文档下载 > 所有分类 > 自然科学 > 数学 > 数据挖掘与统计学的关系浅析
侵权投诉

数据挖掘与统计学的关系浅析

数据挖掘和统计学有很多共同点, 但与此同时它们也有很多差异。它们的关系究竟如何? 文章分别介绍了数据挖掘 和统计学的含义, 并认为作为数据处理和分析方法中的一种———数据挖掘是统计学的新分支。

2005年第9期(总第67期)

沿海企业与科技

COASTALENTERPRISESANDSCIENCE&TECHNOLOGY

No.9,2005

(CumulativelyNo.67)

数据挖掘与统计学的关系浅析

瑜1,陆静2

(1.南京大学工程管理学院,江苏南京210093;2.南京农业大学工学院,江苏南京210031)

数据挖掘和统计学有很多共同点,但与此同时它们也有很多差异。它们的关系究竟如何?文章分别介绍了数据挖掘【摘要】

和统计学的含义,并认为作为数据处理和分析方法中的一种———数据挖掘是统计学的新分支。

数据挖掘;统计学;数据处理和分析【关键词】

【中图分类号】F222

【文献标识码】A

【文章编号】1007-7723(2005)09-0176-02

统计和数学技术,“使用模式识别技术、2.Bhavani(1999):

在大量的数据中发现有意义的新关系、模式和趋势的过程”。

“数据挖掘就是在大型数据库中寻找3.Handetal(2000):有意义、有价值信息的过程”。

一般说来,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。它强调对大量观测到的数据库的处理。它是涉及数据库管理、人工智能、机器学习、模式识别、及数据可视化等学科的边缘学科。

(二)数据挖掘常用的技术

以下是常见和应用最广泛的算法和模型:

随着计算机、网络技术的发展,出现了大量数量大、涉及面宽的数据,依靠以往那种由简单汇总、按指定模式去分析的传统统计方法是无法完成这类数据的分析的。因此,一种智能化的、综合应用各种统计分析方法、数据库、智能语言来分析庞大数据资料的技术就应运而生,这就是目前国际上统计最热门的话题之一“数据挖掘”(DataMining)。数据挖掘出现后,它是作为一门独立的边缘交叉学科,还是计算机科学的一部分,还是统计学的一部分?对比众说纷纭。本人认为虽然数据挖掘中常用的技术方法和工具中只有一部分来自于统计学,但作为一种数据分析方法,数据挖掘仅是统计的一部分,当然这可能要求统计学家们改变他们的一些传统的基本思路及操作原则。将数据挖掘看作统计学的一个分支将有利于促进数据挖掘和传统统计学的共同发展。

1.传统统计方法:(1)抽样技术:我们面对的是大量的数

据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样;(2)元统计分析:因子分析,聚类分析等;(3)统计预测方法,如回归分析,时间序列分析等。

一、数据挖掘简介

近十几年,随着科学技术飞速的发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。如何处理这些数据,得到有益的信息,人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可能,这就推动了数据库技术的极大发展,但是面对不断增加如潮水般的数据,人们不再满足于数据库的查询功能,提出了深层次问题:能不能从数据中提取信息或者知识为决策服务。这对于数据库技术而言显然已经显得无能为力了,同样,传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海量般的数据。于是,人们结合统计学、数据库、机器学习等技术,提出“数据挖掘”来解决这一难题。数据挖掘即是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的信息,归纳出有用的结构,作为企业进行决策的依据。其应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析。在零售业、制造业、财务金融保险、通讯及医疗服务等行业,已广泛应用数据挖掘得出许多有益甚至于有趣的结论,为管理和决策服务。

(一)数据挖掘的含义和功能

数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些有代表的数据挖掘定义:

2.可视化技术:用图表等方式把数据特征用直观地表述

出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。

3.决策树:利用一系列规则划分,建立树状图,可用于分

类和预测。

4.神经网络:模拟人的神经元功能,经过输入层,隐藏层,

输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。

突变、选5.遗传算法:基于自然进化理论,模拟基因联合、择等过程的一种优化技术。

6.关联规则挖掘算法:关联规则是描述数据之间存在关一般分系的规则,形式为。“A1∧A2∧…An→B1∧B2∧…Bn”

为两个步骤:(1)求出大数据项集。(2)用大数据项集产生关

联规则。

除了上述的常用方法外,还有粗集方法,模糊集合方法,

BayesianBeliefNetords,最邻近算法(k-nearestneighborsmethod(kNN))等。

总之,作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘所采用的技术

1.SAS研究所(1997):“在大量相关数据基础之上进行数

据探索和建立相关模型的先进方法”。

【收稿日期】2005-06-15

魏瑜(1974-),女,南京大学工程管理学院硕士研究生,南京农业大学工学院讲师,研究方向:物流与供应链管理、【作者简介】

数据统计分析与管理;陆静(1976-),女,南京农业大学工学院助教,研究方向:数据挖掘。

-176-

第1页

猜你喜欢

返回顶部