1、数据挖掘的定义及研究内容
数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘知识的过程。对数据挖掘与知识发现的一个比较公认的定义是:从数据库、数据仓库或其他信息库中的大量数据中识别和提取出潜在的、可信的、新颖的、有效的并能被人理解的关系、规则、特征的非平凡的过程。数据挖掘技术是数据库技术和人工智能技术相结合的产物,解决了在信息技术发展中存在拥有大量数据但缺乏有用信息的问题,完成从业务数据到决策信息的转换。数据的多样化要求数据挖掘也应能对各种各样的数据进行挖掘。数据挖掘中的原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形、图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。
2、数据挖掘的过程
数据挖掘是一个处于发展中的技术框架,已部分投入实际生产实践。随着信息化应用的普及,市局信通存储的信息量会愈发庞大。当前社会,如何有效进行信息搜索,获取需要信息,已经成为越来越多行业和从业人员谋求发展的重要途径。数据挖掘的核心在于从数据库中搜索那些未知的、价值量大、结构复杂的信息。在此过程中,数据的整理就显得尤为重要,如何进行数据挖掘,搜索有效信息,主要包括以下几个步骤。
2.1 数据准备
一般地,在数据挖掘的过程中,首先要做的就是数据的整合,因为在现实生活中,完整无误的数据极其少见,必须进行相应处理,去伪存真,提高信息的准确度。通常情况下,数据准备一般包括以下几点:(1)数据清理:现实中的数据一般是不完整、不一致的,数据清理就是要消除那些错误数据,进行数据的识别。(2)数据集成:将多数据源中的数据进行合并处理,解决语义模糊性并整合成一致的数据,然后存放在一个统一的数据存储中。(3)数据选择及变换:数据选择是在对发现任务各数据本身内容理解的基础上,尽可能保持数据原貌,最大限度地精简数据量。同时缩小处理范围,进一步约简数据。
2.2 构建模型
模型构建是数据挖掘的核心,在构建之前必须理解数据挖掘项目的目的和数据挖掘任务的类型。确定任务之后,再决定使用什么样的挖掘算法。
2.3 模式评估
数据挖掘得到的模式有可能是没有实际意义的,因此要对数据挖掘结果进行评估,确定挖掘结果是否正确。
2.4 知识表达
使用可视化和知识表示技术,对提取的信息进行分析,把最有价值的信息区分出来,提交给决策者,向用户提供挖掘的知识。
3、数据挖掘方法
3.1 关联规则
关联规则是由R.Agrawal等人在1993年提出的概念,旨在寻找在同一事物中出现的不同项的相关性。在数据挖掘研究领域,对关联规则的研究开展得比较深入,它是数据挖掘研究中的一个重要分支,也是最活跃的一个分支之一。从大型数据库中挖掘出关联规则问题己成为数据挖掘中最成熟、最重要、最活跃的研究内容之一。关联规则形如这样的规则:“在购买计算机的顾客中,有30%同时购买了打印机”。简洁、易于理解的形式和有效捕捉数据间的重要关系,是使得关联规则成为众多数据挖掘方法中的经典的一个重要因素。
3.2 决策树
决策树是数据挖掘分类算法的一个重要方法,用二叉树形图来表示处理逻辑,以直观、清晰地表达加工的逻辑要求,别适合于判断因素比较少、逻辑组合关系不复杂的情况。决策树,在发生概率的基础上,评价项目风险,判断其可行性。决策树是一个预测模型;它代表的是对象属性与对象值之间的一种映射关系。决策树是一个类似于流程图的树结构,其中每个内部节点表示一个在属性上的测试,决策树中最上面的节点称为根节点,是整个决策树的开始。决策树的每个节点子节点的个数与决策树的算法有关。在沿着决策树从上到下遍历的过程中,每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。
3.3 聚类分析
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为,它在数据相似的基础上统一进行数据整理汇总,然后分类。聚类分析的应用十分广泛,不仅在数学和计算机领域使用,还在统计学和经济学等学科上发挥着巨大作用。将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程称为聚。聚类与分类的不同之处在于:聚类是根据一定的聚类规则,将具有某种相同特征的数据聚在一起,也称之为无监督学习,聚类分析时数据集合的特征是未知的;而分类是有监督的学习,在分类之前,用户就知道数据可分为几类,将要处理的数据按照分类标准分入不同的类别。
4、数据挖掘的应用
4.1 在科学研究中应用
随着先进的科学数据收集工具的使用,数据挖掘在观测卫星、遥感器、DNA分析等方面发挥了更要的作用。如在生物学方面,数据挖掘中的数据清理和数据集成方法有助于基因数据集成和用于基因数据分析的数据仓库的构造;数据挖掘中的关联分析方法可用于帮助确定在目标样本中同时出现的基因种类,有助于发现基因组和对基因间的交叉于联系的研究;基因数据库搜索技术己在基因研究上取得了很多重大发现。
4.2 在商业上的应用
在商业领域,零售业是数据挖掘的主要应用领域。零售业每天的销售积累了大量的销售数据,特别是现在,许多商店都有自己的Web站点,顾客可以方便地在线购买商品,零售数据不断激增,为数据挖掘提供了丰富的资源。零售数据挖掘可有助于识别顾客的购买行为,发现顾客购买模式和趋势,改变服务质量,从而取得更好的顾客保持力,提高销售竞争力。
4.3 在金融上的应用
一般地,在银行和一些金融机构中,数据保密是其工作的重点环节,然而在实际生活中,由于金融行业的职业特点,他们在进行金融活动时产生的一些相关数据大都完整准确,可信度高。这一方面为金融工作的顺利进行创造了良好条件,另一方面,这些数据分析和挖掘难度低,可操作性强也容易给不法分子以可乘之机,产生金融风险。在这种情况下,数据挖掘可以预测金融风险、了解客户状况、防止黑客攻击等。
5、结束语
数据挖掘是搜索隐藏信息,获取情报的过程,它的应用性强、涉及面广、科学要求程度高。在现阶段,数据挖掘主要运用在计算机数据处理上,依靠数据挖掘可实现信息采集处理和分析,具有极强的时代意义。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:数据挖掘应用性的研究
本文网址:http://www.toberp.com/html/consultation/10839314459.html