[Investor Relations]  |  官方微博

大数据培训

美国上市公司 · 亿元级外企Java培训企业

  • 咨询电话18501231750 01062130963
大数据培训 > 资料库 > 数据挖掘有什么技术?浅析数据挖掘技术
  • 数据挖掘有什么技术?浅析数据挖掘技术

    发布:达内  来源:达内大数据培训  时间: 2015年06月08日

  • 社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏着许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受 到关注。...

  • 社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏着许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受 到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术,这种技术称为数据挖掘。数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

    一、数据挖掘的对象

    数据挖掘可以在任何类型的数据上进行,即可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可 以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以 是Web数据信息。

    二、数据挖掘的任务

    数据挖掘的目标是从海量数据中发现隐含的、有意义的知识。它的任务主要是分类、预测、时间序列模式、聚类分析、关联分析预测和偏差分析等。

    1.分类。分类就是按照一定的标准把数据对象划归成不同类别的过程。

    2.预测。预测就是通过对历史数据的分析找出规律,并建立模型,通过模型对未来数据的种类和特征进行分析。

    3.时间序列模式。时间序列模式就是根据数据对象随时间变化的规律或趋势来预测将来的值。

    4.聚类分析。聚类分析是在没有给定划分类的情况下,根据数据信息的相似度进行数据聚集的一种方法。

    5.关联分析预测。关联分析就是对大量的数据进行分析,从中发现满足一定支持度和可信度的数据项之间的联系规则。

    6.偏差分析。偏差分析就是通过对数据库中的孤立点数据进行分析,寻找有价值和意义的信息。

    三、数据挖掘的过程

    数据挖掘使用一定的算法从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据准备、数据挖掘、模式评估、巩固知识和运用知识等步骤组成。

    1.数据准备。数据挖掘的处理对象是数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,首先要清除 数据噪声和与挖掘主题明显无关的数据;其次将来自多数据源中的相关数据组合并;然后将数据转换为易于进行数据挖掘的数据存储形式,这就是数据准备。

    2.数据挖掘。数据挖掘就是根据数据挖掘的目标,选取相应算法及参数,分析准备好的数据,产生一个特定的模式或数据集,从而得到可能形成知识的模式模型。

    3.模式评估。由挖掘算法产生的模式规律,存在无实际意义或无实用价值的情况,也存在不能准确反映数据的真实意义的情况,甚至在某些情况下与事实相反, 因此需要对其进行评估,从挖掘结果中筛选出有意义的模式规律。在此过程中,为了取得更为有效的知识,可能会返回前面的某一处理步骤中以反复提取,从而提取 出更有效的知识。   【摘 要】数据挖掘技术为应对信息爆炸,海量信息的处理提供了科学和有效的手段。本文介绍了数据挖掘的概念、对象、任务、过程、方法和应用领域。

    【关键词】数据挖掘 信息分析 提取 知识

    社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏着许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越 受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术,这种技术称为数据挖掘。数据挖掘就是从大量的、不完全的、 有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

    一、数据挖掘的对象

    数据挖掘可以在任何类型的数据上进行,即可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可 以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以 是Web数据信息。

    二、数据挖掘的任务

    数据挖掘的目标是从海量数据中发现隐含的、有意义的知识。它的任务主要是分类、预测、时间序列模式、聚类分析、关联分析预测和偏差分析等。

    1.分类。分类就是按照一定的标准把数据对象划归成不同类别的过程。

    2.预测。预测就是通过对历史数据的分析找出规律,并建立模型,通过模型对未来数据的种类和特征进行分析。

    3.时间序列模式。时间序列模式就是根据数据对象随时间变化的规律或趋势来预测将来的值。

    4.聚类分析。聚类分析是在没有给定划分类的情况下,根据数据信息的相似度进行数据聚集的一种方法。

    5.关联分析预测。关联分析就是对大量的数据进行分析,从中发现满足一定支持度和可信度的数据项之间的联系规则。

    6.偏差分析。偏差分析就是通过对数据库中的孤立点数据进行分析,寻找有价值和意义的信息。

    三、数据挖掘的过程

    数据挖掘使用一定的算法从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据准备、数据挖掘、模式评估、巩固知识和运用知识等步骤组成。

    1.数据准备。数据挖掘的处理对象是数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,首先要清除 数据噪声和与挖掘主题明显无关的数据;其次将来自多数据源中的相关数据组合并;然后将数据转换为易于进行数据挖掘的数据存储形式,这就是数据准备。

    2.数据挖掘。数据挖掘就是根据数据挖掘的目标,选取相应算法及参数,分析准备好的数据,产生一个特定的模式或数据集,从而得到可能形成知识的模式模型。

    3.模式评估。由挖掘算法产生的模式规律,存在无实际意义或无实用价值的情况,也存在不能准确反映数据的真实意义的情况,甚至在某些情况下与事实相反, 因此需要对其进行评估,从挖掘结果中筛选出有意义的模式规律。在此过程中,为了取得更为有效的知识,可能会返回前面的某一处理步骤中以反复提取,从而提取 出更有效的知识。

  • 上一篇:常用数据挖掘经典算法

    下一篇:数据挖掘举例经典案例

网站导航
2001-2016 达内时代科技集团有限公司 版权所有 京ICP证8000853号-56