我的位置：首页 › 行业资讯 › 数据分析 › 大数据时代下，数据挖掘做了什么 ...

大数据时代下，数据挖掘做了什么

复制链接 | 收藏本帖

1797

: 冷色系小试身手Lv3

发表于2019-1-15 17:58

楼主

科学技术是第一生产力，伴随着工具和技术的不断创新与突破，历史的车轮不断向前，特别是两次工业革命使人类的生产和生活发生了质的飞跃。信息技术革命，更是一个推动历史进步的强大推动力，随着信息时代的不断发展，整个世界正在由物理维度转向数字维度，大数据竞争，更是社会、行业和企业变革的关键所在。目前，大数据的竞争，已经引领着全球商业展开一场新的变革。

然而在这种情形下，数据挖掘充当什么呢？

首先了解一下什么是数据挖掘
   数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。
数据挖掘的方法
   分类：是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别。
   回归分析：回归分析方法反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系，其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面，如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。
聚类：聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。
关联规则：关联规则是描述数据库中数据项之间所存在的关系的规则，即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。
特征：特征分析是从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征。
变化和偏差分析：偏差包括很大一类潜在有趣的知识，如分类中的反常实例，模式的例外，观察结果对期望的偏差等，其目的是寻找观察结果与参照量之间有意义的差别。
Web页挖掘：随着Internet的迅速发展及Web 的全球普及，使得Web上的信息量无比丰富，通过对Web的挖掘，可以利用Web 的海量数据进行分析，收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价和管理危机。
数据挖掘的功能
1、自动预测趋势和行为
   数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题，数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户，其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

2、关联分析
   数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

3、聚类
   数据库中的记录可被化分为一系列有意义的子集，即聚类。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初，Mchalski提出了概念聚类技术牞其要点是，在划分对象时不仅考虑对象之间的距离，还要求划分出的类具有某种内涵描述，从而避免了传统技术的某些片面性。

4、概念描述
   概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多，如决策树方法、遗传算法等。

5、偏差检测
   数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。

数据挖掘的应用
      1、Web页挖掘搜集外部环境信息
      2、数据挖掘分析企业经营信息
      3、数据挖掘识别、分析和预防危机
      4、数据挖掘技术改善客户关系管理
      5、数据挖掘进行信用风险分析和欺诈甄别
      6、数据挖掘控制危机
数据挖掘工具
   常用的数据挖掘工具主要有：R 、Oracle数据挖掘（ODM）、Tableau、豌豆DM（亿信华辰）、Scrapy、Weka、八爪鱼采集器、RapidMiner、KNIME、Pentaho