-
疯人院的歌颂者 初学数据Lv2
发表于2019-2-15 13:49
楼主
21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等都极大拓展了其应用范围,各种数据迅速扩张变大。大数据蕴藏着价值信息,但如何从海量数据中淘换出出对客户有用的沙金甚至钻石,是数据人面临的巨大挑战,亿信华辰数据挖掘工具豌豆DM可以体验一下!
本文在分析大数据基本特征的基础上,对数据挖掘技能的分类及数据挖掘的常用方法进行了大略分析,以期可以在大数据时代背景下可以在数据挖掘方向取得些许成绩。
1 大数据时代数据挖掘的重要性
随着互联网、物联网、云计算等技能的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.8万亿GB。IDC(Internet Data Center,互联网络数据中心)预计,到2020 年全球数据量将增加50倍。毋庸置疑,大数据时代已经到来。一方面,云计算为这些海量的、多样化的数据提供存储和运算平台,同时数据挖掘和人工智能从大数据中发现知识、规律和趋势,为决策提供信息参考。
如果运用合理的方法和工具,在企业日积月累变成的浩瀚数据中,是能够淘到沙金的,甚至可能发现许多大的钻石。在一些信息化较成熟的行业,就有这样的例子。比如银行的信息化建设就相当完善,银行每天生成的数据数以万计,储户的存取款数据、ATM交易数据等。
数据挖掘是借助IT手段对经营决策产生决定性影响的一种管理手段。从定义上来看,数据挖掘是指一个完整的过程,该过程是从大量、不完全、模糊和随机的数据集中识别有效的、可实用的信息,并运用这些信息做出决策。
2 数据挖掘的分类
数据挖掘技能从起初的单一门类的知识逐步发展成为一门综合性的多学科知识,并由此产生了很多的数据挖掘方法,这些方法种类多,类型也有很大的差别。为了满足用户的实际需要,现对数据挖掘技能进行如下几种分类:
2.1 按挖掘的数据库类型分类
利用数据库对数据分类成为可能是因为数据库在对数据储存时就能够对数据按照其类型、模型以及应用场景的不同来进行分类,根据这种分类得到的数据在选取数据挖掘技能时也会有满足自身的方法。对数据的分类有两种情况,一种是根据其模型来分类,另一种是根据其类型来分类,前者包括关系型、对象-关系型以及工作型和数据仓库型等,后者包括时间型、空间型和Web 型的数据挖掘方法。
2.2 按挖掘的知识类型分类
这种分类方法是根据数据挖掘的功能来实施的,其中包括多种分析的方式,例如相关性、预测及离群点分析方法,充分的数据挖掘不但仅是一种单一的功能模式,而是各种不同功能的聚集。同时,在上述分类的情况下,还能够按照数据本身的特性和属性来对其进行分类,例如数据的抽象性和数据的粒度等,利用数据的抽象层次来分类时能够将数据分为三个层次,即广义知识的高抽象层,原始知识的原始层以及到多层的知识的多个抽象层。一个完善的数据挖掘能够实现对多个抽象层数据的挖掘,找到其有价值的知识。同时,在对数据挖掘进行分类时还能够根据其表现出来的模式及准则性和是否检测出噪声来分类,一般来说,数据的准则性能够通过多种不同的方法挖掘,例如相关性和关联分析以及通过对其观念描述和聚类分类、预测等方法,同时还能够通过这些挖掘方法来检测和排除噪声。
2.3 按所用的技能类型分类
数据挖掘的时候选取的技能手段千变万化,例如能够选取面向数据库和数据仓库的技能以及神经网络及其可视化等技能手段,同时用户在对数据进行分析时也会使用很多不同的分析方法,根据这些分析方法的不同能够分为遗传算法、人工神经网络等等。一般情况下,一个庞大的数据挖掘系统是集多种挖掘技能和方法的综合性系统。
2.4 按应用分类
根据数据挖掘的应用的领域来进行分类,包括财经行业、交通运输业、网络通讯业、生物医学领域如DNA等,在这些行业或领域中都有满足自身要求的数据挖掘方法。对于特定的应用场景,此时就可能需要与之相应的特殊的挖掘方法,并保证其有效性。综上所述,基本上不存在某种数据挖掘技能能够在所有的行业中都能使用的技能,每种数据挖掘技能都有自身的专用性。
3 数据挖掘中常用的方法
目前数据挖掘方法主要有4种,这四种算法包括遗传、决策树、粗糙集和神经网络算法。以下对这四种算法进行一一解释说明。
遗传算法:
该算法依据生物学领域的自然选择规律以及遗传的机理发展而来,是一种随机搜索的算法,利用仿生学的原理来对数据知识进行全局优化处理。是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。这种算法具有隐含并行性、易与其它模型联合等优点从而在数据挖掘中得到了应用。
决策树算法:
在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也对照明显,在利用这种算法对数据进行分类时相当迅速,同时描述起来也很简明,在大规模数据处理时,这种方法的应用性很强。
粗糙集算法:
这个算法将知识的理解视为对数据的划分,将这种划分的一个总体叫做观念,这种算法的基本原理是将不够精确的知识与确定的或者正确的知识进行类别同时进行类别刻画。
神经网络算法:
在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也对照明显,在利用这种算法对数据进行分类时相当迅速,同时描述起来也很简明,在大规模数据处理时,这种方法的应用性很强。光缆监测及其故障诊断系统对于保证通讯的顺利至关重要,同时这种技能方法也是顺应当今时代的潮流必须推广使用的方法。同时,该诊断技能为通讯管网和日常通讯提供了可靠的技能支持和可靠的后期保证。
转载自网络
本文在分析大数据基本特征的基础上,对数据挖掘技能的分类及数据挖掘的常用方法进行了大略分析,以期可以在大数据时代背景下可以在数据挖掘方向取得些许成绩。
1 大数据时代数据挖掘的重要性
随着互联网、物联网、云计算等技能的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.8万亿GB。IDC(Internet Data Center,互联网络数据中心)预计,到2020 年全球数据量将增加50倍。毋庸置疑,大数据时代已经到来。一方面,云计算为这些海量的、多样化的数据提供存储和运算平台,同时数据挖掘和人工智能从大数据中发现知识、规律和趋势,为决策提供信息参考。
如果运用合理的方法和工具,在企业日积月累变成的浩瀚数据中,是能够淘到沙金的,甚至可能发现许多大的钻石。在一些信息化较成熟的行业,就有这样的例子。比如银行的信息化建设就相当完善,银行每天生成的数据数以万计,储户的存取款数据、ATM交易数据等。
数据挖掘是借助IT手段对经营决策产生决定性影响的一种管理手段。从定义上来看,数据挖掘是指一个完整的过程,该过程是从大量、不完全、模糊和随机的数据集中识别有效的、可实用的信息,并运用这些信息做出决策。
2 数据挖掘的分类
数据挖掘技能从起初的单一门类的知识逐步发展成为一门综合性的多学科知识,并由此产生了很多的数据挖掘方法,这些方法种类多,类型也有很大的差别。为了满足用户的实际需要,现对数据挖掘技能进行如下几种分类:
2.1 按挖掘的数据库类型分类
利用数据库对数据分类成为可能是因为数据库在对数据储存时就能够对数据按照其类型、模型以及应用场景的不同来进行分类,根据这种分类得到的数据在选取数据挖掘技能时也会有满足自身的方法。对数据的分类有两种情况,一种是根据其模型来分类,另一种是根据其类型来分类,前者包括关系型、对象-关系型以及工作型和数据仓库型等,后者包括时间型、空间型和Web 型的数据挖掘方法。
2.2 按挖掘的知识类型分类
这种分类方法是根据数据挖掘的功能来实施的,其中包括多种分析的方式,例如相关性、预测及离群点分析方法,充分的数据挖掘不但仅是一种单一的功能模式,而是各种不同功能的聚集。同时,在上述分类的情况下,还能够按照数据本身的特性和属性来对其进行分类,例如数据的抽象性和数据的粒度等,利用数据的抽象层次来分类时能够将数据分为三个层次,即广义知识的高抽象层,原始知识的原始层以及到多层的知识的多个抽象层。一个完善的数据挖掘能够实现对多个抽象层数据的挖掘,找到其有价值的知识。同时,在对数据挖掘进行分类时还能够根据其表现出来的模式及准则性和是否检测出噪声来分类,一般来说,数据的准则性能够通过多种不同的方法挖掘,例如相关性和关联分析以及通过对其观念描述和聚类分类、预测等方法,同时还能够通过这些挖掘方法来检测和排除噪声。
2.3 按所用的技能类型分类
数据挖掘的时候选取的技能手段千变万化,例如能够选取面向数据库和数据仓库的技能以及神经网络及其可视化等技能手段,同时用户在对数据进行分析时也会使用很多不同的分析方法,根据这些分析方法的不同能够分为遗传算法、人工神经网络等等。一般情况下,一个庞大的数据挖掘系统是集多种挖掘技能和方法的综合性系统。
2.4 按应用分类
根据数据挖掘的应用的领域来进行分类,包括财经行业、交通运输业、网络通讯业、生物医学领域如DNA等,在这些行业或领域中都有满足自身要求的数据挖掘方法。对于特定的应用场景,此时就可能需要与之相应的特殊的挖掘方法,并保证其有效性。综上所述,基本上不存在某种数据挖掘技能能够在所有的行业中都能使用的技能,每种数据挖掘技能都有自身的专用性。
3 数据挖掘中常用的方法
目前数据挖掘方法主要有4种,这四种算法包括遗传、决策树、粗糙集和神经网络算法。以下对这四种算法进行一一解释说明。
遗传算法:
该算法依据生物学领域的自然选择规律以及遗传的机理发展而来,是一种随机搜索的算法,利用仿生学的原理来对数据知识进行全局优化处理。是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。这种算法具有隐含并行性、易与其它模型联合等优点从而在数据挖掘中得到了应用。
决策树算法:
在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也对照明显,在利用这种算法对数据进行分类时相当迅速,同时描述起来也很简明,在大规模数据处理时,这种方法的应用性很强。
粗糙集算法:
这个算法将知识的理解视为对数据的划分,将这种划分的一个总体叫做观念,这种算法的基本原理是将不够精确的知识与确定的或者正确的知识进行类别同时进行类别刻画。
神经网络算法:
在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也对照明显,在利用这种算法对数据进行分类时相当迅速,同时描述起来也很简明,在大规模数据处理时,这种方法的应用性很强。光缆监测及其故障诊断系统对于保证通讯的顺利至关重要,同时这种技能方法也是顺应当今时代的潮流必须推广使用的方法。同时,该诊断技能为通讯管网和日常通讯提供了可靠的技能支持和可靠的后期保证。
转载自网络