数据挖掘的任务分为描述性任务(关联分析、聚类、序列分析、离群点等)和预测任务(回归和分类)两种。本文简介预测任务。
数据挖掘预测与周易预测有相似之处。周易建立在阴阳二元论基础上,对天地万物进行性状归类(天干地支五行论),精确到可以对事物的未来发展做出较为准确的预测。许多学者认为周易理论依据是万事万物的相似性、关联性和全息性原理。这三个原理已被现代科学所证实。全息性是指事物的某一局部包含了整体的信息。例如,法医工作者对一根毛发进行化验,得出受害者或嫌疑人的许多身体特征。
周易预测通过对历史事件的学习来积累经验,得出事物间的相似性和关联性,从而对事物的未来状况做出预测。数据挖掘预测则是通过对样本数据(历史数据)的输入值和输出值关联性的学习,得到预测模型,再利用该模型对未来的输入值进行输出值预测。一般地,可以通过机器学习方法建立预测模型。DM(Data Mining)的技术基础是人工智能(机器学习),但是DM仅仅利用了人工智能(AI)中一些已经成熟的算法和技术,因而复杂度和难度都比AI小很多[2]。
机器学习:假定事物的输入、输出之间存在一种函数关系y=f(x, β),其中β是待定参数,x是输入变量,则y=f(x, β)称为学习机器。通过数据建模,由样本数据(一般是历史数据,包含输入值和输出值)学习得到参数β的取值,就确定了具体表达式y=f(x, β),这样就可以对新的x预测y了。这个过程称作机器学习。
数据建模不同于数学建模,它是基于数据建立数学模型,它是相对于基于物理、化学和其他专业基本原理建立数学模型(即机理建模)而言的。对于预测来说,如果所研究的对象有明晰的机理,可以依其进行数学建模,这当然是最好的选择。但是实际问题中,一般无法进行机理建模。但是历史数据往往是容易获得的,这时就可使用数据建模。
典型的机器学习方法包括:决策树方法、人工神经网络、支持向量机、正则化方法。
1 决策树方法
决策树算法的典型代表是ID3算法(Iterative Dichotomiser 3,迭代二叉树3代)是由Ross Quinlan与1986年提出。ID3算法建立在奥卡姆剃刀的基础上:越是小型的决策树越优于大的决策树(简单理论)。尽管如此,该算法也不是总是生成最小的树形结构,而是一个启发式算法。其核心思想是选取具有最高信息增益的属性(相对于信息熵最高的属性,可参考维基百科中二者的计算公式)作为当前节点的分裂属性。ID3算法构造的决策树对样本的识别率较高。
ID3算法的不足:1)ID3在搜索过程中不能回溯重新考虑选择过的属性,从而可能收敛到局部最优解而不是全局最优解;2)使用信息增益度量每次都选择取值数目最多的属性,这未必合理;3)ID3只能处理离散值,不能处理连续值;4)当训练样本过小或包含噪声时,容易导致过度拟合(overfitting)。
针对ID3的不足,Quinlan于1993年提出了ID3的改进算法:C4.5算法。C4.5主要特点:用信息增益比率作为选择标准;合并连续属性的值;可以处理缺少属性值的训练样本;运用不同的剪枝策略避免过度拟合;K折交叉验证等。剪枝策略可分为预剪枝(pre-pruning)和后剪枝(post-pruning)。预剪枝通过建立某些规则限制决策树的充分生长,后剪枝则是等决策树充分生长完毕后再剪去那些不具有一般代表性的叶节点或者分枝。实际应用中更多采用后剪枝。
2 人工神经网络
人工神经网络,Artificial Neural Networks(ANNs),是对人脑若干基本特性的抽象。它由大量神经元通过丰富的连接构成多层网络,用以模拟人脑功能。实际上,神经网络是不依赖于模型的自适应函数估计器,可以实现任意的函数关系。定量和定性的信息都可贮存在网络内的各神经元中,也就是说,它可以同时处理定量和定性知识,可以用于回归和分类。而且网络有很强的稳定性和容错性。
神经网络方法模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。主要包括三种神经网络模型[2]:
(1)前馈式网络。它以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别方面。
(2)反馈式网络。它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。
(3)自组织网络。它以ART模型、Koholon模型为代表,用于聚类分析等方面。
神经网络的不足:神经网络容易陷入局部最小点,易出现过度拟合而使得泛化能力较差;网络拓扑结构的确定没有成熟的理论指导;神经网络训练代价很高;其解不具有稀疏性且难以解释。
3 支持向量机
支持向量机,Support Vector Machines(SVM),是20世纪90年代Vapnik等人根据统计学习理论中结构风险最小化原则提出的一种机器学习方法。SVM最初是从分类问题提出的,后来扩展到求解回归问题。SVM是从线性可分的二分类问题开始的,再逐步向线性不可分问题、非线性问题深入,最后推广到线性和非线性回归问题建模。
对于二次规划的求解可采用SMO算法。对于回归问题,需要依靠不敏感损失函数。
SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势。
支持向量机方法是在机器学习理论指导下专门针对有限样本设计的学习方法,不仅对于小样本问题可以得到最优解,而且SVM模型具有很强的泛化能力。更为突出的是SVM最终转化为求解一个凸二次规划问题,在理论上可以得到全局最优解,克服了一些传统方法(如神经网络方法)可能陷入局部极值的不足。虽然SVM与神经网络相比有明显优势,但在实际应用中还存在一些问题,比如对于大规模的数据集,由于SVM要解凸二次规划而使算法效率很低,甚至无法进行;SVM对奇异值的稳健性不高;SVM的解不具有稀疏性,存在着大量冗余支撑向量;其参数没有好的选择策略。
4 正则化方法
针对上述神经网络和SVM的不足,提出了一些满足不同性能要求的基于正则化的框架模型,其典型代表有Lasso模型(Least Absolute Selection and Shrinkage Operator模型)和推广的Lasso模型、L1/2正则化模型及其迭代阈值算法等。
Lasso方法用模型系数的绝对值函数作为惩罚来压缩模型系数,使绝对值较小的系数自动压缩为0,这样得到的模型具有稀疏性,从而同时实现显著性变量的选择和对应参数的轨迹。Lasso模型采用平方损失函数而导致其稳健性较差,而且在很多应用场合(如分类问题)损失函数不宜采用平方损失,因此对Lasso模型进行推广,使用其他损失函数,可应用于回归问题和分类问题。
Lasso模型和推广的Lasso模型都属于L1正则化模型,是凸优化问题,有很多算法可以求解,但梯度Boosting算法最实用。L1/2正则化模型比L1正则化模型的解更稀疏,虽然它是非凸优化问题,难以求解,但使用L1/2迭代阈值算法可巧妙地对其求解。
参考资料:
[1]《大话数据挖掘》
[2]《数据仓库技术与联机分析处理》
分享到:
相关推荐
信息技术在全球银行业的应用(六)——数据挖掘技术及其应用.kdh 数据挖掘技术及其应用1.caj 数据挖掘 企业决策分析的有效工具.caj 面向属性的RST在数据挖掘中的应用.caj 数据挖掘与决策支持系统的关系.caj 基于相联...
EIS 环境下的数据挖掘技术的研究.caj FCC油品质量指标智能监测系统的数据挖掘与修正技术.caj IDSS 中数据仓库和数据挖掘的研究与实现.caj InternetWeb数据挖掘研究现状及最新进展...预测性模型中的一种数据挖掘算法.kdh
EIS 环境下的数据挖掘技术的研究.caj FCC油品质量指标智能监测系统的数据挖掘与修正技术.caj IDSS 中数据仓库和数据挖掘的研究与实现.caj InternetWeb数据挖掘研究现状及最新进展...预测性模型中的一种数据挖掘算法.kdh
EIS 环境下的数据挖掘技术的研究.caj FCC油品质量指标智能监测系统的数据挖掘与修正技术.caj IDSS 中数据仓库和数据挖掘的研究与实现.caj InternetWeb数据挖掘研究现状及最新进展...预测性模型中的一种数据挖掘算法.kdh
包含数据分析和数据挖掘的学习代码和实战代码 本项目很多内容属于边学边试。参考了书籍,但是很多代码存在过时和错误均被我修改。 数据挖掘是最近几年才出现的一个名词,其归根到底的目的就是经过一系列手段处理...
数据挖掘基础教程 第一章__数据挖掘基本知识 第二章__数据预处理 第三章__定性归纳 第四章__分类与预测 第五章__关联挖掘 第六章__聚类分析 第七章__复杂数据的挖掘 美河提供.机器学习与数据挖掘方法和应用
朱明著数据挖掘技术pdf电子书,共七章,介绍数据挖掘相关概念技术。第一章 数据挖掘基本知识,第二章 数据预处理,第三章 定性归纳,第四章 分类与预测,第五章 关联挖掘,第六章 聚类分析,第七章 复杂数据的挖掘
该文档总结了常用的数据挖掘的算法原理以及Python实践内容,为初学者提供良好的参考资料,需要的朋友可看看! 第一部分 数据挖掘与机器学习数学基础3 第一章 机器学习的统计基础3 第二章 探索性数据分析(EDA).11 ...
本书适合有志于从事数据挖掘的初学者,需要的朋友可看看 第一部分 数据挖掘与机器学习数学基础3 第一章 机器学习的统计基础3 第二章 探索性数据分析(EDA) .11 第二部分 机器学习概述14 第三章 机器学习概述14 第...
第一章 数据挖掘基本知识.pdf 第二章 数据预处理.pdf 第三章 定性归纳.pdf 第四章 分类与预测.pdf 第五章 关联挖掘.pdf 第六章 聚类分析.pdf 第七章 复杂数据的挖掘.pdf 附:数据挖掘读书笔记(一二三四章).doc
数据挖掘实验报告 学院名称 计算机科学与技术学院 专业名称 学生姓名 学号 5 指导教师 二〇一六年十一月 数据挖掘实验报告全文共11页,当前为第2页。数据挖掘实验报告全文共11页,当前为第2页。实验内容 数据挖掘...
完整版 重庆大学 商务智能课程 BI教程 大数据与数据挖掘教程 第7章_数据挖掘常用算法-分类与预测-关联规则(共48页).ppt 完整版 重庆大学 商务智能课程 BI教程 大数据与数据挖掘教程 第7章_数据挖掘常用算法-分类与...
验六关联规则 1. 实验目标 使用 SSAS 进行关联规则挖掘实验 2 . 实验要求 ( 1) 按 “ 实验内容 ” 完成操作 , 并记录实验步骤 ; ( 2 ) 回答 “ 问题讨论 " 中的思考题 , 并写出本次实验的心得体会 : ( 3 )...
大数据时代数据挖掘与分析 讲师 杨庆跃 2015.8.11 目录 一、导入:移动互联网、云计算、物联网 二、什么是大数据 三、大数据应用现状与应用热点 四、数据分析与挖掘概述 六、聚类分析--客户分群 五、关联分析--交叉...
完整版 重庆大学 商务智能课程 BI教程 大数据与数据挖掘教程 第7章_数据挖掘常用算法-分类与预测-关联规则(共48页).ppt 完整版 重庆大学 商务智能课程 BI教程 大数据与数据挖掘教程 第7章_数据挖掘常用算法-分类与...
人工神经网络(Artificial Neural Network,ANN)是对人类大脑系统特性的一种描述。简单地讲,它是一种数学模型,可以用电子线路来实现,用计算机程序来模拟...神经网络通过对大量历史数据的计算来建立分类和预测模型。
使用R语言对英雄联盟2020年中韩联赛数据进行数据预处理,分析,可视化,描述性统计,图形化展示(ggplot2),推断性统计,并且使用了帕累托方法分析数据特征。 报告中体现分析目标,解决思路,步骤,核心r函数,...
第一章 数据挖掘基本知识 第二章 数据预处理 第三章 定性归纳 第四章 分类与预测 第五章 关联挖掘 第六章 聚类分析 第七章 复杂数据的挖掘.
利用数据仓库,企业可以对客户行为的分析与预测,从而制定准确的市场策略、发现企业的重点客户和评价市场性能,并通过销售和服务等部门与客户交流,实现企业利润的提高。对于客户量大、市场策略对企业影响较大的企业...