DataMining
DM的任务
主要分两大类:预测、描述。涉及到的算法如下图:
- 预测任务:任务的目的是根据其他属性的值,预测特定属性的值。 其中:
被预测属性称为:目标变量(target variable),或因变量(dependent variable),
用来做预测的属性称为:说明变量(explanatory variable),或自变量(indepentent variable)。
- 描述任务:目的是导出概况数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性DM任务通常是探查性的,需要后处理技术验证和解释结果。
(1)关联分析 (AssoeiationAnalysis)两个或两个以上数据项的取值之间存在某种规律性,就称为关联,可以建立起这些数据项的关联规则。数据关联是数据库中存在的一类重要的、可被发现的知识,它反映一个事件和其他事件之间依赖或关联。如果两项或多项属性之间存在关 联,那么其中一项的属性值就可以依据其他属性值进行预测.
例如,买啤酒的男士顾客中可能还买尿布,这就是一条关联规则。在商场中将这两样物品摆放在一起销售,将会提高销售量。在大型数据库中,这样的关联规则可以产生很多,这就需要进行筛选。一般地,给定一个事务数据库,关联规则挖掘问题通过用户指定“最小支持度”和“最小可信度”两个闭值来寻找强关联规则。
(2)聚类分析(Clustering)聚类就是将数据对象分组成为多个类或簇,划分的原则是在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。与分类不同的是,聚类操作中要划分的类是事先未知的,类的形成完全是数据驱动的,属于一种无指导的学习方法。聚类方法包括统计分析方法、机器学习方法和神经网络方法等。在统计分析方法中,聚类分析是基于对象之间的几何距离。这种聚类方法是一种基于全局比较的聚类,它需要考察所有的个体才能决定类的划分。因此,它要求所有的数据必须预先给定,而不能动态地增加新的数据对象。在机器学习方法中,聚类是无导师的学习。此时距离不再是传统方法中的几何距离,而是根据概念的描述来确定的,又称为概念聚类,当聚类对象动态增加时,概念聚类则称为概念形成。在神经网络中,自组织神经网络方法用于聚类。如ART模型、Kohonen模型等,这是一种无监督学习方法。当给定距离阂值后,各样本按阂值进行聚类.
(3)分类(Classifieation)分类是数据挖掘中应用得最多的任务。分类就是找出一个类别的概念描述,并用这种描述来构造模型(一般用规则或决策树模式表示)。类别的概念描述代表着这类数据的整体信息,也就是该类的内涵描述。类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同特征的描述。辨别性描述是对两个或多个类之间的区别的描述。分类的过程是:分析输入数据,通过在训练集中的数据所表现出来的特性,经过有关算法,为每一个类找到一种准确的描述或者模型,并使用这种类的描述对未来的测试数据进行分类。
(4)预测(Predieation)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。典型的预测方法是近年发展起来的神经网络方法(如BP模型),它的模型表示是前项反馈神经网络模型,实现了非线性样本的学习,其本质上是一种非线性判别函数。分类、回归、神经网络方法都可以进行预测,但分类一般用于离散数值;回归预测用于连续数值;神经网络方法既可以用于连续数值,也可以用于离散数值预测。
(5)时序模式(Time一 SeriesPattern)时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。在时序模式中,需要找出在某个最小时间内出现比率一直高于某一最小百分比(最小支持度闭值)的规则。这些规则会随着形势的变化作适当的调整。时序模式中,一个有重要影响的方法是“相似时序”。用“相似时序”的方法,要按时间顺序查看时间事件数据库,从中找出另一个或多个相似的时序事件。
(6)偏差分析(Deviation)数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。
WebDM
(“成功的数据挖掘主要在于加深对商业规则和数据来源质量的了解,而不是具体的算法”—[3])
- 特点:
- 数据源异构;
- 数据源分布式存储;
- 数据模型半结构化;
- 数据内容丰富多样;
- 数据增长、更新速度快。
- 需解决问题:
- 数据查询;
- (异构)数据集成。
- 对WebDM的要求:
- 高效率:应对海量数据与快速更新;
- 强并行性:应对分布式的海量数据;
- 实时动态性:应对过时动态信息,提供准确决策支持;
- 有效组织管理数据:因为Web信息的半结构化数据难以映射到一个固定模式的数据库。
- WebDM的分为三类:
- 1.Web内容挖掘(Web Content Mining)——组成网页内容成分的信息;
2.Web结构挖掘(Web Structure Mining)——网页之间的链接信息;
3.Web使用挖掘(Web Usage Mining)——用户如何使用链接的信息。
【词汇表】
frame 框架
Web crawlers 网络爬行者
Snapshot 快照
Indexers 索引者
Time frame 时间片
hub 中枢
authority 权威
stickiness 持续度
slippery 一带而过的
hits 点
session 会话
cluster 簇
参考资料:
[1] Pang-Ning Tan Michael Steinbach Vipin Kumar等著,范明 范宏建等译.数据挖掘导论[M].人民邮电出版社.2006年5月第一版.
[2]陈安 陈宁 周龙骧等著,数据挖掘技术及应用[M].科学出版社.2006年3月第一版.
[3]Gordon S.Linoff Michael J.A.Berry著,神钧毅,宋擒豹,燕彩蓉等译.Web数据挖掘:将客户数据转化为客户价值[M].电子工业出版社.2004年3月第1次印刷.


