论文网首页|会计论文|管理论文|计算机论文|医药学|经济学论文|法学论文|社会学论文|文学论文|教育论文|理学论文|工学论文|艺术论文|哲学论文|文化论文|外语论文|论文格式
中国论文网

用户注册

设为首页

您现在的位置: 中国论文网 >> 理科论文 >> 其他理学论文 >> 正文 会员中心
 物理论文   统计学论文   数学论文   地理论文   农林学论文   其他理学论文   化学论文   生物学论文   环境学论文
 自动化专业
基于粗糙集的关联规则挖掘在教师成长中的应用
摘  要   关联规则挖掘是数据挖掘中的一个重要 问题 ,在最近几年被广泛 研究 。本文将粗糙集 理论 及 方法 引入高校教师成长信息,通过属性约简降低属性纬数,然后基于粗糙集理论进行关联规则挖掘,得出了一些有益的结论,为拓展粗糙集的 应用 领域做出了有益的探索。     关键词   粗糙集;关联规则;教师成长;区分矩阵;属性约简  
1  引言     粗糙集理论(rough set)是由波兰数学家z.pawlak 在80年代初提出的一种处理模糊和不精确性问题的新型数学工具。利用粗糙集理论进行数据挖掘,重要的一点就是基于粗糙集理论的属性约简。通过约简操作降低属性的纬数, 总结 出适用于决策支持的知识规则,是粗糙集理论最重要的应用之一。     关联规则挖掘是数据挖掘中的一个重要问题,随着全球范围内数据库中存储的数据量迅速增大,数据间的关联规则往往过于庞大而难以 分析 ,如何有效的得到有意义的关联规则成为研究热点。本文以高校信息化为应用背景,将基于粗糙集理论的数据挖掘技术应用于高校教师成长过程,得到实际可用的关联规则,为管理者提供决策支持。 2  基本概念 2.1  粗糙集理论的基本概念     粗糙集理论将分类与知识联系在一起,认为知识源于有认知能力的主体的分类能力,并用等价关系形式化表示分类。wWw.11665.CoM     定义1:粗糙集理论中定义信息系统为一个如下四元组:s=(u,a,v,f),其中u=(x 1 ,x 2 ,…,x n )是对象集,即论域;a是属性集合,a=c∪d,且c∩d=φ,其中c为条件属性,d为决策属性;v为属性a的值域;f是u×a→v的映射,它为u中各对象的属性指定唯一值。s又被称为决策表。     定义2:在信息系统s中,对于一属性集i∈a,可构造对应的二元等价关系。ind(i){<x,y>∈u×u|νa∈i,有a(x)=a(y)},称ind(i)为由i 构造的不可分辨关系。不可分辨关系实际上就是i上的等价关系。因此,针对属性集i上的不可分辨关系,u可划分为几个等价类,用u/ind(i)表示。     定义3:约简定义为不含多余属性并保证分类正确的最小条件属性集。假设条件属性集c的简约是c的一个非空子集 c′,c和c′必须满足以下两个性质:     (1)ind(c,d)=ind(c′,d),不存在c″ c′有ind(c″,d) =ind(c′,d)。     (2)一个决策表可能同时存在几个约简,c的约简的集合记作red(c)。 这些约简的交集定义为决策表的核(core),core(c)=∩red(c)核中的属性是 影响 分类的重要属性。     定义4:信息系统s中关于属性集c的区分矩阵m(c)=(m ij )n×n定义为:

m(c)=(m ij ) n ×n 是代表了区分x i ,x j 的完整信息。 2.2  关联规则     关联规则是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构,通过分析数据或记录间的关系,决定哪些事情将一起发生。 定义6:设i = {i 1 ,i 2 ,…,i n }是项的集合。包含k个项的项集称作k项集。设d是数据库记录的集合,其中每个事务t是项的集合,且t i。设x是一个项集,事务t包含x当且仅当x t。     关联规则是形如x y的蕴涵式,这里x i,y i,且x∩y=φ。x称为规则的左部或规则的前提(简记lhs),y称为规则的右部或结论(简记rhs)。     度量规则的参数是支持度(support)与置信度(confidence)。支持度是指数据集中的实例同时包含条件属性与决策属性的共同概率,支持度揭示了规则的重要性。置信度表示实例在包含条件属性的前提下,也包含决策属性的条件概率,它揭示了规则的可信度。在粗糙集理论中支持度与置信度可以表示为:

    其中p(x)表示是指x在数据d中出现的概率,其余雷同。support(x y)指x、y在d中同时出现的概率;confidence(x y)表示在x出现的前提下y出现的条件概率。如果得到的规则同时满足支持度不小于支持度阈值和置信度不小于置信度阈值,则该规则有意义。 3  基于粗糙集的关联规则挖掘模型     本文应用基于粗糙集的关联规则的挖掘过程分为三步:数据预处理,属性约简与关联规则的挖掘,见图1。     (1)数据预处理:通过对高校人事数据的初始信息进行数据清洗,缺失值处理,转换及数据选择,获取初始信息表,且初始表转换为粗糙集形式,并明确条件属性集和决策属性;     (2)属性约简:对条件属性进行约简,删除多余属性,用区分矩阵来完成约简和求核,在此基础上生成约简属性集;     (3)关联规则挖掘:输入支持度阈值和置信度阈值,根据数据约简结果,利用粗糙集理论 文献 [6]中的算法,进行关联规则的挖掘。


图1 基于粗糙集的关联规则模型
4 基于粗糙集的数据挖掘技术在教师成长中的应用     随着信息化在 社会 各方面的迅速普及,高校在近几年来已经掌握了大量的教师信息数据,并形成了相应的教师信息数据库。然而,面对如此海量的信息,高校管理者如何利用,如何从中发现对高校教师队伍建设有实际指导意义的 规律 ,特别是如何才能将人才的引进及培养与社会的需求正确结合?本文用数据挖掘技术在这方面做了一定的探索和研究,期望能得到一些有益的启示。     下面本文就以高校教师成长信息为例(本文以职称教授及副教授作为高校人才成长的标志,根据参加工作时间的长短作划分为成长的快慢),说明基于粗糙集的关联规则挖掘算法的实施过程。     根据上述构建的数据挖掘模型,利用启发式属性约简算法对高校教师数据进行约简。首先进行数据预处理,其次求出约简或近似约简,并在此基础上根据值约简等减少属性和个体数目,最后提取规则应用于新对象的分析和预测。     1)数据预处理     要用基于粗糙集的数据挖掘方法进行知识发现,就需要首先组织好数据表。本文以某高校教师数据,采用关系数据库模型,经关系数据库的导入及连接并进行抽象、离散化等预处理。将影响教师成长的因素:性别、 政治 面貌、专业、第一学历、最高学历、毕业学校、年龄、学历变动、现聘职称、教学能力和科研能力作为系统的条件属性c,而将教师的成长速度作为决策属性d。通过属性选择与处理后的信息表示如表1所示:
表1  属性离散化表示 字段名称 数据类型 说明 性别 float(2) 1--男,2—女 政治面貌 float(2) 划分为四个等级:1-党员、2-共青团员、3-群众、4民主党派 第一学历 float(2) 分为四个等级:1-博士、2-硕士、3-本科、4-本科以下 最高学历 float(2) 分为四个等级:同上 毕业学校 float(2) 概化为三个等级:1-国外高校、2-重点高校、3-普通高校 现聘职称 float(2) 分为两个等级:1-教授、2-副教授 评定年龄 float(2) 1-[31,35]、2-[36,40]、3-[41,45]、4-[46,50]、5-大于50 成长 float(2) 1-快、2-中、3-慢 学历变动 float(2) 1-是、0-否 专业 float(2) 划分为两类:1-理科、2-文科 教学能力 float(2) 离散化为三个等级:1-高、2-中、3-一般 科研能力 float(2) 离散化为三个等级:1-高、2-中、3-一般
   

以上划分等级的标准是根据以往实际经验和需要而确定,按表1的规则概化和离散化原始数据,得到预处理后的数据表如表2所示:
表2  预处理后的教师数据 属性   u c d 性别 专业 政治 面貌 第一 学历 最高 学历 毕业 学校 现聘 职称 评定 年龄 学历 变动 教学 能力 科研 能力 成长 1 2 2 4 4 3 2 2 3 1 3 3 3 2 2 1 3 3 2 2 2 1 1 3 2 2 3 2 1 1 3 2 2 2 1 1 2 3 1 4 1 1 1 2 1 2 1 2 1 2 2 1 5 1 2 3 3 2 2 1 3 1 1 3 2 …                         227 1 2 3 4 3 3 1 4 1 2 3 3 228 2 2 3 4 3 2 2 3 1 2 3 2
    2)属性约简     core = {毕业学校,评定年龄, 教学能力,科研能力,第一学历},然后通过 计算 属性重要性,得到性别、专业和政治面貌几乎为零,即性别、专业、政治面貌和最高学历与本决策表的决策几乎无关可以省略。因此得到的约简为r={毕业学校,评定年龄, 教学能力,科研能力,现聘职称, 第一学历, 学历变动,最高学历}。这样提高了后续规则提取的效率。     3)关联规则挖掘     根据上面得到的约简,通过属性之间的隐含关系来挖掘关联规则,给定支持度阈值5%,置信度阈值80%,可得到同时满足支持度阈值和置信度阈值的项目集生成的关联规则有:     (1)(评定年龄 = 1)&(毕业院校 = 2)=>(成长 = 1);     (2)(第一学历 = 2)&(科研能力 = 1 )=>(成长 = 1);     (3)(最高学历=3) & (学历变动=1) & (科研能力= 3) => (成长速度= 3)     (4)(最高学历= 1) & (教学能力= 2) => (成长速度= 1);     (5)(最高学历= 2) & (教学能力= 3) => (成长速度= 2);     (6)(毕业学校= 2) & (评定年龄= 1) & (科研能力= 3) =>(成长速度 = 1);     (7)(现聘职称= 2) & (第一学历= 4) & (最高学历= 3) =>(成长速度= 3);     (8)(第一学历= 3) & (毕业学校= 3) => (成长速度= 2);     (9)(第一学历 = 2) & (学历变动 = 1) => (成长 = 1);     对以上规则的解释如下:     由第一条规则可知:毕业于重点高校的、第一学历是硕士的教师,评职称时在30~35岁之间,有80%以上概率可以断定教师成长快;由第二条规则可知:学历为硕士,科研能力高,则可断定该教师的成长速度快;第三条规则说明如果通过进修最高学历才达到本科,有82%的几率断定教师的成长速度慢;第四条规则说明最高学历是博士,教学良好,则有92%的几率断定教师成长速度快;第五条规则说明最高学历是 研究 生且教学能力一般,则有85%的概率断定教师的成长速度适中;第六条规则说明毕业学校是重点院校、年龄在31~35岁之间、科研能力低,即有81%的概率断定该教师成长快速;由第七条规则说明职称是副教授、第一学历是本科以下且最高学历是本科,则有82%的概率断定该教师成长速度慢;第八条规则表示第一学历是本科、毕业学校是普通高校,即有82%的几率断定该教师成长速度适中;由第九条规则可知:第一学历是硕士的、学历提高的教师,成长速度快。     由以上规则可以得出:第一学历、毕业学校、学历变动、最高学历、科研能力、教学能力及年龄对教师成长的快慢有显著 影响 。第一学历是硕士的教师,科研能力较高的教师,属于成长速度快的类型;而第一学历在本科及本科以下的教师,在41~45岁才评上副教授,相对来说成长速度较慢(评为副教授的平均年龄是38岁左右);而最高学历是博士,教学能力良好的教师,成长速度快;重点高校及国外高校毕业的教师,参加工作时间为10~14年职称就被评为教授或副教授(评定副教授参加工作的平均时间为16年),其成长速度显然高于普通高校毕业生。因此,如果学校希望教师能够快速成长,则在人才引进时就要限制引进教师的毕业学校和第一学历。 5  结束语     粗糙集 理论 作为一种新型的数据挖掘工具,已经很好的体现了它的优势。本文简要介绍了粗糙集理论的基本知识, 应用 基于粗糙集理论的关联规则挖掘算法对教师信息数据实例进行 分析 ,挖掘出人才成长的相关要素,对高校人才引进与培养具有一定的指导意义。 参考 文献 [1] wang jue,miao duoqian. analysision  attribute reduction strategies of rough set [j] .journal of  computer science & technology, 1998, 13 (2) : 189-193 [2]王国胤.rough 集理论与知识获取[m] .西安:西安 交通 大学出版社,2001 [3]han jiawei , kamber m.data mining concepts and techniques[m] . morgan kaufmann publishers,2001 [4]白秀玲,崔林,王向阳.一种基于关联规则挖掘的粗糙集约简算法[j] .计算机工程与应用, 2003;39(10) : 185~186 [5]童舟,罗可.基于rough set 带结论域的关联规则挖掘[j] .计算机工程与应用,2006;25(4):166~169 [6]王旭仁,许榕生.基于粗糙集理论的关联规则挖掘研究及应用[j] .计算机工程,2005;31(20):90~92 [7]李静,王建军.数据挖掘在高校教学信息化管理中的应用探讨[j] . 科技 信息,2005(08):300~301
  • 上一篇理学论文:
  • 下一篇理学论文:
  •  作者:姜云苹1 葛世伦1 [标签: 粗糙集 关联规则 中的 应用 ]
    姓 名: *
    E-mail:
    评 分: 1分 2分 3分 4分 5分
    评论内容:
    发表评论请遵守中国各项有关法律法规,评论内容只代表网友个人观点,与本网站立场无关。
    关注欧盟农药禁限用政策— 对农药进行监管须…
    基于县级森林经营的高保护价值森林区划
    基于CDIO理念统计学专业导论课程的教学方法…
    基于黑箱理论的高职物理模块化教学改革
    基于建构主义理论的高校物理实验教学研究
    基于单片机的畜禽舍环境监控系统的研究
    基于电子信息化视角下的农业档案管理
    基于高中物理知识揭秘医疗中的滴液现象
    基于MapGIS空间分析功能的建瓯市地质灾害易…
    论基于循环经济理念的城市环境规划的思考
    基于绿色化学理念下的无机化学实验
    基于“绿色化学”理念的理工科院校药学相关…
    | 设为首页 | 加入收藏 | 联系我们 | 网站地图 | 手机版 | 论文发表

    Copyright 2006-2013 © 毕业论文网 All rights reserved 

     [中国免费论文网]  版权所有