聚类分析论文范文(精选3篇)

一世相伴论文网 2023-08-11 06:43

聚类分析论文篇1

1.1环境友好型社会概念目前学术界对于环境友好型社会的定义尚未统一,论文根据简新华的研究,认为环境友好型社会是指人们在生产和生活的各种活动中尽量减少废物排放,有效防止环境污染,不断保护和优化自然生态环境的社会,也就是人与环境和谐的社会,及人类保护改善优化环境、环境能够支撑人类社会经济可持续发展的社会。

1.2评价指标体系在借鉴简新华的综合评价指标体系基础上,并遵循评价指标体系构建的科学性、客观性、可比性、层次性和可操作性等五个原则和参考以往学者对相关具体指标的选择,文中从影响区域环境影响总量、环境影响发展和环境保护潜力等3方面,构建了环境友好型社会综合评价指标体系。

1.3数据来源与处理文中的数据资料,来自于2011年[中国统计年鉴]、2011年[中国城市统计年鉴]、2011年[中国城市竞争力年鉴]、2011年[中国城市能源统计年鉴]等,部分数据是整理计算后得出的结果。

1.4评价方法文中首先采用因子分析法,对我国31省级行政区域的环境友好型社会水平进行综合评价。因子分析在SPSS17.0软件环境下进行。其次,在因子分析的结果基础上,对各省市区域的环境友好型社会发展状况进行聚类分析。采用HierarchicalCluster的聚类方法,运用离差平方和法(Ward'smethod)计算类与类之间距离,选择欧式距离的平方(SquaredEuclideanDistance)进行聚类,最终得出聚类分析结果,并用Arc-GIS9.2软件呈现空间差异。

2结果与分析

2.1因子分析通过对评价对象的3个二级指标下的23个三级指标进行环境友好型社会程度综合评价。

2.2聚类分析与空间分异在因子分析基础上,进行样本聚类分析,并利用ArcGIS9.2软件显示量化分类结果的空间分异特征。聚类方法选择Ward法,距离测试采用欧氏距离平方法,利用SPSS的系统聚类法进行聚类分析。根据聚类结果,可以将31个省市区域划分为3-8类如果划分太少的类别(如分为3类或4类),则无法考察类别之间的具体差异,如果选择较细的类别划分(如分为7类或8类),则某一类别中含有的省份过少,更多地表达了特殊性。为了体现类型之间的差异性,又保证不同类型包含省份的均匀性,本课题将31个省份分为5类,并用ArcGIS9.2软件分析得出空间差异

3讨论

(1)为了解决环境友好型评价指标体系缺乏针对性的问题,文中在环境友好型社会概念基础上,从环境影响总量、环境影响发展和环境保护潜力等三个方面,提出了由23个既相互联系又相互独立并能进行量化的指标构成的环境友好型社会综合测度指标体系。通过采用2011年度中国统计年鉴和各行业和能源产业统计年鉴数据基础上,对中国31个省级行政区的环境友好型社会发展状况进行了综合评价和聚类分析,研究结果与当前中国环境生态质量的现状有较好的一致性,这也说明了该指标体系具有一定科学性和完备性。

(2)尽管文中的研究为我们客观评价环境友好型社会提供了一种思路并具有一定的可操作性,但在选择环境影响总量、环境影响发展和环境潜力等具体指标时,大多是建立在数据的可获得性和以往的研究文献基础上,仍存在一定的主观性。并且所选用的统计分析方法也可以是多种多样的,也不仅仅是文中所提到的主成分因子分析法,还可以是诸如物元法、模糊评价法、神经网络法和层次分析法等,不同的分析方法势必会有不同的优点和不足之处,这需要后续学者做进一步探索。另外,从评价对象上看,文中选用的是省级空间分布尺度,这种尺度分类仍较为粗略,未来的研究可以进一步深化,比如县域等。

(3)从研究结果看,中国31个省级行政区的环境友好型社会发展状况可以划分为五类;在空间分布上,环境友好型社会程度相对较高的省份大多位于东部沿海地区和西部国界线附近的不发达地区,而环境友好型社会程度相对较弱的省份大多位于京津唐冀和晋等省份和地区,这一研究结果与张墨宁的调查结果相一致。造成这种现象的原因,或许与中国所处的发展阶段、区域主导产业结构和在很大程度上继续沿用以往粗放型经济发展模式有关,并值得相关政府决策部门的重视。

4结论

研究环境友好型社会综合评价指标体系,并利用该指标体系对中国省级行政区进行实证分析,既是对该指标体系的科学性、合理性、可操作性等的检测,也是对实证区域进一步推进环境友好型社会建设提供重要的决策参考和建议的依据。文中从环境影响总量、环境影响发展和环境保护潜力等三个方面构建环境友好型社会综合评价指标体系,并采用2011年度中国统计年鉴和各行业和能源产业统计年鉴数据基础上,对中国31个省级行政区的环境友好型社会发展状况进行了综合评价和聚类分析。研究结果发现,中国31个省级行政区的环境友好型发展程度可以划分为五大类。从空间分布来看,相对环境友好(即环境高度友好和相对友好)的省份均位于国界线边界的西部经济不发达地区和东部经济比较发达的地区,这些地区要么是经济发展仍处于初步阶段;要么是经济增长正向集约型转变,产业结构正向高级化转变的地区,人们的环保意识比较强,相关法律法规比较健全。而环境相对不友好的省份大多位于京津唐冀和晋等省份和地区,生态环境质量和承载力差,亟需转变经济发展方式。

聚类分析论文篇2

近年来,全国大学生数学建模竞赛迅速发展,为国家培养了大批应用型人才。但由于各地区教育水平不同、相关部门对竞赛的重视程度不同,导致各地区组织学生参加大学数学建模竞赛的规模不同,在该项赛事中取得的成绩差异比较显著。2013年全国大学生数学建模竞赛评选出的奖项有:赛区优秀组织工作奖9个,本科组高教社杯奖1个,专科高教社杯奖1个,本科组MATLAB创新奖1个,专科组MATLAB创新奖1个,本科组IBMSPSS创新奖1个,专科组IBMSPSS创新奖1个,本科组一等奖共273名,本科组二等奖共1292名,专科组一等奖共44名,专科组二等奖共211名[1],但成绩相对于参赛区分布不太均匀。分析各地区在2013年全国大学生数学建模竞赛中取得的成绩,明确各地区数学建模发展状况的差异和特点,将有利于相关部门从宏观上了解我国大学生数学建模竞赛的整体发展现状,分类制定相关政策[2-3],从而充分发挥数学建模的重要作用。

1建立综合评价指标体系

全国大学生数学建模竞赛现状的一个重要方面就是全国大学生数学建模竞赛获奖情况。依据全国大学生数学建模竞赛设置的奖项,遵循可比性原则,参考文献[4-5],选取x1-x7共七项评价指标,具体如下:x1:本科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x2:本科组一等奖获奖数;x3:本科组二等奖获奖数;x4:专科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x5:专科组一等奖获奖数;x6:专科组二等奖获奖数;x7:年度竞赛优秀组织工作奖获得情况。说明:鉴于本科组与专科组的高教社杯、MAT-LAB创新奖和IBMSPSS创新奖三类奖项每年只有一个队获奖,且基本不可重复获得(参见历年大学生数学建模竞赛获奖名单)故将其合并作为一类。

2数据资料依据

2013年全国大学生数学建模竞赛获奖名单,按指标对各个赛区的获奖情况统计如表1所示。

3R型聚类分析定性分析

七项指标之间的相关性。编写MAT-LAB程序如下:>>clc,clear>>symxy;>>x=xlsread(‘shuju.xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju.xls中,并将其赋于x>>y=corr(x)%输出七项指标间的相关系数矩阵(如表2所示)>>d=pdist(y,’correlation’);%计算相关系数导出的距离>>z=linkage(d,’average’);%按类平均法聚类>>h=dendrogram(z);%画聚类图(如图1所示)>>T=cluster(z,’maxclust',5);%把变量划分为5类>>fori=1:5tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有4;第2类的有56;第3类的有7;第4类的有23;第5类的有1。即:若将指标分为5类,则指标1、4、7各为一类,指标2、3为一类,指标4、5为一类。

4Q型聚类分析

4.1选取5个指标的分类从R型聚类分析分出的5类指标中各选一个,即选取5个指标体系,对33个参赛地区进行聚类分析。首先对变量数据进行标准化处理,采用欧氏距离度量样本间相似性,选用类平均法计算类间距离。在MATLAB命令窗口输入下列程序:>>symsxy;>>x=xlsread(’shuju.xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju.xls中,并将其赋于x>>x(:,[3,5])=[];%删除数据矩阵的3,5两列,即使用变量1,2,4,6,7>>x=zscore(x);%将数据标准化>>s=pdist(x);%每一行是一个对象,求对象间的欧式距离>>z=linkage(s,’average’);%按类平均法聚类>>h=dendrogram(z);%画聚类图(如图2所示)>>T=cluster(z,’maxclust’,3);%把样本点划分成3类>>fori=1:3;tm=find(T==i);%求i类的对象tm=reshape(tm,1,length(tm));%变成行向量>>fprintf(’第%d类的有%s\n’,i,int2str(tm));%现实分类结果>>end程序输出:第1类的有11318第2类的有2345678910111216171920212224252627282930313233第3类的有141523即:第一类:北京,福建,湖南;第三类:江西,山东,四川;第二类:其它地区。

4.2选取7个指标的分类考虑到指标2与指标3,指标5与指标6具有一定的独立性,若七个指标体系全部取用,将33个地区分为4类,程序输入如下:>>symsxy;>>x=xlsread(’shuju.xls’);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%画聚类图(如图3所示)>>T=cluster(z,’maxclust’,4);>>fori=1:4tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有116第2类的有6710151927第3类的有23489111213141718202223242528第4类的有521262930313233即:第一类:北京,河南;第二类:辽宁,吉林,江苏,山东,广东,陕西;第四类:内蒙古,海南,西藏,青海,宁夏,新疆,香港,澳门。4.3选取本科层次指标的分类只考虑本科层次取得的成绩,即选用指标1,2,3,对33个参赛地区进行聚类分析,从而明确掌握其本科阶段的差异,则有:输入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[4,5,6,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);>>h=dendrogram(z);%画聚类图(如图4所示)>>T=cluster(z,’maxclust’,3);>>fori=1:3;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有11318第2类的有101115161719222327第3类的有2345678912142021242526282930313233即:第一类:北京,福建,湖南;第二类:江苏,浙江,山东,河南,湖北,广东,重庆,四川,陕西;第三类:其它地区。4.4选取专科层次指标的分类只考虑专科层次取得的成绩,即选用指标4,5,6,对33个参赛地区进行聚类分析,从而明确掌握其专科阶段的差异,则有:输入程序:>>symsxy;>>x=xlsread(’shuju.xls’);>>x(:,[1:3,7])=[];>>x=zscore(x);>>s=pdist(x);>>z=linkage(s,’average’);%画聚类图(如图5所示)>>h=dendrogram(z);>>T=cluster(z,’maxclust',4);>>fori=1:4;tm=find(T==i);tm=reshape(tm,1,length(tm));>>fprintf(’第%d类的有%s\n’,i,int2str(tm));>>end程序输出:第1类的有14第2类的有1523第3类的有41927第4类的有1235678910111213161718202122242526282930313233即:第一类:江西;第二类:山东,四川;第三类:山西,广东,陕西;第四类:其余各地区。

5结束语

通过2013年高教社杯大学生数学建模竞赛奖项的设置建立评价指标体系,首先运用R聚类分析法对指标间的相关性做了分析。在此基础上,重新确立评价指标,对各地区在本年度该项赛事中取得的成绩进行四个方面的Q聚类分析,并给出分类结果。特别分别给出了本科阶段、专科阶段的分类。希望能够有利于赛区明确其在全国大学生数学建模竞赛中所处的位置、阶段差异等,从而有针对性的制定相关政策,充分发挥数学建模在人才培养中的重要作用。

聚类分析论文篇3

【关键词】教育技术学;学位论文;共词分析;聚类分析

【中图分类号】G420 【文献标识码】B 【论文编号】1009―8097(2009)11―0060―03

一 数据来源

[CNKI中国优秀硕士学位论文全文数据库]是目前国内相关资源最完备、高质量、连续动态更新的中国硕士学位论文全文数据库。

本文选择中国知网的[CNKI中国优秀硕士学位论文全文数据库]的免费题录数据库,于2009年5月6日,以“学科专业名称”作为检索途径,输入“教育技术学”作为检索词,学位年度从2004年到2008年,共检索到2078篇学位论文。

对检索结果用Excel、文本合并工具、ROST TFIDF(网页及文本特征词提取工具)进行数据统计,共得到3853个关键词。反复地进行人工校对,去除了对反应主题没有积极意义的整合、对策、现状、过程、影响、发展、启示等,最后确定了3620个关键词。选择词频数大于20的高频关键词共得到31个,如表1所示。

二 数据分析

1 构造共词矩阵

对31个关键词两两配对,统计他们在2074条文献中共同出现的频次,形成31×31的矩阵,如表2所示。

2 构造相异矩阵

为了消除频次悬殊造成的影响,用Ochiia系数将共词矩阵转化成相关矩阵,即将共词矩阵中的每个数字都除以与之相关的两个词总频次开方的乘积,其计算公式为[1]:

对角线上的数据是某关键词自身的相关程度,经上式计算均为1。为方便处理数据,用“1”与全部矩阵相减,得到表示两词间相异程度的相异矩阵[2],如表3所示。

3 利用SPSS进行聚类分析

将表3所示相异矩阵导入SPSS进行层次聚类分析,选择“组间平均链锁(Between group link age)”,即个体与小类中每个个体距离的平均值[3]。此种方法利用了个体与小类的所有距离的信息,克服了极端值造成的影响[4]。得到的凝聚状态表,如表4所示。

表4中,第一列表示聚类分析的第几步;第二、三类表示本步聚类中哪两个样本或小类聚成一列;第四列是个体距离或小类距离;第五、六列表示本步聚类中参与聚类的是个体还是小类,0表示样本,非零表示由第几步聚类生成的小类参与本步聚类;第七列表示本步聚类的结果将在以下第几步中用到[5]。例如,第一步中,1号关键词(信息技术)与29号关键词(课程整合)聚成一类,它们的个体距离是0.932,这个小类将在第18步中用到。同理可得其它聚类。这个聚类可以从图1所示树状图中展现出来。

树状图以躺倒树的形式展示了聚类分析中的每一次类的合并情况。SPSS自动将各类间的距离映射到0―25之间,并将凝聚过程近似地表现在图上。1号关键词(信息技术)与29号关键词(课程整合)距离最近,首先合成一类。其次是5号关键词(教学模式)和10号关键词(建构主义),以此类推。可见聚类过程与表4所示的凝聚状态图是一致的。

三 结论

结合高频关键词的共词矩阵和上述聚类过程,我国教育技术学硕士学位论文的研究热点可以概括为以下几类:

(1)信息技术与课程整合,包括关键词1、21、29、30。主要是围绕新课程改革目标,在课程学习活动中使用信息技术,以便更好地完成课程目标、培养创新精神和锻炼的实践能力,在研究过程中主要关注课程教学过程中把信息技术、信息资源、信息方法、人力资源和课程内容有机结合,共同完成教学任务。

(2)建构主义情境下的教学模式。包括关键词5、10。建构主义是当代学习理论的革命,是信息化教学模式建构的关键理论基础。其中建构主义学习流派、理念、基本要素、教学隐喻等成为广大硕士生研究的热点。但在发展建构主义的前提下也出现了很多对建构主义的反思。

(3)教师教育技能培训、教师教育信息化。包括关键词4、23、19、8。FD(教师教育教学能力开发)是既免费师范生教育及教育信息化背景下备受硕士研究生关注的热点。涉及的内容有利用技术改善教师技能,培训教师,优化教育资源,提高教师信息素养等,这对提高全国教师技能水平具有深远意义。

(4)现代远程教育。包括关键词9、15。网络环境下的远程教育各加体现开放大学的开放性,确保学习型社会的终身教育的发展与普及。主要包括远程教育的理论研究、远程教育的国内外对比研究、远程教育学习支持服务研究、远程教育学科建设研究、远程教育质量保证研究等。

(5)基于网络环境的研究性学习。包括关键词14、17。关于网络学习的研究,构建自适应学习系统、智能授导系统、教育语义网等网络个性化学习是关注热点。特别是基于统一本体的语义网技术在自适应学习中的研究应用还在探索中,是教育技术以后关注的重大热点。

(6)基于行动研究的知识管理的教学设计。包括关键词2、26、12、27。信息时代科学技术革命的飞速发展,知识更新速率以几何级数的形式增长,出现了“知识爆炸”现象。可见知识管理在信息时代的重要性。知识管理已是教育技术关注的热点,在进行研究过程中包括学习管理系统(LMS)、个人学习环境(PLE)、个人知识管理(PKM)等的研究。

(7)在学习环境中形成学习共同体。包括关键词18、31、7、11。网络环境下自主学习、协作学习更加便捷,促使了具有相同爱好学习者形成了学习共同体,构建更加复杂、多元化的学习环境。为教师专业发展为目的的网络学习共同体也应运而生。在研究过程中主要是围绕网络共同体的成员、工具、主题、资源、活动等必备要素以及网络共同体的应用策略和实践效果等。

(8)网络教育。包括关键词3、13、16、22。网络课程是网络教育的基本形式,网络课程的教学设计,网络课程的界面效果,学习路径等都是网络教育涉及的内容。网络教育与远程教育是不可分割的,但网络教育又不局限于远程教育而主要是依托网络进行的教育。为了实现网络资源的更优质共享,降低相同资源的重复开发,关于网络教育的标准研究在研究生硕士论文中很普遍。

(9)在教学策略中使用虚拟现实技术。包括关键词20、28、24。虚拟现实技术主要是结合游戏的娱乐性进行网络教育游戏的设计与开发,基于游戏的激励机制、娱教等进行教学设计。

共词聚类分析不同于普通的文献计量方法,它是能定量反应出词与词之间的亲疏关系,进而反应这些词所代表的主题内容的结构[6]。

通过高频关键词反映教育技术学硕士学位论文的研究热点,并且通过共词聚类分析反映这些热点内容的结构关系。但是由于所选关键词的多少造成的聚类结果有所不同,因此不排除有些出现频次较低的关键词可能成为未来的研究热点[7]。与此同时,尽管[CNKI中国优秀硕士学位论文全文数据库]具有很高的权威性,但收入具有一定得滞后性和片面性以及检索的不可重复性,可能存在数据的漏检或误检。因此,我们的数据统计分析难免会出现差错和缺漏。但我们的目的是通过对我国教育技术学硕士学位论文的热点分析,进一步了解我国教育技术学研究生的研究方向,并且将文献计量学的共词研究方法移植到教育技术学领域,丰富了教育技术学的研究方法,这将是非常有意义的一件事情。

参考文献

[1] [3] [5] [6]李长玲,翟雪梅.我国情报学硕士学位论文的共词聚类分析[J].情报科学,2008,(3):73-76.

[2]郑华川,于晓欧,辛颜.利用共词聚类分析探讨抗原CD44研究现状[J].中华医学图书情报杂志,2002,(2):1-3.

[4]薛薇.SPSS统计分析方法及应用[M].北京:电子工业出版社,2005:310-313.

[7]侯跃芳,崔雷.医学信息存储与检索研究热点的共词聚类分析[J].中华医学图书馆情报杂志,2004,(1):1-4.

版权声明:本文为一世相伴论文网(www.14380.com)发表,未经许可,不得转载。