论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>职称论文>范文阅读
快捷分类: 论文数据 时事热点论文 时事政治热点论文 有关大数据的论文 时政热点论文 数据挖掘论文 数据挖掘关联规则论文 如何利用数据写论文 国际热点论文开头 数据挖掘技术开题报告 什么是大数据论文 实证论文的数据分析

关于关联数据热点论文范文 国内外关联数据热点对析相关论文写作参考文献

分类:职称论文 原创主题:关联数据热点论文 更新时间:2024-02-10

国内外关联数据热点对析是关于关联数据热点方面的论文题目、论文提纲、关联热点论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

摘 要:[目的/意义]国内关联数据研究尚出于研究发展的初期,理论研究和应用研究也都尚未成熟.通过对国内外研究热点主题对 析,为国内关联数据研究起提供借鉴.[方法/过程]通过数据分析和文献调研,分别从发文量、研究群体、词频以及主题识别等方面进行中外研究的对 析,从中发现国内外关联数据研究存在的差距.[结果/结论]在对 析的基础上,针对国内关联数据研究提出研究本土化、注重应用型研究、优化研究群体结构以及关注关联数据学科化应用4点发展建议.

关键词:关联数据 研究热点 对 析 数据分析

分类号:G250.7

1 引言

自2006年T. Berners-Lee提出关联数据的概念以来,研究人员便开始对关联数据进行深入的研究.关联数据是W3C推荐的一种用于发布和联接各类数据的规范,旨在建立一个映射所有自然、社会和精神世界的数据网络,通过对大千世界万事万物及其相互之间关系进行机器可读的描述,来构建一个一个富含语义的、互联互通的知识海洋,使人们可以在更大范围内准确、高效、可靠地查找、分享、利用这些相互关联的信息和知识[1].国内对关联数据的关注最早始于2008年,由曾蕾、刘炜等在于上海举办的“数字环境下图书馆前沿问题”研讨班上将关联数据这一概念正式引入国内.自此,国内关于关联数据的研究不仅在数量上日渐增多,研究的主题也日趋广泛.本文通过对国内外相关研究文献进行共词分析、主题挖掘,并借助SPSS、Sati等工具进行统计、主题聚类分析等,试图通过对比找出国内关联数据研究的特点和不足,为国内关联数据研究及发展提供指导.

2 数据来源和研究方法

本文研究数据力求精准、全面,在中文数据的收集过程中,笔者发现除核心词汇“关联数据”以外还有一些其他关键词,笔者也将它们列入检索式;在保证数据全面性的同时,考虑到中文词汇的多义性,还对初步的检索结果做了进一步的人工筛选,最终得到381条文献数据.在中文数据的筛选过程中,笔者发现381条数据基本上都是图书馆学和情报学(G25)和计算机科学(TP3)领域的文献,并通过文章第一作者所在的机构信息对此进行了验证.因此在英文数据的收集过程中,为了确保对比的有效性,本文对研究方向做了限定.本文中英文数据来源信息具体如表1所示:

本文章主要应用统计分析、关键词共现分析和对 析3种研究方法.统计分析主要是试图从数据量的角度来反映研究的发展现状以及未来的发展趋势;关键词共现分析的主要原理是通过关键词对共同出现的次数来反映二者之间的亲疏关系,进而反映相关研究主题之间的关系结构[2];对 析可以很好地反映出比较对象之间的不同,在理论研究方面,比较结果可以很好地指导劣势方的发展.

3 数据分析

在正式的数据分析之前,本文对所获取的数据中的关键词项进行了基本清理,清理方式主要有中英文合并、单复数合并以及低价值词汇剔除等.为了对数据本身有更深入的理解,以下从发文量、词频、主题聚类及核心主题判定等方面对数据内容进行深度挖掘.

3.1 发文量分析

发文量的变化能够反映一个领域的发展状况以及未来的研究趋势,对国内外关联数据研究数据按照时间进行统计,其结果见图1.关联数据的概念最早在2006年被提出[3],2008年之后便进入研究的快速发展期,2014年达到了发文量的峰值,之后的研究热度呈下降趋势.国际上对于关联数据的研究表现为理论和实践共同发展的态势,随着关联数据理论研究主题的丰富和内容的深入,国外关联数据事业也得到了长足的发展.相比于国际来说,国内相关研究具有一定的滞后性——国内最早在2008年12月引入了关联数据这一概念,而最早见刊的是姚小乐、刘炜等人翻译自E. Summers等人的《LCSH,SKOS和关联数据》一文,该文从信息组织的角度对关联数据做了基本的介绍[4];国内关联数据研究的增长也较为迅速,并呈现进一步加速增长的趋势,预计2017年会出现发文量的峰值,但由于受到国际研究热度下降的影响,国内发文量的峰值也可能会提前到来.另外,笔者还根据分类号对文章的学科信息进行了统计,中文数据中计算机科学文献占比约为51%(202篇),图书馆学情报学文献占比约为49%(196篇),同属于这两个学科的文献共17篇;英文数据中计算机科学文献占比约92% (1 275篇),图书馆学情报学文献占比为8%左右(107篇),同属于两个学科的文献共68篇.

3.2 词频统计分析

关键词是文章研究内容的直接体现,词频的高低可以体现出关键词之间重要性的差异;对国内外相关数据进行关键词统计及共词分析能够反映关联数据研究的热点主题以及热点主题之间的关系结构.本文章使用SATI 3.2进行关键词抽取和词频统计,中文数据 含802个关键词,英文数据共含2 420个关键词.由于篇幅所限,这里只列出词频大于或等于4次的中文关键词和词频大于或等于8次的英文关键词(见表2),其中省略了核心关键词“关联数据(linked data)”和“关联开放数据(linked open data)”.另外,为了更好地展现高频关键词之间的关系,本文分别采用关键词共现矩阵和关键词相似度矩阵两种方式对中英文数据进行展示;关键词共现矩阵可以让人直观地了解到两两关键词之间的共现频次以及二者之间的亲疏关系,而关键词相似度矩阵是在关键词共现矩阵的基础上为了减小误差进行的归一化处理,相似度矩阵中的数值都在0-1之间,数值越接近1,表示两个关键词之间的主题相似度越大,反之越小.本文分别利用Bicomb 2和SATI 3.2构建了两类矩阵,但由于篇幅所限,文章只展示英文关键词词频大于20的关键词共现矩阵(12*12矩阵,见表3)以及中文关键词词频大于10的关键词相似度矩阵(11*11矩阵,见表4).

3.3 主题聚类及主题识别

主题聚类是文献计量学常用的研究方法,已被广泛应用于某一领域的主题分析等方面,它利用词和词之间的关联程度进行聚类,形成多个主题.本文对中文关键词词频大于或等于5次的数据进行聚类分析,去除核心关键词“关联数据”和“关联开放数据”后共计29个(占关键词总数约4%的比例).之后在前文分析的基础上,选择SPSS中的ward聚类算法进行系统聚类,并得到聚类树状图(见图2).之所以考虑ward算法,是因为该算法强调簇内的差异小、簇间的差异大,突出强调主题簇内部的同质性,适用于这种主题相关的数据样本进行进一步集群聚类.以选取的中文数据样本为参照,选取前4%的英文关键词(约100个关键词,词频亦为大于等于5次),由于SPSS系统聚类所能处理数据量有限,对于英文数据的主题聚类文章采用Citespace进行关键词聚类,在未做人为调整的前提下,数据的聚类效果见图3.主题聚类的直接目的在于主题识别,主题识别的精准和否和前期的主题聚类效果有着重要的关系.本阶段的主题识别主要是通过关键词反向回溯文献再进行人为识别,所识别的结果直接来源于分析数据.由于所有关键词之间并不存在严格的层级关系,在忽略树状图本身所具有的层级特性的前提下,共识别出7个热点研究主题,同时在前文关键词共现矩阵的基础上,通过计算各主题的战略坐标来显示研究主题的热度和成熟度,热点研究主题依次为关联数据、本体和信息组织(E)、关联数据发布(C)、关联数据和图书馆服务(D)、关联数据知识发现(F)、关联数据资源整合(G)、关联数据可视化(B)、关联数据语义互联(A).

总结:这是一篇与关联数据热点论文范文相关的免费优秀学术论文范文资料,为你的论文写作提供参考。

参考文献:

1、 图书馆关联数据:机会和挑战 摘 要: 关联数据利用链接网络分布式异构数据整合系统能够让不同领域的数据实现彼此关联,而关联数据技术的发展对于图书馆而言,更加全方位地提升了数据。

2、 基于引文关联数据服务学术期刊资源建设 [摘 要]引文关联数据服务将具有各种关系的引文知识单元按照一定的数据关联规则整合、互联,形成有序的、结构化知识网络。引文关联数据服务是加强学术期。

3、 基于关联数据图书馆信息聚合 潘有能 (浙江大学公共管理学院信息资源管理系 浙江杭州 310028)摘 要:关联数据是W3C推荐的一种用来发布和联接各类数据、信息和知识的标。

4、 关联数据的消费技术与实现 摘要:从关联数据技术实现的角度看,发布和消费是构建关联数据平台和实施关联数据应用应该考虑到的两个重要方面。关联数据的消费技术涉及到数据的访问、获。

5、 图文档架构下的档案关联数据采集和集成系统 摘要:该文介绍了一种地理信息、业务办公信息和档案信息分属不同管理单位的“图文档”联动检索与调用机制下的档案关联数据采集与集成模式,并根据此模式开。

6、 中青宝澄清和区块链关联老司机无意间蹭上新热点 近来,资本市场最火热的题材之一莫过于区块链了,A股众公司也纷纷与区块链“沾亲带故”,一时之间股价大涨。向来在A股市场较为活跃的中青宝(3000。