论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>职称论文>范文阅读
快捷分类:

关于Word2Vec论文范文 基于Word2Vec文本挖掘农村电子商务科学文献主题相关论文写作参考文献

分类:职称论文 原创主题:Word2Vec论文 更新时间:2024-01-26

基于Word2Vec文本挖掘农村电子商务科学文献主题是关于Word2Vec方面的的相关大学硕士和相关本科毕业论文以及相关word2vec 日语论文开题报告范文和职称论文写作参考文献资料下载。

[摘 要]选取CNKI期刊数据库,运用文本挖掘技术自动从大量科技文献中提取农村电子商务主题,借助NLP分词系统、Word2Vec和K-Means分析方法,挖掘出各个主题类及其关键词.分析得到农村电子商务研究的6个主题,分别是农村电子商务政策制度研究、物流体系研究、产业集群研究、商务模式研究、区域农村电子商务SWOT分析、发展路径研究.该研究科学的划分了农村电子商务的研究主题,能够帮助从事该领域的学者了解研究现状和热点.

[关键词]农村;电子商务;Word2Vec;科学文献;主题聚类

[中图分类号]TP311 [文献标识码]A

1 引言

科学文献作为文献学术成果的显性载体,是科研工作者智慧的结晶,是传播知识、进行学术交流的重要途径.因此,通过分析农村电子商务科研文献的研究内容,能够对当前我国农村电子商务研究的发展态势进行科学评估,推动农村电子商务的进一步发展研究.本文借助中科院NLP自然语言处理系统,基于Word2Vec研究主题分析框架,对CNKI中文期刊文献数据库中有关农村电子商务的科学文献进行文本挖掘,并采用K-Means进行聚类分析,探测我国农村电子商务研究主题的发展态势.通过本文分析,科研人员能够初步了解我国农村电子商务的研究现状,把握农村电子商务研究的研究热点.

2 基于Word2Vec的研究应用

2.1 Word2Vec工作原理和应用

Word2Vec是一种文本深度表示模型,是由Google于2013年开源的一款将词表征为词向量的Deep Learning工具,通过深度训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度.在NLP自然语言处理及机器学习应用中,Word2Vec常被用于聚类、寻找同义词、词性分析等.Word2Vec采用Distributed representation的词向量表示方式,其基本思想是通过训练将文本中的词表示为一定长度的K维实数向量,则该文本就可以被文本中的单词表示成一个词向量空间,每个单词为该空间中的一个点,点和点之间的空间距离(cosine相似性、欧氏距离等),构成了单词之間的语义相似性距离,距离越近,则相似度越高.

目前,Word2Vec被大量应用在国内外学术研究中,包括语义相似度计算、机器翻译、特征抽取、情感分类等方面:如董文等基于问答系统对比了LDA和Word2Vec在推荐算法上的优劣,认为Word2Vec在文本相似度的计算上具有良好的效果;张冬雯通过对情感词相似度的计算来扩充情感词典;黄仁提出了基于组合神经网络的商品属性聚类及基于Word2Vec的商品评论情感分析新方法;杨河彬研究了搜索词的分类、聚类;罗杰基于Word2Vec的语义相似度特性,对领域词典进行聚类研究.可以预见,未来基于Word2Vec的学术研究和应用将会更为广泛.

2.2 本文技术路线

摘 要是一篇文献研究方法、研究内容最精髓的总结归纳,是研究者快速了解文献的窗口,且摘 要文本长度最够,专业性较强,能够很好的表达研究主旨,对文献摘 要的文本挖掘,能够很好的对文献的研究主题进行分析.基于此,本文拟对农村电子商务摘 要数据进行分析,采用Word2Vec构建摘 要词向量,并使用K-Means算法进行科学文献主题聚类分析.本文的技术路线如图1所示.

3 实验和数据分析

3.1 基础数据分析

以CNKI中文期刊库为数据来源,在高级检索中检索主题为“农村电子商务”的科学文献,检索全部时间段,共获得1798条数据,经过去重、删除无摘 要数据、非农村电子商务研究文献,共获得1749条有效数据.

获得的有效数据中,农村电子商务科研文献在时间分布上如图2所示,从图中可以发现,农村电子商务的研究的文献数量在2015年以前增长较为缓慢,且增长趋势平稳,但在2015爆发式增长.

从期刊发文量来看,排在前列的期刊分别是农业工程技术、中国合作经济、电子商务、农村经济和科技、中国邮政、现代商业等,这些期刊或以农业研究,或以经济研究或以电子商务为主要研究阵地.

从文献作者和发文机构角度来看,我们可以看到,对于农业电子商务研究并没有形成强势或垄断研究,发文量最多的作者和发文量最高的研究机构,其数量分别为汪向东(6篇)和郑亚琴(6篇)、云南农业大学经济管理学院(7篇).

3.2 实验过程概述

在利用Word2Vec将摘 要文本表达成词向量之前,需要将科学文献的摘 要数据进行分词处理.这里本文使用的是中科院NLPIR汉语分词系统,分词的目的包含去除停用词(如“的”、“一个”、“可以”、“在”等)以及去除标点符号、数字等噪声词,留下可表达稳增长主旨的词汇.分词处理完成后,每篇科学文献的摘 要数据被处理成N个单词组成的文本.Word2Vec的输入数据格式为文档—词矩阵.矩阵的行数等于语料库中文档的数量,每行的词即组成了该篇文档.本文借助Python数据分析工具,采用Gensim包进行Word2Vec进行词训练,训练的结果即可得到词向量模型.最后采用Python中的Sklearn机器学习包中的K-Means算法进行聚类分析,而聚类的数据输入则是词向量.其中,聚类数K的确定是聚类结果确认的关键,常用的做法是采用肘部法进行确认,通过实验分析得到在k等于6时为最佳聚类.

3.3 主题聚类分析

根据K-Means聚类结果,其聚类图谱见图6所示,可以发现各聚类能够较好的区分不同主题.其中六个主题类及其对应的高频词汇总到表1所示.从聚类结果以及高频关键词可以总结出,对于农村电子商务的研究主要包括农村电子商务政策制度研究、农村电子商务物流体系研究、农村电子商务产业集群研究、农村电子商务模式研究、区域农村电子商务SWOT分析、农村电子商务路径方向研究六个方面.

总结:关于免费Word2Vec论文范文在这里免费下载与阅读,为您的Word2Vec相关论文写作提供资料。

参考文献:

1、 彭水县农村电子商务的 随着互联网技术的普及和农村基础设施的建设,以网上购物和网上销售农产品为主的农村电子商务发展势如破竹。尤其在“互联网+”浪潮的推动下,阿里巴巴、京。

2、 试析农村电子商务的现状与 摘要:农村电子商务是知识经济时代发展的产物,它加快了农产品的流通,促进了农业信息的畅通,拉动了农村的消费,拓展了农产品的市场,节省了营销成本,促。

3、 互联网下农村电子商务的 “互联网+”是指利用互联网的平台、信息通信技术把互联网和包括传统行業在内的各行各业结合起来,从而在新领域创造一种新生态。农村电子商务服务包含网上。

4、 吉林省农村电子商务现状与 摘要:本文通过对吉林省农村电子商务发展现状进行阐述,分析了吉林省农村电子商务发展过程中存在的主要问题,在此基础上,提出加快吉林省农村电子商务发展。

5、 推进互联网现代农业大力农村电子商务 摘 要:“互联网+”成为国家战略,“互联网+”现代农业加速融合,农村电商成为重要突破口。随着产业资本跨界布局农村电商,农村电商正成为新的投资“蓝。

6、 孟州市农村电子商务调查 摘 要:随着城市网购市场的趋稳,越来越多的电商巨头将视角转向起步滞后但发展速度更为迅猛、发展前景更为广阔的农村市场。无论是“物流、支付、售后”这。