论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类: 检测论文语义 语义网的课程论文 有关语义语法的参考文献

关于语义论文范文 基于语义分析电子商务客户评价相关论文写作参考文献

分类:论文范文 原创主题:语义论文 更新时间:2024-04-09

基于语义分析电子商务客户评价是关于本文可作为相关专业语义论文写作研究的大学硕士与本科毕业论文语义是什么意思论文开题报告范文和职称论文参考文献资料。

摘 要:电子商务迅速发展的背景下,电子商务用户大数据的应用备受关注,其中用户对商品的评价信息具有较高的研究价值.本文以天猫平台特定男士T恤为例,使用爬虫工具Selenium对用户评价信息进行了爬取,并通过预处理、建立情感词典、产品特征提取和特征强度计算等方式,对获取的数据进行语义分析.在此基础上,筛选有效数据,建立经济计量模型以探究主要因素和销量之间的关系,得出目前对销量有显著影响的因素,并且依据模型所得出弹性给予企业针对提高销量的合理性建议.

关键词:用户评价;爬虫;语义分析;多元回归;柯布道格拉斯效用函数

一、引言

互联网在我国普及度逐步提升,人们对于网络的依赖性越来越强.面对不断产生的海量数据,传统人工处理的方式己经不能适应现代社会的需求.生产商、销售商希望能够简洁直观的了解用户对产品的反馈,从而有针对性地对产品或服务进行改进;潜在的消费者希望通过现有的评价来调整个人的购买意向.因此,分析消费者评价,即带有个人情感倾向的文本便具有相对重要的价值.

在国内观点挖掘领域中,有如下研究.刘群等人提出了基于WordNet词汇语义相似度计算方法,成为目前中文词语情感极性强度计算得主要根据;HuM等人研究了评论对象特征识别问题,他们提出利用关联规则方法挖掘评论稳重隐藏的特征属性,并提出了根据句子语义倾向对商品进行总体评价.本文创新点在于利用前人的研究成果,结合TF-IDF算法对评论特征的重要程度量化标注,分别计算出产品特征的总值作为模型建立的基础.依据经济学意义进行数据筛选并建立模型,将影响销量的各个因素的显著性定量表示,并且进一步探究各个影响因素和销量之间的弹性关系.把弹性作为企业调提高销量的依据,最后按照经济学理论对企业提出可行性建议.

本文以天猫旗舰店中价格在100元-200元区间内,且数据采集时评价总量在300条以上的品牌男士短袖T恤作为研究对象.主要工作有:一是构建了常用于衣服评价的网络用语词典,二是构建了识别特定格式用于服装评论挖掘结果分类的正则表达式,三是根据处理过的数据进行经济计量模型构建,探究影响销量因素的显著性及弹性,四是依据经济学原理为销售该类服装的电商提出合理建议.

二、研究框架

本文研究过程大致可以分为四个部分,用户评论信息采集、数据预处理(数据清洗、分词、词性标注、删除停用词)、评论挖掘(产品特征提取、评论观点极性判断,评论的强度计算)、回归分析数据预处理、多元回归模型建立、模型拟合优度检验、误差原因分析及经济学意义分析.研究路线如图1所示.

三、主要步骤及及关键点分析

1.数据爬取.通过WEB自动化工具,编写爬虫软件,将电商平台上的相应物品评价爬取

(1)数据清洗.网络评论中有大量网络化、口头化的词语等.所以需要先对数据集合进行清洗,主要工作有删除无用信息、重复信息等.

(2)分词.中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词.中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果.分词的好坏直接决定了语义分析的准确性.

(3)词性标注.词性标注(Part-of-Speech tagging或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程.有效提取出产品特点,并对用户观点进行极性判断.

(4)删除停用词.在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词.评论集合中存在大量频率高,但无实际意义的词语,例如“了”、“呢”等,将其删除可以提高分析程序的运行效率.

2.评论挖掘过程.用户评论信息挖掘用户评论信息挖掘包含产品特征提取、评论观点极性判断、特征强度计算三个部分.

(1)产品特征提取.产品特征提取的目的是基于分词和词性标注后将产品的特征提取出来,其产品特征包括质量、性价比、外观等等.

(2)评论观点极性判断.评论观点极性判断是指确定用户对该商品评论的极性,分为褒义和贬义.

判断评论观点的极性,有两种方法,即基于词典的方法和基于语料的方法.基于词典的方法需要建立一个情感极性词典,以获得一个词的极性.基于语料的方法是在大量语料基础上,分析词之间的语法形式或共现形式来判断词的极性.本文采用基于词典的方法,需要根据所有评论数据建立两个词典,分别为褒义词和贬义词词典,然后用词典再对评论进行一次词性的标注.

(3)特征强度计算.TF-IDF(term frequency-inverse document frequency)是一种用于信息检索和数据挖掘的常用加权技术.它能将文本表示为文中出现的n个加权词项组成的向量.因此,我们用它来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.

词频频率(TF)是某一词在某一文档中出现的频率,因此,tf是关于文档的统计数据,它因文档的不同而异,其作用是试图度量该词在文档中的重要性.

以上式子中分子nij是词汇ti在评论dj中的出现次数,而分母则是在评论dj中所有词汇出现次数之和.

逆向文档频率(IDF)是指,一个词汇的普遍重要性度量.某一特定词汇ti的逆向文档频率idfi,可以由总文档数目N除以包含該词汇的文档数目{j:ti∈dj},再将得到的商取对数,得到:

3.挖掘结果汇总

挖掘结果汇总是指利用统计学、图表等形式对结果进行展示和分析.

逐条评论计算强度之后通过正则表达式匹配.将每一个特征词所包含极性词的短句提取出来.例如将“快递没得说,那是一个快啊”处理成“{@快递@WL@0.262@}没得说/PRO#,那是一个快啊.”(/PRO表示褒义词)这样的格式,通过正则表达式提取出“{@快递@WL@0.262@}没得说/PRO#”,将其算作物流正向评价一个单位,计算出所有特征正面、 的强度,使得分相加,就是购买该商品用户对其特征的情感强度,将此结果利用图表形式显示,并综合起来进行多元回归分析.

总结:本论文可用于语义论文范文参考下载,语义相关论文写作参考研究。

参考文献:

1、 社会化电子商务环境下用户隐式信任评价和应用综述 [摘 要] 社会化电子商务中的用户隐式信任关系作为现实社会关系的映射和扩展,为可信推荐方法的研究带来了新的契机。对相关文献进行梳理总结, 形成综。

2、 因素分析法视角下电子商务企业经营绩效评价 内容摘要:随着当前互联网的普及和大数据时代的到来,四通八达的快捷物流和有效的电子支付结算,使得电商企业成为当下热门行业。相对于传统零售企业而言,。

3、 基于卖方个人信用的电子商务交易主体信用评价 摘 要:随着我国电子商务的快速发展,电子商务交易主体信用评价体系建设已成为规范电子商务市场经济秩序的重要基础。以模糊综合评价法、层次分析法为基础。

4、 电子商务网站评价和应用 随着国家经济的不断发展以及政府转变职能的逐步推进,第三产业迅速蓬勃发展,由此带来的电子商务行业也蓬勃。本文旨在通过探索电子商务网站的发展意义,做。

5、 试析电子商务环境下中小企业信用评价 摘 要:现阶段,我国社会经济不断发展,呈现出一派繁荣的景象,并且随着科学技术的不断创新,电子商务理论在实践中被广泛应用,我国也逐渐由市场经济向信。

6、 国际贸易新方式:跨境电子商务的最新 摘 要:随着全球经济一体化进程的不断加快,国际贸易的方式也有了新的突破。全球经济一体化的发展给国际贸易的方式带来了新的启示,也是的国际贸易形势有。