论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类: 自然杂志订阅 自然辩证法结课论文 语言教学和杂志 自然指数期刊 自然杂志 人和自然杂志 自然语言处理期刊 自然语言处理论文 自然语言处理领域期刊 语言学术期刊 英语语言类论文提纲范文 自然杂志网站

关于自然语言处理论文范文 基于游记语义分析和自然语言处理的智能行程生成算法设计相关论文写作参考文献

分类:论文范文 原创主题:自然语言处理论文 更新时间:2024-01-25

基于游记语义分析和自然语言处理的智能行程生成算法设计是关于对写作自然语言处理论文范文与课题研究的大学硕士、相关本科毕业论文自然语言处理论文开题报告范文和相关文献综述及职称论文参考文献资料下载有帮助。

摘 要:针对目前旅游行程生成方法自动化程度较低、操作复杂的问题,提出了一种基于游记语义分析和自然语言处理的行程生成算法.该方法以常见的非结构化游记文本作为数据源,采用关键词遍历、行程时序提取、兴趣点名称提取的方法,获取游客在旅行目的地的游览轨迹,生成结构化旅游行程.最后通过多篇同类行程的横向比较,降低处理结果的冗余度,自动制定具有实用性的旅游行程计划.

关键词:旅游行程;自然语言处理;语义分析

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)07-0160-02

1 引言

随着自由行成为一种热门的旅游方式,很多游客在规划行程时,都会在互联网上查阅相关的游记.互联网上的热门游记通常是由“旅游达人”把自己的实际体验总结提炼而成,并包含了他们对目的地前期研究成果,在时间、景点和预算的安排上也具备一定的合理性.对于对旅游目的地尚不熟悉的游客来说,查阅游记就可以绕过海量的碎片化信息,无疑是获取有用信息的捷径.

然而,互联网上游记的作者和来源都十分复杂,大都通过普通的文本编辑器生成,没有统一的格式标准.在当下UGC信息爆炸的时代,热门游记数量极多,据蚂蜂窝旅游网2016年12月统计,在中国游客偏爱的境外热门目的地(如、曼谷),阅读量超过2000的游记已有3000多篇,平均长度超过一万字.每个目的地每天还以超过20篇的速度增长.因此,游客要通过阅读多篇游记,人工的从中提取中有用信息无疑十分耗费精力,更难以辨别出不同游记中在时间、景点和交通安排上的差异,同时,因为游记格式各异,无法通过简单的格式标记对其进行结构化,游客自己显然无法快速批量的从中提取关键信息,急需研发一种自动化的旅游行程生成方法.

2 基本原理

针对上文中提出的问题,本文选择从旅游大数据和自然语言分析的角度,研发智能化关键信息提取系统,自动提取游记中的关键信息,生成对应的结构化文档——旅游行程.本文所设计的方法不依赖于游记中的特定标识符,也不用进行复杂的参数设置.任何由网页承载的游记文本,只要作者按时间顺序组织内容,并记录了经过的地点(如城市、景点、餐厅、酒店等),均可由本系统生成规范的行程文档,游客无需通读游记全文即可了解游记的旅游路线,城市、景点间的交通方式和游记作者推荐的美食、商品也能得到清晰的展示.

在这一方法中,则需要针对性的讨论如下3个问题:

2.1 按时间顺序对游记进行分段的技术路线

游记原文游记是一种对旅行过程的记录,因此绝大部分游记中均按时间顺序写作,也就包含描述时间的标志性词汇,而常见的序数词汇、日期词汇、长距离交通描述、重复性分隔符均可以作为具有时间属性的标志性词汇.为保证分段方法能够适用于绝大多数游记,本文将这些常见的标志性词汇归入为“分段符字典”,在对游记进行分段时①,系统会用“分段符字典”中的词汇依次遍历游记全文,从而获得多种分段结果.必须注意的是,一个词汇可能会产生多种分段结果,因此分段结果的数量可能远多于字典中的词汇数量.

2.2 解决兴趣点名称多义性和同义性问题的技术路线

针对这个问题,本文从多个维度提出综合性的解决方案:

(1)对旅游资源设置多重别名,并分别设置权重参数,根据不同别名的出现频次和对应权重,计算出某一旅游资源的匹配概率,以解决“一地多名”的问题.

(2)建立多个旅游资源之间的关系矩阵,通过上下文分析的方式,确定某一名称的正确释义,以解决“多地同名”的问题.

(3)通过提取游记的旅行目的、旅行行为,设立作者行为参数,对游记中提及某一名称时的语义进行判定,以解决“一地多类”的问题.

当然,由于旅游资源众多,人工设定以上参数的工作量极大,因此本文通过自我训练的方式,使用大量的游记,让系统自身完成大部分参数的设定,以降低人工调整参数的工作量.

2.3 对多条同源行程进行合并的技术路线

在设计同源行程的合并算法是,有三个重要的切入点:

(1)单条行程各天POI访问记录的对照分析,找出偏离本条行程的冗余访问记录.

(2)多条行程中对应天POI访问记录的对照分析,找出偏离当天行程的冗余访问记录.

(3)找出不同行程在游记原文中的重叠部分②,然后统一删除重叠部分带来的冗余访问记录.

在使用以上方法去除掉冗余记录后,在按天合并多条行程(此时可使用合集运算),即可得到一条较为准确的行程.

3 具体算法

游记文本的处理过程如下:

1) 根据用户输入的游记所在网页的URL,从网络上获取WEB文档,记为Traw.

2) 分析WEB文档的来源,去除HTML标记、图片、表格等与正文无关的信息,生成纯文本的游记,记为Trefined.

3) 遍历游记全文,获取游记的基本信息.具体而言,就是获取这段旅行的起止时间(分别记为dstart, dend)、目的地國家(记为Cdest)、作者、旅行目的、同行人员、组织方式(有无明确的时序结构)等基本信息.

4) 根据第3步的获得的基本信息,对纯文本游记(Trefined)进行分段.分段方法是按具有时间属性的标志性词汇,遍历游记全文,从而以这些词汇的位置把游记切割为多段.

考虑到自然语言的复杂性和多义性,可能有多种分段方案适用于该游记,产生多种分段结果(假设有n种).设数组P1为一种分段结果,其内容为[p1,1, p1,2, p1,3, 等, p1,m],其中p1,2表示使用分段结果P1中的第2段文本,也就是该分段方案中对第2天游记的文字描述.因此,当有多个分段结果时,就产生了分段结果矩阵MP,如式(1)

总结:此文是一篇自然语言处理论文范文,为你的毕业论文写作提供有价值的参考。

参考文献:

1、 藤花亭曲话贵乎自然的戏曲语言观 摘要:在戏曲创作中,自然被视为一种重要的美学追求。清曲论家梁廷枏所著《藤花亭曲话》便明确标举戏曲语言贵乎自然的创作理念。在梁氏看来,语言上的自然。

2、 自然语言现象的观念化过程重塑 摘要:在我们将语言现象视为自然形式的存在时,它所指向的对象就是作为普通语言学主要研究的内容;自然语言现象的存在说明不可缺失语言行为者的语言感知经。

3、 巧学自然拼读提高学生语言素养 【摘要】新课标指出,自然规范的语音、语调将为有效的口语交际打下良好的基础。日常英语教学中,学生总是单纯地依靠模仿老师或录音的发音,机械地记忆语音。

4、 循法自然造物天然北京积水潭中山骨科医院设计随感 医院建筑设计相对复杂,主要在于对医院各使用区域流量的控制、对各种医疗流程的把握和对活动于医院环境中的流线的安排。其他,诸如对建筑公共空间,建筑室。

5、 基于XBRL自然语言语句形式化标注 【摘 要】 为了提高机器对自然语言的理解能力,以语义形式化为切入点,研究了基于可扩展商业报告语言(XBRL)的自然语言语句的形式化标注问题。研究。

6、 潘建伟入选自然年度科学人物 12月18日,英国《自然》杂誌公佈其评选的2017年全球十大科学人物,中国“墨子号”量子科学实验卫星首席科学家潘建伟入选。该杂誌说,潘建伟帮助中。