论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>mba论文>范文阅读
快捷分类: 机器翻译的不可行性英语论文 机器翻译论文

关于机器翻译论文范文 基于语料库网页机器翻译相关论文写作参考文献

分类:mba论文 原创主题:机器翻译论文 更新时间:2024-02-14

基于语料库网页机器翻译是关于本文可作为相关专业机器翻译论文写作研究的大学硕士与本科毕业论文常见的机器翻译软件有?论文开题报告范文和职称论文参考文献资料。

摘 要:本文讨论的是在利用机器翻译处理网络上的各种文本时会出现的问题,同时提出一种模型来进行网页文本的中英翻译.这里会涉及文本两部分的处理,即标记部分和纯文本部分.同时会首先进行标记管理,再利用大型语料库的比对进行纯文本的翻译.

关键词:机器翻译 标记 纯文本 域 语料库

一、引言

当进行WWW网页文本的翻译时,翻译系统会遇到两大类型的问题:如何在翻译文本中插入HTML标记并如何正确翻译翻译文本.第一个问题需要系统来正确处理所有的HTML标记,否则可能会导致无法阅读的翻译文本.而第二个问题则需要一个大型的语料库来分析文本的意义并避免歧义.如果成功地处理这个问题,系统可能会译错,这将是我们以后处理的重点.

本文中将设计一个机器翻译系统来进行网页的中英互译,首先处理有标记文本然后再进行非标记部分的翻译.

二、网页标记文本的翻译方法

对于HTML文本,显然不能将标记(tag)和文本分开,先翻译文本然后再插入相应的标记,因为中英文语言不总是一一对应.如果这样处理,图一将会变成(

约翰是一个李老师的学生).这显然是不可接受的.因此需要换一种方式来处理这个问题.需要首先标记HTML和文本块,然后再分别翻译纯文本和标记.然后系统会将其和目标语言的文本相比较.如果目标文本和源本完全吻合,就不存在问题.我们只需要将目标文本部分相应的地方做标记.如果目标文本和源文本不完全一致,系统必须找到相互需要标记的标记文本,然后再加入需要的tag.

(一)tag的分类

HTML中有不同的tag,而在机器翻译中可以简单地把它们分成两类:

第一类:void tags(VT:无类型标记).VT是指HTML标记中不影响文本块,也不需要结束标记.这种标记的例子是图片(IMG),图二里就包括一个IMG标记.

第二类:Real tags(RT:真实标记).RT是指HTML标记中会影响文本块并需要一个结束标记(当然某些特定类型也不是必需的).这种标记也分成几大类:

(1)总体HTML网页结构标记:这些标记对于定义HTML网页的整体结构是必需的.这类标记如:HTML, HEAD, TITLE和BODY.

(2)影响HTML页面独立的标记:这些标记会影响到HTML页面的完整和独立,换句话说这些标记不能被用来影响单个词和句子,这类标记如FORM, UL, OL, SELECT.

(3)字符强调标记:这类标记用来强调词、部分句子甚至整个段落,如EM, B, I和U.

(4)超文本和超链接:这类标记是将当前文本转向其他页面.

WWW上的大多数文本都是用HTML写的,RL主要用来描述多媒体信息的链接,比如图片.用户不仅需要阅读文本的字符串,还需要通过图片信息和强调部分来理解其内容.所有这些信息在机器翻译时都需要保留.

(二)HTML标记管理器

网页文本同其他普通文本不一样,是通过将信息编码到HTML文本类型定义(DTD)中,这是SGML(一般语言组成标准)的应用.HTML标记本身不需要通过机器翻译系统来翻译,但是他们必须在翻译后保留在合适的地方.在系统里有一个标记管理器(TM),它会将句子看成是一个整体而不会将其分开,因此在翻译网页时有两种方法来处理这些标记.

第一步:标记分离.在标记分离阶段会用到HTML文本的信息框架和标点符号.下面是TM如何处理这些标记分离.

(1)起始和结束标记必须保留(如,,,).

(2)如果一对标记中有好几个句子,必须通过标点符号来分离.

(3)一个表格块中的每一项都被当成是一个句子.

(4)空行后的复合名词或短语被认为是一个标题.

HTML标记会被筛选出来并存储到一个外部文件中,里面包括句子数、词数、词、起始标记、结束标记以及FI(标记信息).完成这些操作后,系统就能正确理解不同标记并将其当成句子而不是短语来处理,以免出现误解.

第二步:标记恢复.如果目标词和源语言的词一一对应,就不需要恢复.但是情况并非总是如此.更一般的情况是,会碰到1对N或者N对1又或N对M的情况.这种情况下,翻译时,译者不会处理完整的标记,只需要处理词串信息.TM保留所有的标记,文本翻译后,TM通过以下的方法将标记恢复到目标语信息中.

(1)1对N:源语言的词的起始和结束标记直接复制到目标语中.

(2)N对1:TM分析源语言的起始和结束标记,然后根据序列信息确定需要保留的标记(如,,,).在此过程中,内部标记如大小和颜色标记会被忽略.

(3)N对M:通常这种情况会发生在成语中.正如N对1的情况,TM分析源语言词的标记.然后TM会决定起始和结束标记.在此过程中,某些颜色和大小的标记可以被排除.

(三)标记文本的翻译

图三表明标记文本的不同情况.句子1和2是标记文本在源语言和目标语中都会出现的例子.句子3是标记文本在目标语中会出现在不同的地方,而句子4则是标记文本不会出现的例子.

这些句子表明必须要选择一个模型能够使电脑决定目标语文本的哪个部分需要标记.有不同的方法来完成这个模型.在我们的模型中,可以分4步来处理这个问题.首先我们通过机器翻译系统来翻译整个文本,然后再使用同一个系统翻译各个标记文本,之后再将全文本和标记文本相比较,因此我们可以决定哪些文本块需要标记.这样做的话,我们可能还需要将标记词分开,然后再单独翻译,这对于源语言标记文本可能会产生好几个目标语文本模块时特别必要.更有甚者,有些英语词当它是句子一部分时可能会有不同的翻译方法.

总结:本论文主要论述了机器翻译论文范文相关的参考文献,对您的论文写作有参考作用。

参考文献:

1、 分析语料库高校英语微课程设计应用 【摘要】最近几年,短小的微课程越来越受到学生的喜爱,教师应当注意对微课程的设计以及应用。在对微课程开发设计过程之中需要引入语料库,提升微课程开发。

2、 基于自建小型语料库大学英语翻译教学模式 【摘要】传统的翻译教学存在语料输入不足,练习机械枯燥,以终结性评价为主,翻译能力发展滞缓等问题。大学英语翻译教学模式改革通过自建小型语料库,以动。

3、 民航英语语料库建立和应用 【摘要】随着民航业的迅速发展,国内对民航英语的研究愈加深入。虽然现在国内的英汉双语语料库的研究越来越成熟,但是对具有民航特色的双语语料库仍处于初。

4、 新高考改革背景下语料库对高中生综合语言能力影响 【摘要】《2017高考改革方案》一经正式颁布,就引起了社会各界的广泛讨论。基于2017年高考改革的背景下,本文主要阐述了语料库的概念、计算机语料。

5、 近十年来语料库在学术英语中应用 【摘 要】 随着语料库语言学和描写性语言学研究的发展,语料库方法在学术英语体裁分析、元话语研究以及学术英语教学研究中。文章对近十年来国内外语料库。

6、 英语教材语料库在跨文化交际能力培养中运用 内容摘要:大学英语教材语料库的构建对大学生跨文化交际能力的培养有着重要的影响。但任课老师把这种影响最大化的前提却是对“跨文化交际能力”内涵的理解。