统计机器翻译的难点及研究方向
统计机器翻译的难点主要在于模型中所包含句法、语义成分较低,因而在处理句法差别较大的语言对,例如中文-英文时将遇到问题。有时翻译结果虽然“词词都对”却无法被人阅读。可以说目前主流(如Moses)统计机器翻译仍然处于机器翻译金字塔的底层。目前大量的研究集中于将句法知识引入框架中,例如使用依存文法限制翻译路径,等。同时,统计机器翻译依赖巨大的语料库,随着语料库资源越来越丰富和算法的日趋复杂,处理这些语料需要越来越强大的计算能力。长期以来,Google在机器翻译领域的领先地位就得益于其强大的分布式计算能力。随着分布式计算的普及,将机器翻译相关技术并行化将是另一研究热点。最后,机器翻译依赖客观评价准则,而客观评价准则最终要与主观评价准则挂钩。每年各类机器翻译相关的会议上都会有若干关于客观评价准则的研究发表,总的来说,评价翻译的优劣本身就是一个人工智能问题,其难度绝不在机器翻译之下。机器翻译消除了不同文字和语言间的隔阂,堪称高科技造福人类之举。但其机译译文质量长期以来一直是个问题,离理想目标仍相差甚远。中国知名数学家、语言学家周海中教授认为,在人类尚未明了大脑是如何进行语言的模糊识别和逻辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能的。这一观点恐怕道出了制约译文质量的瓶颈所在。
统计机器翻译的模型
噪声信道模型假定,源语言中的句子f(信宿)是由目标语言中的句子e(信源)经过含有噪声的信道编码后得到的。那么,如果已知了信宿f和信道的性质,我们可以得到信源产生信宿的概率,即p(e | f)。而寻找最佳的翻译结果也就等同于寻找:利用贝耶斯公式,并考虑对给定f,p(f)为常量,上式即等同于由此,我们得到了两部分概率:p(f | e),指给定信源,观察到信号的概率。在此称为翻译模型。 p(e),信源发生的概率。在此称为语言模型 可以这样理解翻译模型与语言模型,翻译模型是一种语言到另一种语言的词汇间的对应关系,而语言模型则体现了某种语言本身的性质。翻译模型保证翻译的意义,而语言模型保证翻译的流畅。从中国对翻译的传统要求“信达雅”三点上看,翻译模型体现了信与达,而雅则在语言模型中得到反映。原则上任何语言模型均可以应用到上述公式中,因此以下讨论集中于翻译模型。在IBM提出的模型中,翻译概率被定义为:p(f | e) = p(f,a | e)其中的a被定义为隐含变量——词对齐(Word Alignment),所谓词对齐,简而言之就是知道源语言句子中某个词是由目标语言中哪个词翻译而来的。例如右图中,一个词可以被翻译为一个或多个词,甚至不被翻译。于是,获取翻译概率的问题转化为词对齐问题。IBM系列模型及HMM, Model 6都是词对齐的参数化模型。它们之间的区别在于模型参数的数量,类型各不相同。例如IBM Model 1,唯一的参数是词翻译概率,与词在句子中的位置无关。也就是说:其中(i,j)是词对齐中的一条连接,表示源语言中的第i个词翻译到目标语言中的第j个词。注意这里的翻译概率是词之间而非位置之间的。IBM Model 2的参数中增加了词在句子中的位置,公式为:其中I,J分别为源、目标语言的句子长度。HMM模型将IBM Model 2中的绝对位置更改为相对位置,即相对上一个词连接的位置,而IBM Model 3,4,5及Model 6引入了“Fertility Model”,代表一个词翻译为若干词的概率。在参数估计方面,一般采用最大似然准则进行无监督训练,对于大量的“平行语料”,亦即一些互为翻译的句子(fs,es)由于并没有直接的符号化最优解,实践中采用EM算法。首先,通过现有模型,对每对句子估计(fs,es)全部可能的(或部分最可能的)词对齐的概率,统计所有参数值发生的加权频次,最后进行归一化。对于IBM Model 1,2,由于不需要Fertility Model,有简化公式可获得全部可能词对齐的统计量,而对于其他模型,遍历所有词对齐是NP难的。因此,只能采取折衷的办法。首先,定义Viterbi对齐为当前模型参数θ下,概率最大的词对齐:在获取了Viterbi对齐后,可以只统计该对齐结果的相关统计量,亦可以根据该对齐,做少许修改后(即寻找“临近”的对齐)后再计算统计量。IBM 3,4,5及Model 6都是采用这种方法。目前直接采用噪声信道模型进行完整机器翻译的系统并不多见,然而其副产品——词对齐却成为了各种统计机器翻译系统的基石。时至今日,大部分系统仍然首先使用GIZA++对大量的平行语料进行词对齐。由于所面对的平行语料越来越多,对速度的关注使得MGIZA++,PGIZA++等并行化实现得到应用。噪声信道模型和词对齐仍然是研究的热点,虽然对于印欧语系诸语言,GIZA++的对齐错误率已经很低,在阿拉伯语,中文等语言与印欧语系语言的对齐中错误率仍然很高。特别是中文,错误率常常达到30%以上。所谓九层之台,起于累土,缺乏精确的词对齐是中文机器翻译远远落后于其他语言的原因。虽然目前出现了一些区分性词对齐技术,无监督对齐仍然是其中的重要组成部分。 在这个框架下,M个特征函数通过参数化公式其中是每个特征函数的权重,也是模型所要估计的参数集,记为Λ。基于这个模型,获取给定源语言句子f,最佳翻译的决策准则为:简而言之,就是找到使得特征函数最大的解。原则上,任何特征函数都可以被置于此框架下,噪声信道模型中的翻译模型、语言模型都可以作为特征函数。并且,在产生式模型中无法使用的“反向翻译模型”,即p(f,e)也可以很容易的被引入这个框架中。目前基于短语的翻译系统中,最常用的特征函数包括:1.短语翻译概率 2.词翻译概率(短语中每个词的翻译概率) 3.反向短语翻译概率 4.反向词翻译概率 5.语言模型 而一些基于句法的特征也在被加入。 优化准则指的是给定训练语料,如何估计模型参数Λ。一般来说,训练模型参数需要一系列已翻译的文本,每个源语言句子fs拥有Rs个参考翻译。早期,区分性训练被置于最大熵准则下,即:这一准则简单快速且由于优化目标是凸的,收敛速度快。然而,一个极大的问题是,“信息熵”本身和翻译质量并无联系,优化信息熵以期获得较好的翻译结果在逻辑上较难说明。借助客观评价准则如BLEU,希望直接针对这些客观准则进行优化能够提升翻译性能。由此而产生最小化错误率训练算法。通过优化系统参数,使得翻译系统在客观评价准则上的得分越来越高,同时,不断改进客观评价准则,使得客观评价准则与主观评价准则越来越接近是目前统计机器翻译的两条主线。使用这些客观评价准则作为优化目标,即:的一个主要问题是,无法保证收敛性。并且由于无法得到误差函数(即客观评价准则)的导数,限制了可使用的优化方法。目前常用的方法多为改进的Powell法,一般来说训练时间颇长且无法针对大量数据进行训练。 语料预处理阶段,需要搜集或下载平行语料,所谓平行语料,指的是语料中每一行的两个句子互为翻译。目前网络上有大量可供下载的平行语料。搜寻适合目标领域(如医疗、新闻等)的语料是提高特定领域统计机器翻译系统性能的重要方法。在获取语料后,需要进行一定得文本规范化处理,例如对英语进行词素切分,例如将's独立为一个词,将与词相连的符号隔离开等。而对中文则需要进行分词。同是,尽可能过滤一些包含错误编码的句子,过长的句子或长度不匹配(相差过大)的句子。获取的语料可分为三部分,第一部分用于词对齐及短语抽取,第二部分用于最小错误率训练,第三部分则用于系统评价。第二第三部分的数据中,每个源语言句子最好能有多条参考翻译。 首先,使用GIZA++对平行语料进行对齐。由于GIZA++是“单向”的词对齐,故而对齐应当进行两次,一次从源到目标,第二次从目标到源。一般来说,GIZA++需要依次进行IBM Model 1, HMM及IBM Model 3,4的对齐,因IBM Model 2对齐效果不佳,而IBM Model 5耗时过长且对性能没有较大贡献。根据平行语料的大小不同及所设置的迭代次数多少,训练时间可能很长。一个参考数据为,1千万句中文-英文平行语料(约3亿词)在Inter Xeon 2.4GHz服务器上运行时间约为6天。如果耗时过长可考虑使用MGIZA++和PGIZA++进行并行对齐(PGIZA++支持分布式对齐)。其后,对两个方向的GIZA++对齐结果进行合并,供短语抽取之用。 最小化错误率训练通过在所准备的第二部分数据——优化集(Tuning Set)上优化特征权重Λ,使得给定的优化准则最优化。一般常见的优化准则包括信息熵,BLEU,TER等。这一阶段需要使用解码器对优化集进行多次解码,每次解码产生N个得分最高的结果,并调整特征权重。当权重被调整时,N个结果的排序也会发生变化,而得分最高者,即解码结果,将被用于计算BLEU得分或TER。当得到一组新的权重,使得整个优化集的得分得到改进后,将重新进行下一轮解码。如此往复直至不能观察到新的改进。根据选取的N值的不同,优化集的大小,模型大小及解码器速度,训练时间可能需要数小时或数日。 使用经最小化错误率训练得到的权重,即可进行解码。一般此时即可在测试集上进行系统性能评价。在客观评价基础上,有一些有条件的机构还常常进行主观评价。
机器翻译的基于统计
一般的基于语料库(Corpus-Based)的机译系统就是基于统计的机器翻译,因为这一领域异军突起,统计就是统计平行语料,由此衍生出许多不同的统计模型。不同于基于规则的机译系统由词典和语法规则库构成翻译知识库,基于语料库的机译系统是以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。基于语料库的方法可以分为基于统计(Statistics-based)的方法和基于实例(Example-based)的方法。 基于统计的机器翻译 基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看做对原文通过模型转换为译文的解码过程。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。实际上, 用统计学方法解决机器翻译问题的想法并非是 20 世纪 90 年代的全新思想,1949 年W. Weaver 在那个机器翻译备忘录就已经提出使用这种方法,只是由于乔姆斯基(N.Chomsky) 等人对计的批判,这种方法很快就被放弃了。批判的理由主要是一点:语言是无限的,基于经验主义的统计描述无法满足语言的实际要求。另外,限于当时的计算机速度,统计的价值也无从谈起。计算机不论从速度还是从容量方面都有了大幅度的提高,昔日大型计算机才能完成的工作,今日小型工作站或个人计算机就可以完成了。此外,统计方法在语音识别、文字识别、词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。统计机器翻译方法的数学模型是由国际商业机器公司 (IBM) 的研究人员提出的。在著名的文章《机器翻译的数学理论》中提出了由五种词到词的统计模型,称为 IBM 模型 1 到 IBM 模型 5。这五种模型均源自信源-信道模型,采用最大似然法估计参数。由于当时(1993年)计算条件的限制,无法实现基于大规模数据训练。其后,由Stephan Vogel提出了基于隐马尔科夫模型的统计模型也受到重视,该模型被用来替代IBM Model 2。在这时的研究中,统计模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差较大时效果可能不会太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。在此文发表后6年,一批研究人员在约翰·霍普金斯大学的机器翻译夏令营上实现了GIZA软件包。Franz Joseph Och 在随后对该软件进行了优化,加快训练速度。特别是IBM Model 3 到 5的训练。同时他提出了更加复杂的Model 6。Och发布的软件包被命名为GIZA++,直到现在,GIZA++还是绝大部分统计机器翻译系统的基石。针对大规模语料的训练,已有GIZA++的若干并行化版本存在。基于词的统计机器翻译的性能却由于建模单元过小而受到限制。因此,许多研究者开始转向基于短语的翻译方法。Franz-Josef Och提出的基于最大熵模型的区分性训练方法使统计机器翻译的性能极大提高,在此后数年,该方法的性能远远领先于其他方法。一年后Och又修改最大熵方法的优化准则,直接针对客观评价标准进行优化,从而诞生了今天广泛采用的最小错误训练方法(Minimum Error Rate Training)。另一件促进统计机器翻译进一步发展的重要发明是自动客观评价方法的出现,为翻译结果提供了自动评价的途径,从而避免了繁琐与昂贵的人工评价。最为重要的评价是BLEU评价指标。绝大部分研究者仍然使用BLEU作为评价其研究结果的首要的标准。Moses 是维护较好的开源机器翻译软件,由爱丁堡大学研究人员组织开发。其发布使得以往繁琐复杂的处理简单化。Google 的在线翻译已为人熟知,其背后的技术即为基于统计的机器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给出翻译结果。不可否认,Google 采用的技术是先进的,但它还是经常闹出各种“翻译笑话” 。其原因在于:基于统计的方法需要大规模双语语料,翻译模型、语言模型参数的准确性直接依赖于语料的多少,而翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。基于统计的方法虽然不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理工程量巨大。因此通用领域的机器翻译系统很少以统计方法为主。 基于实例的机器翻译 与统计方法相同,基于实例的机器翻译方法也是一种基于语料库的方法,其基本思想由日本著名的机器翻译专家长尾真提出,他研究了外语初学者的基本模式,发现初学外语的人总是先记住最基本的英语句子和对应的日语句子,而后做替换练习。参照这个学习过程,他提出了基于实例的机器翻译思想,即不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。对于实例方法的系统而言,其主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东西,核心的问题就是通过最大限度的统计,得出双语对照实例库。基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。这种方法在初推之时,得到了很多人的推崇。但一段时期后,问题出现了。由于该方法需要一个很大的语料库作为支撑,语言的实际需求量非常庞大。但受限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较窄的或者专业的领域时,翻译效果才能达到使用要求。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译方法作为多翻译引擎中的一个,以提高翻译的正确率。
统计机器翻译的历史
早在1949年,瓦伦·韦弗就基于香农的信息论提出了统计机器翻译的基本思想。而最早提出可行的统计机器翻译模型的是IBM研究院的研究人员。他们在著名的文章《统计机器翻译的数学理论:参数估计》中提出了由简及繁的五种词到词的统计模型,分别被称为IBM Model 1到IBM Model 5。这五种模型均为噪声信道模型,而其中所提出的参数估计算法均基于最大似然估计。然而由于计算条件的限制和平行语料库的缺乏,尚无法实现基于大规模数据的计算。其后,由Stephan Vogel提出了基于隐马尔科夫模型的统计模型也受到重视,被认为可以较好的替代IBM Model 2.在此文发表后6年,即1999年,约翰·霍普金斯大学夏季讨论班集中了一批研究人员实现了GIZA软件包,实现了IBM Model 1到IBM Model 5。Franz-Joseph Och在随后对GIZA进行了优化,加快了训练速度,特别是IBM Model 3到5的训练。同时他还提出了更加复杂的Model 6。Och发布的软件包被命名为GIZA++,直到现在,该软件包还是绝大部分机器翻译系统的基石。目前,针对大规模语料的训练,已有GIZA++的若干并行化版本存在。基于词的统计机器翻译虽然开辟了统计机器翻译这条道路,其性能却由于建模单元过小而受到极大限制。同时,产生性(generative)模型使得模型适应性较差。因此,许多研究者开始转向基于短语的翻译方法。Franz-Josef Och再次凭借其出色的研究,推动了统计机器翻译技术的发展,他提出的基于最大熵模型的区分性训练方法使得统计机器翻译的性能极大提高并在此后数年间远远超过其他方法。更进一步的,Och又提出修改最大熵方法的优化准则,直接针对客观评价标准进行优化,从而产生了今天广泛采用的最小错误训练方法(Minimum Error Rate Training)。另一件促进SMT进一步发展的重要发明是翻译结果自动评价方法的出现,这些方法翻译结果提供了客观的评价标准,从而避免了人工评价的繁琐与昂贵。这其中最为重要的评价是BLEU评价指标。虽然许多研究者抱怨BLEU与人工评价相差甚远,并且对于一些小的错误极其敏感,绝大部分研究者仍然使用BLEU作为评价其研究结果的首要(如果不是唯一)的标准。Moses是目前维护较好的开源机器翻译软件,由爱丁堡大学研究人员组织开发。其发布使得以往繁琐复杂的处理简单化。
统计机器翻译的概述
目前,Google翻译的大部分语言对采用的都是统计机器翻译的方法。而近年来Google亦在此本领域保持领先地位,在美国国家标准局组织的机器翻译评测中遥遥领先。统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型,采用最大似然准则进行无监督训练,而近年来常用的基于短语的统计机器翻译则采用区分性训练方法,一般来说需要参考语料进行有监督训练。
人工翻译和机器翻译的差异是什么
一、从翻译准确程度来看。1、人工翻译准确率可趋近于100%,但也取决于译者水平、原文表达水平、行业领域、交稿时间等因素;2、机器翻译的准确率取决于语种、行业领域、原文质量、训练语料、训练模型等因素。二、从翻译的流畅度来看。1、人工翻译讲究“信达雅”,但在实际商业翻译中不会完全体现。准确性和时效性以及价格是客户考虑的重点;2、机器翻译近年来都采用了神经网络算法,相比之前的统计型机器翻译,在流畅度上有了质的提升,即便某些词翻译不准,但语法结构往往很清晰。三、从翻译的效率来看。1、纯人工翻译的效率是很低的,按照语种、语言方向、行业领域的不同,人工翻译8小时的效率一般不会超过5000-8000字;2、机器翻译可以达到毫秒级的翻译时间。
机器翻译和人类翻译有什么区别?
机器翻译和人类翻译是两种不同的翻译方式,它们之间存在着很多区别。机器翻译是通过计算机程序进行的自动翻译,而人类翻译是由人类进行的语言转换。一、速度机器翻译比人类翻译快得多。机器翻译可以在短时间内完成大量文本的翻译工作,而人类需要花费更长的时间来完成相同数量的工作。【例如】假设有一个公司需要将100页的文件从英语翻译成法语,使用机器翻译可能只需要几分钟或几小时完成;但如果使用人类翻译,则可能需要数天或数周才能完成。二、质量虽然机器翻译速度快,但其翻译质量与人类翻译相比,还有很大的提升空间。机器翻译中的语言模型和算法目前仍然无法像人类一样理解语境、感知情境、把握意图和文化背景等细节,因此在某些特定的语言和语境下可能会产生错误或者不准确的翻译结果。【例如】对于一句英文句子“The bank is closed.”,机器翻译可能会将其直接翻译成“银行已关闭”,而人类翻译可能需要考虑上下文和含义,正确翻译为“银行已关门”。三、成本机器翻译相对于人类翻译来说是一个更经济的选项。机器翻译可以在没有人员工资、保险等费用的情况下完成翻译任务。特别是在大量重复性翻译任务中,机器翻译可以节省更多时间和人力资源。【例如】一个公司需要将数百万单词的技术手册从英语翻译为德语,使用机器翻译可能只需要一小部分人员和相对较低的成本即可完成,而人类翻译则需要更多的人员和高昂的成本。四、适用范围机器翻译和人类翻译各有其适用范围。机器翻译更适用于处理大量的短语和常见语言组合,而人类翻译更适用于处理复杂的文本和需要深入理解的语言表达。【例如】机器翻译可以很好地处理商务信函或简单的交易记录等具有标准化结构的翻译任务,但是对于涉及文学、体育等领域或包含隐喻、比喻、俚语等复杂语言表达的文本,则需要人类翻译来进行。总结机器翻译和人类翻译各有其优缺点。在实际应用中,可以根据具体情况选择适合的翻译方式来完成相应的翻译任务。
Google Translate怎么用
方法/步骤
以安卓版为例:大家可以在百度手机助手、或者各大应用市场下载【 Google Translate 】并安装即可。
.
安装完成后,打开Google Translate实时翻译;先选择【 语言 】如下图所示。
首屏中可以看到有文字实时翻译、拍照翻译、语音实时翻译、手写涂鸦翻译等等、
比如文字翻译;只需在白色空白处,输入想要翻译的汉字、字句,而蓝色部分就是实时翻译得到的英文结果。同时你也可以点击【 小喇叭 】试听发音语言。
.
Google翻译手机版强大功能就是实时语音翻译啦;即使你不懂英文,也可以借助实时语音翻译,帮助你说出你想说的英文哦!
操作非常简单,你只需要在语音页面,按下【 中文 】按钮,待小话筒这里显示“请开始说话”时,紧接着用普通话说出你想要说的话 ,而屏幕中也会实时同步显示中、英文词语。等中文说完之后,它就会以英文发音自动翻译出来了。
.
如果你是老外,按下【 English 】按钮,说出你想要说的话,它也会以中文发音自动为你翻译哦。小Y的英语水平简直就是 0 ,只能勉强说上一句 happy new year 、、、、 哈 、、 省略 、、、
.
在实时语音页面,按下中间的【 麦克风 】它会变为双语翻译状态,它可以同时聆听两种语言,对于一个会说中文、一个会说英文的来说,可以通过双语翻译进行实时交流。
.
我们再来看一看镜头翻译功能,很多APP已经实现用相机给文字拍下照片,然后进行翻译,其实谷歌的镜头翻译是不需要拍下照片的,只需点开照相按钮,对准图片,书刊、海报、或一切带有文字的物品,然后按下【 扫描 】
.
此时它就会自动识别出图中可翻译的部分,你可以全选全部翻译,也可以勾选某个部分进行翻译。在翻译结果这里,还可以点击“小喇叭”进行语音播放。
.
Google Translate 还有诸多好玩的功能,等着你去发现哟 ~ ,这里就不一一演示了,比如: 还可以将手机中的短信翻译成英文,手写涂鸦翻译、等等
机器翻译的基本流程有哪几块
[玫瑰]亲,您好!机器翻译的基本流程有哪几块解答:机器翻译的原理是利用计算机将源语言(Source)转换为目标语言(Target),流程是Source→预处理→核心处理→后处理→Target。机器翻译其实是利用计算机把一种自然语言翻译成另一种自然语言的过程,基本流程大概分为三块:预处理、核心翻译、后处理。预处理是对语言文字进行规整,把过长的句子通过标点符号分成几个短句子,过滤一些语气词和与意思无关的文字,将一些数字和表达不规范的地方,归整成符合规范的句子。核心翻译模块是将输入的字符单元、序列翻译成目标语言序列的过程,这是机器翻译中最关键最核心的地方。后处理模块是将翻译结果进行大小写的转化、建模单元进行拼接,特殊符号进行处理,使得翻译结果更加符合人们的阅读习惯。【摘要】
机器翻译的基本流程有哪几块【提问】
[玫瑰]亲,您好!机器翻译的基本流程有哪几块解答:机器翻译的原理是利用计算机将源语言(Source)转换为目标语言(Target),流程是Source→预处理→核心处理→后处理→Target。机器翻译其实是利用计算机把一种自然语言翻译成另一种自然语言的过程,基本流程大概分为三块:预处理、核心翻译、后处理。预处理是对语言文字进行规整,把过长的句子通过标点符号分成几个短句子,过滤一些语气词和与意思无关的文字,将一些数字和表达不规范的地方,归整成符合规范的句子。核心翻译模块是将输入的字符单元、序列翻译成目标语言序列的过程,这是机器翻译中最关键最核心的地方。后处理模块是将翻译结果进行大小写的转化、建模单元进行拼接,特殊符号进行处理,使得翻译结果更加符合人们的阅读习惯。【回答】
机器翻译的基本流程有哪几块
你好 亲亲 目前最重要的两种机器翻译方式:规则法和统计法1. 规则法(rule based machine translation, RBMT),依据语言规则对文本进行分析,再借助计算机程序进行翻译。多数商用机器翻译系统采用规则法。规则法机器翻译系统的运作通过三个连续的阶段实现:分析,转换,生成,根据三个阶段的复杂性分为三级。- 直接翻译:简单的词到词的翻译。- 转换翻译:翻译过程要参考并兼顾到原文的词法、句法和语义信息。因为信息来源范围过于宽泛,语法规则过多且相互之间存在矛盾和冲突,转换翻译较为复杂且易出错。【别说转换了,光是根据各种语法规则,对源语言进行分析都会崩溃好吗!- 国际语翻译:迄今为止,还只是设想。大概是想凭借通用的完全不依赖语言的形式,实现对语言信息的解码。【国际语本身就是人工语言啊,还怎么做到不依赖语言形式。这个想法最早出现在13世纪orz【摘要】
机器翻译的基本流程有哪几块【提问】
你好 亲亲 目前最重要的两种机器翻译方式:规则法和统计法1. 规则法(rule based machine translation, RBMT),依据语言规则对文本进行分析,再借助计算机程序进行翻译。多数商用机器翻译系统采用规则法。规则法机器翻译系统的运作通过三个连续的阶段实现:分析,转换,生成,根据三个阶段的复杂性分为三级。- 直接翻译:简单的词到词的翻译。- 转换翻译:翻译过程要参考并兼顾到原文的词法、句法和语义信息。因为信息来源范围过于宽泛,语法规则过多且相互之间存在矛盾和冲突,转换翻译较为复杂且易出错。【别说转换了,光是根据各种语法规则,对源语言进行分析都会崩溃好吗!- 国际语翻译:迄今为止,还只是设想。大概是想凭借通用的完全不依赖语言的形式,实现对语言信息的解码。【国际语本身就是人工语言啊,还怎么做到不依赖语言形式。这个想法最早出现在13世纪orz【回答】
谁告诉我有好的翻译软件-中英互翻的.
你可以搜搜雅信这个翻译软件,这是个很专业的软件,虽然翻译出来的东西有时候还是很不通顺,主要是语序有问题,但是一些平常的还是翻译的不错。这个是收费的。而且它的词汇库很丰富,各行各业的都有,你需要什么类别的,就可以在翻译之前选择什么类别的,不至于使一词多义的翻译出来不对路子。我现在就在用,当词典用的话比词典好多了。