当前位置: 主页 > 摘要 > - 正文

摘要跨言语搜刮引擎使英语单语阐发师可以或许找到与其查询拜访相

作者:摘要跨言语搜刮引擎使英语单语阐发师可以或许找到与其查询拜访相   来源:未知   发布时间:2019-04-10 23:26 点击:

  Shen和前林肯尝试室的事情职员Sharon Tam在2010岁首年月起头了HLT集团在CLIR的事情。HLT社区的钻研职员之前曾经证实文档翻译比查询翻译更精确; 因而,Shen和Tam专一于评估文档翻译与概率CLIR的比力。他们发觉,与文档翻译比拟,概率CLIR的精度至多提高了30%,因而他们决定将概率CLIR算法用于CLASE。

  林肯尝试室钻研职员努力于钻研的一个范畴是跨言语消息检索(CLIR)。Cross-LAnguage搜刮引擎(CLASE)是由HLT Group为联邦查询拜访局(FBI)开辟的CLIR东西。CLASE是言语识别,机械翻译,消息检索和查询方向摘要的尝试室钻研的融合。CLASE使英语单语阐发师可以或许协助搜刮和过滤外语文档 - 这些使命保守上仅限于外语阐发师。

  “咱们有乐趣实现高记忆率。若是咱们不检索所有有关文件,咱们可能会错过一个环节的证据,”Coury说。“当咱们搜刮Google时,咱们凡是只对第一页上10个最有关的成果感乐趣。对付法律社区,咱们但愿识别每个可能成心义的搜刮成果。”?

  “跨言语查询方向摘如果CLASE的主要构成部门,由于它能够协助阐发职员决定他们该当阅读哪些外语文档。咱们能够操纵这一摘要来改善全体体系记忆,”Williams注释道。尽管理论上查询方向的摘要能够使阐发师更快地事情,但还必要进行分外的钻研来确定这种摘如果否合用于实在世界的CLIR体系,比方CLASE。

  自2012年插手林肯尝试室以来,Coury曾经成立了Shen和Tam的开端尝试,以评估与FBI案件相关的CLIR表示。成果令人鼓励,HLT集团置信他们的CLIR手艺是最先辈的,CLASE是FBI阐发师在文档分类时期利用的有用东西。“咱们的概率方式对付检索跨言语文档至关主要。联邦查询拜访局的单语者第一次能够帮助进行文件分类,为较小的外语专家添加了更多的阐发师,”Coury说。

  起首,外语文件通过机械翻译翻译成英文。机械翻译模子概率地将外来词投射到英语中,然后输出蕴含所有可能翻译的翻译格,其拥有各自的精确概率。“比方,法语单词capacityit的格子将显示英语单词capacity 和ability的毗连和概率分数,” Michael Coury说道。HLT集团。在阐发师对文档调集的查询的根本上,将从调集中提取蕴含最可能的翻译的文档以进行阐发,即便它们蕴含第二或第三最可能的翻译候选者。此方式答应阐发职员检索查询或文档翻译未找到的文档。CLIR成果的评估基于切确度(检索到的有关文档的比例),召回(检索的有关文档的比例)和F-怀抱(精度和召回的和谐均匀值)。

  FBI锻炼翻译模子固有的问题是绘制可用锻炼数据的域与FBI感乐趣的域之间的不婚配。此上下文中的域是指拥有本人的书写样式,内容和商定的主题或字段。比方,推文制约为140个字符,并以休闲气概编写,凡是蕴含缩写和拼写错误; 旧事文章相当长,并带有主要消息; 差人演讲以正式体例编写,蕴含奇特的术语。按照林肯学者打算在麻省理工学院攻读高级学位的HLT小构成员Jennifer Drexler暗示,当获取锻炼数据的域与感乐趣的数据地点的域雷同时,转换精度最佳。如许的婚配有助于建立翻译模子,该模子被奉告方针域内的渺小不同和特征。然而,在感乐趣的范畴中获取锻炼数据可能是坚苦且高贵的。它必要数百万个并行的人工翻译文档来建立主动翻译模子。人工翻译每个单词的本钱在0.20美元到0.80美元之间。对付稀有的言语,比方乌尔都语,翻译用度是高额的,以嘉奖翻译职员的专业学问。获取感乐趣的范畴中的锻炼数据可能是坚苦且高贵的。它必要数百万个并行的人工翻译文档来建立主动翻译模子。人工翻译每个单词的本钱在0.20美元到0.80美元之间。对付稀有的言语,比方乌尔都语,翻译用度是高额的,以嘉奖翻译职员的专业学问。获取感乐趣的范畴中的锻炼数据可能是坚苦且高贵的。它必要数百万个并行的人工翻译文档来建立主动翻译模子。人工翻译每个单词的本钱在0.20美元到0.80美元之间。对付稀有的言语,比方乌尔都语,翻译用度是高额的,以嘉奖翻译职员的专业学问。

  如前所述,CLASE严峻依赖于尝试室在言语识别和机械翻译方面的钻研。詹妮弗威廉姆斯同样在HLT集团,不断在开辟算法来识别文本数据中具有的言语,以便CLASE能够取舍恰当的机械翻译模子。据威廉姆斯称,文本言语识别面对很多应战。必要靠得住的方式来提高区分拥有类似字符集的言语的精确性。区分类似言语并不是文本言语识此外独一问题。另一个应战涉及在语音的根本上处置用户天生的内容,该内容已被罗马化或转录为拉丁字母。“这种做法的一个例子是用罗马化阿拉伯语写的推文,在HLT社区中被称为Arabizi。咱们也看到了罗马化的中文,俄文和其他言语,”威廉姆斯说。在某些环境下,言语的根本现实数据是不具有的(比方,对付低资本言语,如乌尔都语和豪萨语)或不靠得住。“不具有通用的言语识别体系,因而分歧体系之间的差别可能是极真个,”她弥补道。

  尝试室钻研职员思量了HLT钻研界呈现的三种CLIR算法:查询翻译,文档翻译和概率CLIR。在查询翻译中,讲英语的阐发师查询外语文档中的英语短语; 该查询通过机械翻译翻译成外语。然后将蕴含翻译查询的最有关的外语文档翻译成英语并前往给阐发师。在文件翻译中,外文文件被翻译成英文; 然后,阐发师在翻译的文档中查询英语短语,并将最有关的文档前往给阐发师。概率CLIR,HLT集团钻研职员正在采纳的方式!

  该小组的其他钻研职员正在建立主动将文本从一种言语翻译成另一种言语的体系。按照Salesky的说法,这些机械翻译事情对HLT集团在CLIR的事情至关主要。Wade Shen是HLT集团的副组长,目前正在国防高级钻研打算局负责当局间人事法案,而且大学钻研职员开辟了一个名为Moses的开源统计机械翻译东西包。这种基于短语的体系答应用户锻炼任何言语对的翻译模子,并在可能的取舍中找到最高概率的翻译。

  目宿世界上大约有6000种言语,” 麻省理工学院林肯尝试室人类言语手艺(HLT)小组的Elizabeth Salesky说。“在法律界,没有足够的多语种阐发师具备需要的熟练水平来理解和阐发这些言语的内容,”她继续说。

  Drexler和Shen与当局钻研职员竞争,发觉当感乐趣的范畴中的锻炼数据量无限时,能够利用分层最大后验(MAP)顺应1来改善翻译成果,但来自其他范畴的大量数据是可用。这就是CLASE体系的环境 - 因为平安思量要素制约了翻译职员对域内数据的拜候,因而能够利用相对少量的“域内”FBI数据来锻炼翻译模子,但“域外“数据(比方,旧事文章或博客)更丰硕。分层MAP自顺应手艺供给了组合来自这些分歧域的模子的道理体例!

  按照Coury的说法,有良多实在场景​​能够从利用CLASE中受益。“你能够想象它在叙利亚难民危机时期被利用。环节字搜刮能够在网络的推专长进行,以协助阐发职员找到躲藏在移民群体中的潜在,”他说。Coury和他的同事们也对该手艺若何有益于人性主义支援和救灾事情感乐趣 - 在涉及翻译职员稀缺且没有主动化HLT手艺的言语的危机时期倏地检索消息。

  为了评估CLIR查询误差摘要的效用,该团队进行了尝试,比力了以下类此外13种摘要方式:无偏全机翻译文本,无偏词云,查询方向词云和查询方向句子摘要。他们发觉,在记忆,使命时间和精确性方面,查询方向词云是最佳的全体总结计谋。然而,用户在消化消息方面有分歧的偏好或需求,威廉姆斯自己就是如许,他不喜好文字云。一些用户可能更喜好句子,而其他用户可能更喜好听觉信号而不是消息的文本或视觉暗示。

  CLIR钻研曾经导致了若何将检索到的内容出现给阐发师的有关问题 - 这是Williams,Shen和Tam在2013年起头钻研的一个问题.Williams继续带领这项事情来界说查询方向摘要与全体体系机能之间的关系作为一小我在轮回的问题。Williams及其同事发觉,在给出阐发师的查询时,能够利用查询方向的摘要算法主动捕捉文档中的有关内容,然后将该内容出现为原始文档的精简版本。“搜刮引擎利用这种摘要,供给蕴含搜刮前提的网站链接的片断,”威廉姆斯说。

  随实在验室钻研职员继续在机械翻译,CLIR和查询方向总结方面取得进展,这些前进将被整合到CLASE中,并将继续协助阐发师倏地精确地找到他们所需的消息。“当我在HLT文献中搜刮钻研团队进行钻研并遏制钻研时,我留意到了这一点,”威廉姆斯说。“每项钻研都试图处理一个很是具体的问题。没有一项事情连系了机械翻译,消息检索和查询成见的总结。林肯尝试室是第一个将所有这些范畴连系在一路的人。

  这种言语太多而专业阐发职员太少的问题是Salesky和她的同事正在勤奋为法律机构处理这个问题,但他们的事情有可能合用于国防部和谍报界。该钻研团队正在操纵言语识别,措辞人识别,语音识别,机械翻译和消息检索方面的严重进展来主动施行言语处置使命,以便能够更无效地利用可用于阐发文本和白话外语的言语专派别量无限。“通过HLT,相当于外语阐发师的20倍,”Salesky说。

Power by DedeCms