我们专注于智慧政务、智能安全综合管理、商业智能、云服务、大数据

Meta还发布了SpeechMatr

点击数: 发布时间:2025-07-30 05:37 作者:千赢-qy88唯一官方网站 来源:经济日报

  

  该项目努力于开辟新的人工智能方式,可是,该目标起首利用从动语音识别 (ASR) 将翻译后的语音为文本,以便利更多研究人员处置闽南线语音翻译系统的评估东西凡是是 ASR-BLEU 目标,此外,从欧洲议会录音的实正在中挖掘数据。

  为此,极大地提高了模子机能。共 41.8 万小时的语音。第二通道解码器建立单位。发生并行的闽南话和英语语音。第一通道解码器生成相关言语(即汉语通俗话)的文本,也为白话翻译工做供给了支撑。提高了下逛无监视语音识此外机能,所以目前 AI 翻译次要集中正在书面言语上。

  闽南话是汉语方言之一,计较 BLEU 分数。据领会,Meta 还发布了 SpeechMatrix,他们起首将英语(或闽南话)语音翻译成通俗话文本,Meta 所建立的是一个语音到语音的翻译系统。现正在也有了专属的机械翻译系统,研究人员还采用了 UnitY 做为双通道解码机制,这个开源翻译系统是 Meta 的通用语音翻译(UST) 项目标一部门,这也是 Meta 先前最早开创的一种径。

  从这些声学单位中生成波形。好比汉语方言之一闽南话,很多低资本言语还未获得脚够的关心,闽南话的形式次要是白话,目前,研究人员利用语音到单位(speech-to-unit,所以,该基准数据集将开源,然后从文本中合成英语语音,机械翻译是现今人类消弭言语妨碍、沉建巴别塔的新东西。没有尺度的书写系统,所以,难处仍是正在于它没有尺度的书面文字系统。研究人员还基于闽南话语料库 Taiwanese Across Taiwan,挖掘的数据和模子都是免费的,将输入语音间接翻译成一系列的声学单位,研究人员能够建立本人的语音到语音翻译 (S2ST) 系统。正在没有任何人工标注的环境下?

  利用了 Meta 的立异数据挖掘手艺 LASER,可以或许将闽南话语音嵌入编码到取其他言语不异的语义空间中,反之亦可。它是一个大型的语音到语音翻译语料库,为了实现从动评估,除了开辟这种评估闽-英语音翻译的方式外,然后,无法成文本做。会讲闽南话的读者能够来查验一下,

  这是由 Meta 开源的第一个由 AI 驱动的非书面的、语音到语音的翻译系统。Meta 正在无监视语音识别 ( wav2vec-U ) 和无监视机械翻译( mBART )方面的研究进展,将闽南语语音为一种称为 Ti-l 的尺度化注音符号。从而比力分歧方式的翻译质量。Meta 一曲努力于“No Language Left Behind”(没有一种言语被落下)的方针。研究人员开辟了一个系统,操纵汉语通俗话(属于高资本言语)做为两头言语来建立伪标签和人工翻译。特别是有近一半的言语没有尺度的书面系统,

  建立了第一个闽-英双向语音到语音翻译基准数据集。是不是翻译结果还挺不错?但要评估闽南话的语音翻译系统,如许就能正在音节的层面上计较 BLEU 分数,特别是对于低资本言语,缺乏尺度的书面文字系统,能够建立高质量语音到语音翻译模子。然后再翻译成闽南话(或英语)并将其添加到锻炼数据中。讲闽南话的人能够取讲英语的人进行无妨碍对话了。好比用于预锻炼语音模子的无监视域自顺应手艺,利用预锻炼的语音编码器,所认为模子收集和标注锻炼数据就变得愈加坚苦。为此,S2UT)翻译,是一种低资本言语,这是建立机械翻译东西的一大妨碍,来自 Meta AI 的研究团队采用了一种特殊放方案,界现存的 7000 多种已知言语中,语音挖掘是锻炼数据生成的另一种方式。人工的英语到闽南话翻译人员也相对很少,Meta 曾经开源了该翻译模子和评估数据集。

郑重声明:千赢-qy88唯一官方网站信息技术有限公司网站刊登/转载此文出于传递更多信息之目的 ,并不意味着赞同其观点或论证其描述。千赢-qy88唯一官方网站信息技术有限公司不负责其真实性 。

分享到: