品牌 资讯 搭配 材料 时尚 热点 行业 首饰 玉石 行情

Meta用圣经训练多语言模型-热头条

2023-05-24 13:26:10 来源:机器之心Pro

机器之心报道


(资料图片仅供参考)

编辑:Panda

在《圣经》中有一个巴别塔的故事,说是人类联合起来计划兴建一座高塔,希望能通往天堂,但神扰乱了人类的语言,计划也就因此失败。到了今天,AI 技术有望拆除人类语言之间的藩篱,帮助人类造出文明的巴别塔。

近日,Meta 的一项研究向这个方面迈出了重要一步,他们将新提出的方法称为 Massively Multilingual Speech(超多语言语音 / MMS),其以《圣经》作为训练数据的一部分,得到了以下成果:

在 1107 种语言上用 wave2vec 2.0 训练得到了一个有 10 亿参数的多语言语音识别模型,相比于 OpenAI 的 Whisper 模型,其错误率降低了 50% 以上。

单个音频合成模型就支持这 1107 种语言的文本转语音(TTS)。

开发了一个能够辨别 4017 种语言的语言辨识分类器。

对于很多罕见语言的数据稀少问题,Meta 是如何解决的呢?他们采用的方法很有意思,即采用宗教的语料库,因为像是《圣经》这样的语料具有最「对齐的」语音数据。尽管这个数据集偏向宗教内容并且主要是男性声音,但其论文表明这个模型在其它领域以及使用女声时也表现优良。这是基础模型的涌现行为,着实让人惊叹。而更让人惊叹的是,Meta 将新开发的模型(语音识别、TTS 和语言辨识)都免费发布出来了!

模型下载:https://github.com/facebookresearch/fairseq/tree/main/examples/mms

论文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

新提出的方法

为了打造出一个能识别千言万语的语音模型,首要的挑战是收集各种语言的音频数据,因为现目前已有的最大语音数据集也只有至多 100 种语言。为了克服这个问题,Meta 的研究者使用了宗教文本,比如《圣经》,这些文本已被翻译成了许多不同语言,并且那些译本都已被广泛研究过。这些译本都有人们用不同语言阅读的录音,并且这些音频也是公开可用的。使用这些音频,研究者创建了一个数据集,其中包含人们用 1100 种语言阅读《新约》的音频,其中每种语言的平均音频长度为 32 小时。

然后他们又纳入了基督教的其它许多读物的无标注录音,从而将可用语言数量增加到了 4000 以上。尽管这个数据集领域单一,并且大都是男声,但分析结果表明 Meta 新开发的模型在女声上表现也同样优良,并且该模型也不会格外偏向于产生更宗教式的语言。研究者在博客中表示,这主要是得益于他们使用的 Connectionist Temporal Classification(连接主义时间分类)方法,相比于大型语言模型(LLM)或序列到序列语音识别模型,这种方法要远远更为受限。

潜在的性别偏见情况分析。在 FLEURS 基准上,这个在超多语言语音(MMS)数据集上训练的自动语音识别模型在男声和女声上的错误率是差不多的。

为了提升数据质量,使之能被机器学习算法使用,他们还采用了一些预处理方法。首先,他们在现有的 100 多种语言的数据上训练了一个对齐模型,然后再搭配使用了一个高效的强制对齐算法,该算法可处理 20 分钟以上的超长录音。之后,经过多轮对齐过程,最终再执行一步交叉验证过滤,基于模型准确度移除可能未对齐的数据。为了方便其他研究者创建新的语音数据集,Meta 将该对齐算法添加到了 PyTorch 并放出了该对齐模型。

要训练出普遍可用的监督式语音识别模型,每种语言仅有 32 小时的数据可不够。因此,他们的模型是基于 wav2vec 2.0 开发的,这是他们之前在自监督语音表征学习上的研究成果,能极大减少训练所需的有标注数据量。具体来说,研究者使用 1400 多种语言的大约 50 万小时语音数据训练了一个自监督模型 —— 这个语言数量已经超过之前任何研究的五倍以上了。然后,基于具体的语音任务(比如多语言语音识别或语言辨识),研究者再对所得模型进行微调。

结果

研究者在一些已有基准上评估了新开发的模型。

其多语言语音识别模型的训练使用了含 10 亿参数的 wav2vec 2.0 模型,训练数据集包含 1100 多种语言。随着语言数量增加,模型性能确实会下降,但下降幅度非常小:当语言数量从 61 种增加到 1107 种时,字符错误率仅上升了 0.4%,但语言覆盖范围却增加了 18 倍以上。

在 61 种 FLEURS 语言的基准测试上,随语言数量增长的字符错误率变化情况,错误率越高,模型越差。

通过对比 OpenAI 的 Whisper 模型,研究者发现他们的模型的词错误率仅有 Whisper 的一半,而同时新模型支持的语言数量还多 11 倍。这个结果足以表明新方法的卓越能力。

在可直接比较的 54 种 FLEURS 语言的基准测试上,OpenAI Whisper 与 MMS 的词错误率对比。

接下来,使用之前已有的数据集(如 FLEURS 和 CommonVoice)和新数据集,Meta 的研究者还训练了一个语言辨识(LID)模型,并在 FLEURS LID 任务上进行了评估。结果表明,新模型不仅表现很棒,而且支持的语言数量也增加了 40 倍。

之前的研究在 VoxLingua-107 基准上也仅支持 100 多种语言,而 MMS 支持超过 4000 种语言。

另外 Meta 还构建了一个支持 1100 种语言的文本转语音系统。当前文本转语音模型的训练数据通常是来自单个说话人的语音语料。MMS 数据的一个局限性是许多语言都只有少量说话人,甚至往往只有一个说话人。但是,在构建文本转语音系统时,这却成了一个优势,于是 Meta 就顺便造了一个支持 1100 多种语言的 TTS 系统。研究者表示,这些系统生成的语音质量其实相当好,下面给出了几个例子。

约鲁巴语、伊洛科语和迈蒂利语的 MMS 文本转语音模型演示。

尽管如此,研究者表示 AI 技术都仍不完美,MMS 也是如此。举个例子,MMS 在语音转文本时可能错误转录选定的词或短语。这可能导致输出结果中出现冒犯性和 / 或不准确的语言。研究者强调了与 AI 社区合作共同进行负责任开发的重要性。

用单个模型支持千言万语的价值

世界上有许多语言濒临灭绝,而当前的语音识别和语音生成技术的局限性只会进一步加速这一趋势。研究者在博客中设想:也许技术能鼓励人们留存自己的语言,因为有了好的技术后,他们完全可以使用自己喜欢的语言来获取信息和使用技术。

他们相信 MMS 项目是朝这个方向迈出的重要一步。他们还表示这个项目还将继续开发,未来还将支持更多语言,甚至还会解决方言和口音的难题。

标签:

(责任编辑:)

相关文章

Meta用圣经训练多语言模型-热头条

​机器之心报道编辑:Panda在《圣经》中有一个巴别塔的故事,说是人类联合起来计划兴建一座高塔,希望能通往

2023-05-24 13:26:10

罗汉竹水培怎么养才正确(水培罗汉竹养殖注意事项)_今日热闻

​1、勤加换水:水培罗汉竹需要使用干净的水,每隔3到4天换一次水。2、养殖环境:温度在20度左右时生长旺盛,冬季

2023-05-24 12:12:13

环球今日报丨家联科技:5月23日融资买入176.45万元,融资融券余额3791.4万元

​5月23日,家联科技(301193)融资买入176 45万元,融资偿还256 55万元,融资净卖出80 1万元,融资余额3791

2023-05-24 11:20:18

与上海地铁11号线无缝对接!苏州轨道交通11号线即将开通运营-焦点短讯

​据苏州发布介绍,自5月1日开始,与上海地铁11号线无缝对接的苏州轨道交通11号线已进入为期20天的“跑图”阶段

2023-05-24 10:47:39

2022年生态环境部门排污许可领域实施行政处罚1.7万件|世界百事通

​新华社北京5月23日电生态环境部5月23日发布,2022年,各级生态环境部门开展各类排污许可执法检查53 8万次,

2023-05-24 10:05:03

连环锤!刚追完就暴跌,最热ETF两天大跌15%!这些跨境ETF火了-基金频道-和讯网

​23日盘前,易方达基金和华夏基金的2只基金纷纷发布公告,旗下的“野村日经225ETF(QDII)”、“日兴资管日

2023-05-24 09:25:18

【环球速看料】2022年生态环境部门排污许可领域实施行政处罚1.7万件

​新华社北京5月23日电 生态环境部5月23日发布,2022年,各级生态环境部门开展各类排污许可执法检查53 8

2023-05-24 08:33:42

全球快报:湖北出台支持数字经济高质量发展“15条” 大手笔推动数字经济与实体经济深度融合

​湖北出台支持数字经济高质量发展“15条”大手笔推动数字经济与实体经济深度融合---湖北日报讯(记者张爱虎

2023-05-24 07:44:26

充电桩也要做好隐私保护|实时

​我国在优化、扩大充电桩布局的同时,还需高度警惕信息泄露风险。充电桩生产商和相关服务平台应担起首要

2023-05-24 06:42:18

硬核科技论 | 不用充电的电动车 奇骏e-POWER有点新东西!-今日热讯

​奇骏的e-POWER区别于现有的油电混动、插电混动和增程式动力,和油电混动的区别是e-POWER无论何时都是100%电

2023-05-24 06:02:27

氯化钠注射液_多巴胺注射液说明书

​1、建议:适用于心肌梗死、创伤、内毒素败血症、心脏手术、肾功能衰竭、充血性心力衰竭等引起的休克综合征

2023-05-24 04:19:23

长沙县金井镇横山小学开展心理健康公益讲座 环球新视野

​长沙县心理卫生学会的老师在该县金井镇横山小学开展心理健康公益讲座。红网时刻新闻5月23日讯(记者 张

2023-05-24 02:31:06

浐灞十六小开展青蓝工程师徒结对汇报课活动

​阳光讯(李娟记者张允铎)为进一步营造浓厚的师徒互帮互学的学习氛围,提高教师专业素养和教学能力,充分发

2023-05-24 01:26:52

连续两周大回撤!流言四起 私募“魔女”怒怼 全球微资讯

​近期,半夏投资创始人兼私募基金经理李蓓主管的私募产品“半夏稳健混合宏观对冲”连续两周出现大回撤。在此

2023-05-24 00:29:33

天天时讯:涞源县气象台发布大风蓝色预警【Ⅳ级/一般】【2023-05-23】

​涞源县气象台2023年05月23日14时22分发布大风蓝色预警信号:预计今天下午到夜间,涞源县全部乡镇有偏南风4-

2023-05-23 23:46:53

如何实现高质量“家门口的照护”?徐汇9家“宝宝屋”正式建成运营!

​1—3岁婴幼儿如何实现高质量“家门口的照护”?今年以来,徐汇正加速建设社区托育点。目前,“宝宝屋”的建

2023-05-23 23:15:40

无主群城_关于无主群城介绍

​无主群城,关于无主群城介绍这个很多人还不知道,现在让我们一起来看看吧!1、《无主群城》是楚静所著的一本

2023-05-23 21:37:52

Vidda实力不容小觑,助力三色激光市场飞速发展|关注

​今年一直在智能激光投影行业持续火热化的三色激光投影,令市场以及观众印象深刻的海信旗下的小品牌Vidda,

2023-05-23 21:12:53

看点:童话故事狼来了 童话故事狼来了完整的一组动漫图片

​今天来聊聊关于童话故事狼来了,童话故事狼来了完整的一组动漫图片的文章,现在就为大家来简单介绍下童话故

2023-05-23 20:05:22

世界今亮点!《2023年中国餐饮消费趋势》发布:淄博烧烤爆红的秘密藏在这里

​近日,红餐产业研究院发布了《2023年中国餐饮消费趋势》报告。5月19日,红餐产业研究院执行院长唐欣在“202

2023-05-23 19:25:07

环球关注:米酒怎么吃法简单又好吃(米酒怎么吃法大全)

​你们好,最近小活发现有诸多的小伙伴们对于米酒怎么吃法简单又好吃,米酒怎么吃法大全这个问题都颇为感兴趣

2023-05-23 18:36:37

区征收中心对浦江镇召楼古镇开发地块拆迁房屋拆除工程安全检查

​2023年5月19日下午,区征收中心对浦江镇召楼古镇开发地块拆迁房屋拆除工程进行开工前安全检查。市拆房办领

2023-05-23 18:17:54

世界热讯:在妙山村,瞥见未来乡村美妙模样|高质量发展调研行·浙江站

​从湖州市区一路向西驱驰,车窗外,绿意渐次滋长。连片的茂林修竹,在斜风细雨里晕染成浓淡不同的绿,在

2023-05-23 17:33:51

这届大学生都在智能大会上整了什么活?快来看看! 要闻速递

​本届智能大会上,各家参展高校都拿出了压箱底的高科技,敦煌文化的AR日历、酷似“钢铁侠”的全自主无人机飞

2023-05-23 16:23:51

世界实时:大华继显:维持翰森制药(03692)“买入”评级 目标价18港元

​翰森制药(03692)目标是在2025年有15种创新药物或新适应症上市。

2023-05-23 16:01:59

微动态丨创业板指跌幅扩大至1%

​创业板指跌幅扩大至1%

2023-05-23 14:56:39

“二阳”比“首阳”症状轻吗?权威解答

​【“二阳”比“首阳”症状轻吗?权威解答】近期有不少人反映自己二次感染了新冠病毒。为什么会“二阳”?“

2023-05-23 14:14:43

精选!特别报道|“国鸭”原来是这样的“宝”

​位于吉林省长白山脚下的二道白河镇中心有一座人工湖,湖水清澈、食物丰富,生态环境极佳。它有一个很好听的

2023-05-23 13:22:04

香港扩大输入专才,勿忘本地培训_每日速看

​政府日前宣布扩大“人才清单”,涵盖的专业和工种由原有的13项增加至51项,并即时应用于“优秀人才入境计划

2023-05-23 12:48:28

《雷神》和《星球大战》男星在意大利拍片时猝死,离59岁生日仅4天,死因不明-当前最新

​《雷神》和《星球大战》男星在意大利拍片时猝死,离59岁生日仅4天,死因不明---据BBC5月23日报道,出演过《

2023-05-23 12:04:08