2 月 18 日消息,亚马逊人工智能研究团队宣布开发了一个据称是史上最大的文本转语音模型,该模型拥有最多的参数,并使用了最大的训练数据集。研究人员已经在 arXiv 预印本服务器上发表了一篇论文,详细描述了模型的开发和训练过程。 近年来,像 ChatGPT 这样的“大型语言模型”凭借其智能回答问题和生成高级文本的能力而备受关注。然而,人工智能也在逐步融入其他主流应用领域。在这个新项目中,研究人员尝试通过增加参数数量和扩充训练数据集来提升文本转语音应用的能力。 据IT之家了解,这个名为“可扩展流式文本转语音模型”(BASE TTS)的新模型拥有 9.8 亿个参数,并使用 10 万小时的录音(来自公共网站)进行训练,其中大部分为英语语音。研究人员还向模型提供了其他语言的单词和短语示例,使其能够正确发音一些常见的表达,例如“au contraire” 和 “adios, amigo”。 亚马逊团队还测试了使用较小数据集的模型,希望能从中发现人工智能领域所说的“涌现能力”。这种能力是指人工智能应用,无论是大型语言模型还是文本转语音模型,突然突破到更高智能水平的现象。他们发现,对于文本转语音应用而言,这种飞跃发生在参数量达到 1.5 亿的中型数据集上。 研究人员还指出,这种飞跃涉及一系列语言属性,例如使用复合名词、表达情感、使用外语词、应用语音学和标点符号以及正确强调句子中的关键词等能力。 研究团队表示,出于对潜在滥用风险的担忧,BASE TTS 将不会向公众开放,他们计划将其作为学习应用,并期望将学到的知识应用于改善文本转语音应用的整体音质。 |
推荐阅读: |
亚马逊开发出有史以来最大的文本转语音模型
2024-02-18 20:12:37
浏览
亚马逊开发出有史以来最大的文本转语音模型
相关阅读
图文阅读
今年的网络星期一购物活动包括American Girl、Lemme、vVardis、Peloton和Skullcandy等顶级品牌的特卖活动。
2022-11-23 17:30:33
此外,在13个行业赛道的爆款榜、品牌榜、店铺榜曝光之后,又新增了“趋势榜”10款商品,以数据前瞻各细分类目的趋势爆品,为从业者带来更透彻的消费偏好参考。
2022-06-11 21:27:32
但在4月1日晚,阿里巴巴集团合伙人戴珊在公司内网发布全员公开信——《MMC,吹响集结号!》,这份公开信透露,阿里MMC事业群的核心使命是“服务每家店,只为每个家”。钛媒体APP了解到,阿里巴巴MMC事业群成立于3月1日,由阿里合伙人戴珊负责。
2021-04-05 16:00:04
微信将针对视频号开放一级流量入口,视频号将放置在底部状态栏,单独占用一个tab,和通讯录并列,网传截图显示,这一入口预计在今年8-10月推出,甚至可能比传言的预期更快。
2023-03-19 18:36:29
该功能的使用步骤为:点击Seller Cockpit Pro的“营销”选项卡,转到社交媒体页面并滚动到“您的社交媒体帐户”部分;
2023-11-30 11:11:12
近日,在市场研究机构Marketplaces Hoy的一项评选中,SHEIN击败Leroy Merlín、MediaMark等一众国际知名平台,获选西班牙最佳新平台,并被列为2024年推荐渠道。
2024-12-04 11:27:16
兰芝快手官方旗舰店与拥有2亿粉丝的快手电商官方账号快手小店发起互动直播,送出福利款秒杀宠粉福利。未来兰芝快手官方旗舰店将固定在每天17:00-23:00进行直播,分享护肤心得。
2022-05-03 18:59:48