11月20日,爱数智慧发布中文普通话真·萌童声语音合成(TTS)开源数据集。该数据集由真童声录制,为中文童声语音合成数据集子集,时长为15分钟,文本主要为日常用语。据了解,数据集全集包含2235句话,时长超2小时。这也是该童声第一次用于TTS录制。
随着智能终端市场的扩张,人机交互逐渐成为与智能世界对话的入口。在人机互动过程中,语音合成(TTS)的自然度和表现力是用户最能直观感受到的部分。用户使用智能设备的频率增加,对合成语音的期望值也不断提高。
TTS数据是影响语音合成效果的重要因素。由于TTS数据的采集和标注要求严格,因而成品数据集较少。从采集环节来看,录音需要在专业的录音棚中进行,并严格控制噪声水平,才能最大限度还原发音人声音。录音过程中还需要有专业的录音师和监听人在场,便于及时矫正录音过程中的错误。从标注环节来看,TTS数据标注分为4个层级,包括发音校对、韵律层级、音素边界切分和分词词性。为了充分保留发音人的语义表达和发音习惯,标注准确率要求一般在99%左右。
智能设备使用者“低龄化”趋势明显,从而带动了童声数据的需求。受制于儿童识字水平和配合情况,市面上童声TTS数据库数量较少,且多为成年人模仿。童声TTS语料库呈现出明显的供需不平衡。
本次爱数智慧发布的TTS童声开源数据集采集环境为符合NC-20标准的录音间并根据儿童发音习惯对数据进行转写和全链条标注。考虑到句内停顿和句间停顿对听感的影响,在音素边界切分环节,标注人员除了对声韵母边界进行切分外,还对句中静音段和句首尾进行精准切分。
发音人是影响TTS数据质量的重要因素。该数据集的发音人为4岁小朋友妞妞。2019年初,发音韵律好的妞妞在上百位4-6岁小朋友中脱颖而出。因为发音韵律好能为用户带来更好的听感。
在与爱数智慧工作人员接触中,我们了解到妞妞性格活泼开朗,喜欢看冰雪奇缘和小马宝莉。在录制休息期间,想要看动画片时,就会黏着工作人员撒娇。录制工作已经结束很久,工作人员在提起妞妞时,言语间还是充满着浓浓的不舍与赞赏。这份由衷的赞赏,也让我们对这个真·萌童声充满期待!
为智能世界提供充足的数据生产力是这家公司创立的初衷。我们也期待爱数智慧用更多高质量的数据解锁更多应用场景,服务更广域的客户。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
虽然我国汽车芯片行业还处在发展初期,但已经迸发出无限潜力。一方面,智能汽车的发展不断带动需求增长;另一方面,政策引导下,汽车芯片企业持续抢占高地。对此,在7月5日-7日举办的2023年中国汽车论坛上,中国汽车工业协会副秘书长李邵华就做出表示,“中国将成为未来汽车芯片发展的集聚地”。车规芯片行业近日的
2023世界人工智能大会将于7月6日至8日在上海举办。云天励飞将在大会上展示自主设计开发的新一代边缘计算芯片DeepEdge10系列SoC芯片,并公布“天书”大模型的最新动态。欢迎莅临上海世博展览馆H1-C801展台参观交流!同时,云天励飞也将与中国电子、中国信通院、华为等合作伙伴,在WAIC的舞台
6月28日,首届中国智慧生活大会(CIC)在北京成功召开。本次大会是对贯彻扩大内需政策,落实国务院“三品战略”,结合“2023消费提振年”工作安排的积极响应。会议由中国电子视像行业协会、中国标准科技集团、中家院(北京)检测认证有限公司联合指导,洛图科技(RUNTO)主办,京东3C数码和植理文化协办。
近日,酷学院智能产品发布会在深圳闪亮登场。近200位现场观众和近万人次在线观看,共同见证了这一激动人心的时刻。发布会上,酷学院引领大家探索企业培训学习和人才发展领域的新高度,并揭幕其全新的产品智能升级和突破。酷学院产品负责人徐晨通过形象生动、逻辑严谨的讲述,揭晓了全新的智能企业培训和人才发展平台,以
在大模型代表的新一轮技术浪潮下,智能化转型已然是毋庸置疑的趋势,科技大厂们纷纷给出了智能化的“道法术”,大大小小的企业也开始更新认知,想要从创新中挖掘出驱动增长的新质生产力。但现实和智能化的美好愿景之间,仍然横亘着一片鲜有人涉足的“荒海”,脚下还没有坚实的路。3月23日在天津举办的昇腾AI开发者创享
©自象限原创作者丨罗辑、苏奕编辑丨程心2024年开年,科技圈没有什么比Sora的出现更让人兴奋。如同ChatGPT在2023年初带来的LLM创业潮,Sora的发布也同样将视频生成模型推到了风口浪尖。科技巨头猛推产品,创业公司则乘风而上。3月13日,AI视频大模型公司爱诗科技完成亿元级人民币A1轮融资
当为科学技术巡游一方的神,行至人工智能的篇章,中国公司的2023年报里,写着AIGC的前世今生。翻开科技进步的编年史,每一次技术革命都有这样一条铁律:技术革命的最大受益者,通常不是率先做出突破的开疆派,而是率先将其发扬光大的技术流。靠着工业革命超越日不落的美利坚,把同样的故事,转载到了50年代的半导
3月22日,由天津蜜度文修智能科技有限公司主办的智能校对大模型文修2.0智臻发布会在津举行。发布会以“大模型赋能‘人工智能+办公’体验升级”为主题,邀请语言智能领域专家,以及各大媒体机构和合作伙伴,围绕大模型技术、应用落地发展、标准化进程进行分享交流。发布会上还发布了智能校对大模型文修2.0。天津市
3月22日消息,阿里通义千问重磅升级,向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。即日起,所有金融、法律、科研、医疗、教育等领域的专业人士,都可通过通义千问网站和APP快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文
关注卢松松,会经常给你分享一些我的经验和观点。马斯克是真男人啊,不仅SpaceX发射基地可以随意参观、连设计图纸都公开了。SpaceX刚刚发射完没几天,连他的AI大模型Grok-1也正式开源了。Grok-1是当前世界上参数最大的、开源大语言模型。296GB的大小,3140亿参数,远超OpenAIGP
大型政企寻求“智能化配方”,谁是“偏方”,谁是“验方”?