1. 创业头条
  2. 前沿领域
  3. AI智能
  4. 正文

爱数智慧发布中文普通话真·萌童声TTS开源数据集

 2019-11-26 14:41  来源:互联网  我来投稿 撤稿纠错

  一键部署OpenClaw

11月20日,爱数智慧发布中文普通话真·萌童声语音合成(TTS)开源数据集。该数据集由真童声录制,为中文童声语音合成数据集子集,时长为15分钟,文本主要为日常用语。据了解,数据集全集包含2235句话,时长超2小时。这也是该童声第一次用于TTS录制。

随着智能终端市场的扩张,人机交互逐渐成为与智能世界对话的入口。在人机互动过程中,语音合成(TTS)的自然度和表现力是用户最能直观感受到的部分。用户使用智能设备的频率增加,对合成语音的期望值也不断提高。

TTS数据是影响语音合成效果的重要因素。由于TTS数据的采集和标注要求严格,因而成品数据集较少。从采集环节来看,录音需要在专业的录音棚中进行,并严格控制噪声水平,才能最大限度还原发音人声音。录音过程中还需要有专业的录音师和监听人在场,便于及时矫正录音过程中的错误。从标注环节来看,TTS数据标注分为4个层级,包括发音校对、韵律层级、音素边界切分和分词词性。为了充分保留发音人的语义表达和发音习惯,标注准确率要求一般在99%左右。

智能设备使用者“低龄化”趋势明显,从而带动了童声数据的需求。受制于儿童识字水平和配合情况,市面上童声TTS数据库数量较少,且多为成年人模仿。童声TTS语料库呈现出明显的供需不平衡。

本次爱数智慧发布的TTS童声开源数据集采集环境为符合NC-20标准的录音间并根据儿童发音习惯对数据进行转写和全链条标注。考虑到句内停顿和句间停顿对听感的影响,在音素边界切分环节,标注人员除了对声韵母边界进行切分外,还对句中静音段和句首尾进行精准切分。

发音人是影响TTS数据质量的重要因素。该数据集的发音人为4岁小朋友妞妞。2019年初,发音韵律好的妞妞在上百位4-6岁小朋友中脱颖而出。因为发音韵律好能为用户带来更好的听感。

在与爱数智慧工作人员接触中,我们了解到妞妞性格活泼开朗,喜欢看冰雪奇缘和小马宝莉。在录制休息期间,想要看动画片时,就会黏着工作人员撒娇。录制工作已经结束很久,工作人员在提起妞妞时,言语间还是充满着浓浓的不舍与赞赏。这份由衷的赞赏,也让我们对这个真·萌童声充满期待!

为智能世界提供充足的数据生产力是这家公司创立的初衷。我们也期待爱数智慧用更多高质量的数据解锁更多应用场景,服务更广域的客户。

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关标签
人工智能
智慧生活

相关文章

  • AI龙虾养了这么久,这8个建议你一定要听

    01别相信“一键养虾,躺平赚钱”的鬼话打开社交媒体,你可能会看到这样的标题:“养只龙虾自动炒股,零代码养出数字巴菲特!”信了,你就输了。真实情况是:一个做跨境电商的小哥花了200元租服务器、订阅API,指望龙虾帮他炒股暴富。结果龙虾开始几天还像模像样,后来直接摆烂,生成个干瘪的大纲就敷衍了事。AI是

  • “养龙虾”火了,可你养的“虾”要是闯了祸,责任到底算谁的?

    一张证书引发的讨论4月7日,北京嫣然天使儿童医院给陈光标发了一张感谢证书,感谢他捐赠1000万元。这事说起来挺曲折的。此前陈光标高调说要赠给张雪一台价值1300万元的劳斯莱斯,张雪回应“收了,八折卖掉捐给嫣然”,一番拉扯之后,陈光标把车变现,1000万元直接打到了嫣然医院账上。医院发证书感谢,本来是

  • 国家安全部发布Token安全警示:需高度警惕数据泄露与金融诈骗风险

    2026年4月7日,国家安全部就AI核心术语“词元”(Token)发布安全警示,强调在日均调用量突破140万亿规模的市场背景下,需高度警惕由此引发的数据泄露与金融诈骗风险。据统计,截至今年3月,我国日均词元调用量已超过140万亿,较2024年初增长1000多倍。词元作为大模型处理信息的最小单元,兼具

  • 中国AI大模型连续五周领跑全球,调用量大幅增长

    如今出门,如果你还没用过AI智能助手,可能真有点跟不上节奏了。无论是写作文、查资料,还是规划出行路线,越来越多的人已经习惯随手打开AI问一句。这股热潮背后,中国AI大模型用实打实的数据交出了一份亮眼的成绩单。根据全球知名AI模型聚合平台OpenRouter的最新数据,在3月30日至4月5日这一周,中

    标签:
    大模型