浦东新区人工智能公共技术服务平台

百度飞桨(张江)人工智能产业赋能中心

|

数据集

大规模高质量成品训练数据集,助力高效构建、训练和部署机器学习模型

【语音】语音数据语料资源2025-09-18

可交易语音数据语料资源,数据量 117627.58 小时,wav等格式。

百行云游

垂类大模型语料-音频语料清单

   大模型垂类语料聚焦于音频领域,涵盖丰富多样的语音数据。语料语言以普通话为主,适用于多种语音相关的模型训练。

   数据名称丰富,像中文语音数据、智能家居语音数据 - 中文、各类智能车载语音数据等。类别包括语音 + 文本、语音识别等。多数数据都带有文本,方便进行多模态训练。

   在数据时长方面时长选择丰富,小到 1852 小时,大到 30 万小时网络音频,能满足不同规模的训练需求。录音人数从无具体信息到 2076 人不等,男女比例也各有不同,如智能家居语音数据 - 中文中男 276 人、女 370 人。录音点位从 3 个到 9 个,录音设备包含高保真麦克风、Android 和 iOS 设备等,保证了数据来源的多样性,可有效提升大模型在语音处理任务上的性能。

详细数据结构请通过下列表格获取样例结构。

如需获取数据样例请发送邮件标题:【数据样例】垂类大模型语料-音频语料清单至: zhouchenyue@baidu.com