当前位置: 首页 >  技术分享 >  ASR项目实战-数据

ASR项目实战-数据

导读:使用机器学习方法来训练模型,使用训练得到的模型来预测语音数据,进而得到识别的结果文本,这是实现语音识别产品的一般思路。.本文着重介绍通用语音识别产品对于数据的诉求。.对数据的要求.训练集.相关要求,如下:.地域,需要覆盖使用人群所在的地域,且数据的比例适中。.口音,需要覆盖典型的

使用机器学习方法来训练模型,使用训练得到的模型来预测语音数据,进而得到识别的结果文本,这是实现语音识别产品的一般思路。
本文着重介绍通用语音识别产品对于数据的诉求。

对数据的要求

训练集

相关要求,如下:

  • 地域,需要覆盖使用人群所在的地域,且数据的比例适中。
  • 口音,需要覆盖典型的口音。
  • 年龄,从18~60,覆盖各年龄段,且数据的比例适中。
    • 很多国家对未成年人有非常严格的保护措施,因此收集未成年人的数据比较困难。
    • 未成年男性的声音和青年女性的声音,从生理角度存在一定的相似度,这给质量控制增加了复杂度和相应的工作量。
  • 性别,男、女,比例适中。对于特定的语种,这个要求很难达成,比如某些严格执行教规的国家,很难采集到女性的声音。
  • 录音条件。
    • 一般要求静音,近场,10秒以内的短句,前、后静音不超出1秒。
    • 假如业务场景要求模型具备一定的搞噪能力,则需要增加对应场景的数据。
  • 母语人群提供的数据,其比例不低于某限定值。

测试集

相关要求,如下:

  • 数据的特征,接近应用场景。
  • 数据量适中,可以支撑功能和性能测试。

获取数据的方法

训练集

可行的方法有:

  • 采集开源训练数据集。这类数据通常用于研究,因此数据质量相对可控,唯一的问题在于数量较少,直白的说,用来写论文也许够用,但在工业强度下应用,则远远不满足要求。
  • 采购商业数据。数据公司可以通过如下方式收集数据:
    • 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
    • 采用转包的方式,将任务包交给当地有资质的公司来收集数据。
    • 采用众包的方式,收集语音数据。
  • 自行采集数据。类似数据公司的操作方式,可以有如下方式:
    • 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
    • 采用众包的方式,收集语音数据。

难点在于:

  • 交付周期长。收集数据的操作,从提出诉求到最终收到数据,中间耗时良久,进度基本不可控。
  • 质量不可控。语音数据没有比较好的手段可以实现自动化检查,因此需要花费相当的人力来整理、清洗数据,剔除质量差或者不满足要求的数据。

测试集

可行的方法有:

  • 客户提供带有标注的测试集。
  • 客户提供测试集的获取方法,交付团队按照要求采集数据用于测试。
  • 客户提供测试集的标准,交付团队按照要求自行准备数据。

注意:测试集用于验证模型的有效性,为保证公平性和有效性,测试集中的数据,绝对不允许作为训练集来使用。

参考资料

  • 如何正确使用机器学习中的训练集、验证集和测试集?
内容
  • Unity 中的存档系统(本地存档)
    Unity 中的存档系统(本地存
    2023-12-09
    思想.在游戏过程中,玩家的背包、登录、人物系统都与数据息息相关,无论是一开始就设定好的默认数据,还是可以动态存取的数据,
  • UE 油画滤镜
    UE 油画滤镜
    2023-12-07
    前言.非真实感渲染的风格不经相同,其中一种便是油画风格,本文总结了如何实现油画滤镜的方法.Kuwahara Filter
  • Mybatis的工作原理
    Mybatis的工作原理
    2023-12-05
    mybatis的工作原理.mybatis基本工作原理.封装sql ->调用JDBC操作数据库 -> 返回数据封装.JDB
  • 标题:在Godot中使用Node2D创建自定义的Label
    标题:在Godot中使用Node
    2023-12-04
    在Godot游戏引擎中,我们经常需要在游戏中显示文本信息。通常,我们可以使用Label节点来实现这一点。但是,在某些情况
  • 使用Unity Localization插件进行项目本地化实战详解
    使用Unity Localiza
    2023-12-03
    在使用Unity开发游戏的过程中,本地化是必不可少的。网络上也有很多的本地化工具,本次我介绍的是Unity官方提供的Lo
  • 数据分析师如何用SQL解决业务问题?
    数据分析师如何用SQL解决业务问
    2023-12-03
    本文来自问答。.提问:数据分析人员需要掌握sql到什么程度?.请问做一名数据分析人员,在sql方面需要掌握到什么程度呢?
  • 在MacOS下使用Unity3D开发游戏
    在MacOS下使用Unity3D
    2023-12-03
    第一次发博客,先发一下我的游戏开发环境吧。.去年2月份买了一台MacBookPro2021 M1pro(以下简称mbp)
  • 缓存面试解析:穿透、击穿、雪崩,一致性、分布式锁、Redis过期,海量数据查找
    缓存面试解析:穿透、击穿、雪崩,
    2023-12-03
    为什么使用缓存.在程序内部使用缓存,比如使用map等数据结构作为内部缓存,可以快速获取对象。通过将经常使用的数据存储在缓
  • UE开发使用Rider时缓存干爆C盘的解决方案
    UE开发使用Rider时缓存干爆
    2023-12-03
    我们在使用Rider开发UE时,Ride会为每一个项目创建一个解决方案缓存,如果开几个新项目写测试demo,我们的C盘会
  • Unity学习笔记--数据持久化Json
    Unity学习笔记--数据持久化
    2023-12-02
    JSON相关.json是国际通用语言,可以跨平台(游戏,软件,网页,不同OS)使用,.json语法较为简单,使用更广泛。
  • C++学习-static
    C++学习-static
    2023-12-02
    全局变量使用:.作用是限定全局变量的作用范围,只能在当前文件使用,类似给它加了个private属性。.其他文件即使使用e
  • 代码的坏味道(二)——为什么建议使用模型来替换枚举?
    代码的坏味道(二)——为什么建议
    2023-12-02
    为什么建议使用对象来替换枚举?.在设计模型时,我们经常会使用枚举来定义类型,比如说,一个员工类 Employee,他有职
  • ET8开发微信小游戏之部署云服务器Nginx代理
    ET8开发微信小游戏之部署云服务
    2023-12-01
    最近用ET8搞微信小游戏测试,部署到云服务器,手机上运行,必须要用https备案过得域名,客户端使用websocket创
  • 园林绿化养护服务
    园林绿化养护服务
    2024-01-10
    园林绿化养护服务.产品功能.园林绿化养护服务是一项专业的服务,旨在为客户提供全方位的园林绿化管理和养护服务。我们团队的专
  • 园林景观设计
    园林景观设计
    2023-12-11
    园林景观设计产品介绍.产品功能.园林景观设计是一项专业的设计服务,主要用于规划和设计公共和私人的园林空间。其功能包括根据
  • 绿化工程材料供应
    绿化工程材料供应
    2023-12-16
    绿化工程材料供应.产品功能.我们的绿化工程材料供应主要用于城市绿化、园林景观建设、庭院绿化等相关项目。产品种类丰富,覆盖
  • 城市绿化规划设计
    城市绿化规划设计
    2024-01-15
    城市绿化规划设计.随着城市化进程的不断加快,城市绿化规划设计成为了一个备受关注的问题。如何在城市中保护和增加绿地,促进城
  • 喷泉景观设计
    喷泉景观设计
    2024-01-05
    喷泉景观设计.喷泉是一种极具观赏性和装饰性的景观设计元素,它不仅可以为周围的环境增添一份生气与动感,更可以为人们带来一份
  • 公园景观规划设计
    公园景观规划设计
    2024-01-10
    公园景观规划设计.产品功能.我们的公园景观规划设计产品旨在为城市和乡村地区提供高质量的公共休闲空间。我们致力于通过规划和
  • 园林休闲座椅制作
    园林休闲座椅制作
    2024-01-20
    园林休闲座椅制作.产品功能.园林休闲座椅是专门为户外休闲空间设计制作的座椅产品。产品具有耐候性强、外观美观、舒适度高等特
  • 喷泉设计与安装
    喷泉设计与安装
    2023-12-21
    喷泉设计与安装.喷泉是园林景观中不可或缺的元素之一,无论是在公园、**还是私人花园中,喷泉都能为环境增添灵动的气息,成为
  • 室外园林景观配套设施制作
    室外园林景观配套设施制作
    2024-01-15
    室外园林景观配套设施制作.产品功能.我们的室外园林景观配套设施制作主要提供定制化的户外景观配套设施,包括花池、凉亭、栏杆
  • 景观照明工程
    景观照明工程
    2023-12-16
    景观照明工程.产品功能.景观照明工程是一种专门为户外景观设计的照明方案。它既可以美化城市风景,提升城市形象,也可以为人们