智源MagicSpeechNet家庭场景中文语音数据集挑战赛

来源:互联网 时间:2020-05-21

随着手机语音助手,智能音箱,车载语音助手,陪伴机器人等智能设备的兴起,语音交互技术越来越多的惠及我们生活的方方面面。人工智能和机器学习也为居家生活提供了更多的可能,在可预见的未来,人们将逐渐习惯解放双手,通过一些语音指令就能远程的操控音箱、电视、空调等设备。

近几年,很多公司都开始布局智能家居相关的业务,也在很大程度上推动了家庭场景下语音识别技术的研究。相关领域的一些比赛也受到越来越多的关注,近日,北京智源人工智能研究院联合爱数智慧主办了首届“智源 — MagicSpeechNet 家庭场景中文语音数据集挑战赛”。本次比赛由biendata人工智能竞赛平台承办。

智源 — MagicSpeechNet 家庭场景中文语音数据集挑战赛

大赛的设计初衷来源于智能家居的语音交互场景,该场景下语音识别由于噪声、混响、多说话人混叠等复杂因素的影响,一直以来都是识别领域的一大难点,也是语音识别技术产品化过程中一个亟待解决的问题。

得益于kaldi,espnet,OpenTransformer 等开源工具,对于这次比赛,刚开始接触语音识别领域的同学也能找到一个求解方法。但是如果想要在数据处理,系统框架选择,模型选择和优化等方面找到更优的解,即便是对于在该领域有一定经验的研究人员和工程师们,也需要花费一些时间和精力。

本次大赛使用的“智源MagicSpeechNet家庭场景中文语音数据集”由爱数智慧提供包括数十段真实环境中的双人对话语音,每段对话基于多种平台比如不同手机、录音笔,进行录制。数据模拟真实的家庭对话场景,说话人以放松和无脚本的方式,围绕所选主题自由对话。所以语音中会存在一些非平稳噪声和多说话人混叠的情况。为了保证声音特性的丰富均衡,录制本数据集的说话人来自中国大陆不同地域,同时保持说话人的年龄和性别方面的均衡。参赛者需要使用比赛提供的数据训练并优化模型,提升模型在家庭场景中的语音识别准确率。

家庭场景下的语音识别会受到较为复杂的环境因素的影响:语音中可能存在多种噪声干扰,比如电视声音,音乐声,水流声等;远场条件下,空间混响的影响;家庭成员较多时,多说话人语音混叠的影响;用户个体化差异造成的影响,其中较为显著的问题是口音或者方言问题。由于环境的复杂性,家庭场景是语音识别领域最具挑战的应用场景之一。

数据是构建一个稳健的高性能语音识别系统的基石和重要支撑。尤其对于家庭场景类似的复杂环境下的识别系统,针对多元化的场景设计可靠且专业的训练数据是至关重要的步骤,因为它能够直接决定模型的性能和提升空间。

数据的价值

这里我们针对家庭场景来说一说数据对于语音识别系统的价值,这些价值可以从复杂环境,用户个体化差异,系统架构这三个层面表现出来。

复杂环境层面

如果在录制训练数据的过程中适当的加入一些家庭场景中可能出现的噪声,就可以让模型见到更加多样化的数据。这样在应用过程中,模型在这些噪声条件下也能大概率给出正确的结果。这里,对于噪声添加的类型,时长,百分比,方式等都需要经过专业合理的设计,才能达到提升系统性能的目的。

用户个体化差异层面

在一个拥有80多种方言的国家,不同方言之间几乎是无法沟通的,方言会让一个普通话识别系统无法正常工作。当前的语音识别系统对于方言或口音的问题,如果只在模型层面进行优化,能够获得的提升十分有限。最为直接有效的方式就是采集方言或者口音的语音数据,经过标注之后,训练相关方言对应的模型。

系统架构层面

近年来,端到端识别框架逐渐兴起,这一框架以其简单的系统架构和优异的性能得到了工业界越来越多的认可。端到端框架的出现,更加强化了识别系统对训练数据的依赖,充足的高质量数据在这一框架下,能够发挥出更大的潜能。

通过找到专业的高质量语音数据,开发团队能够获得可靠和规范化的数据,不需要花过多的时间去做数据整合处理的工作,就能更加专注于模型和算法的优化方面,从而可以很好地加速解决方案的推进。

北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,简称BAAI)成立于2018年11月14日,是在科技部和北京市委市政府的指导和支持下,由北京市科委和海淀区政府推动成立的新型研发机构,依托北京大学、清华大学、中国科学院、百度、小米、字节跳动、美团、旷视科技等北京人工智能领域优势单位共建。智源的愿景是,支持科学家勇闯人工智能科技前沿“无人区”,推动人工智能理论、方法、工具、系统等方面取得变革性、颠覆性突破,引领人工智能学科前沿和技术创新方向,推动北京成为全球人工智能学术思想、基础理论、顶尖人才、企业创新和发展政策的源头,支撑人工智能产业发展,促进人工智能深度应用,改变人类社会生活。

北京爱数智慧科技有限公司是一家领先的一站式AI数据服务商。爱数智慧全球总部设立在北京,在国内多地及东南亚建有数据处理中心。爱数智慧“以为智能世界提供充足的数据生产力”为使命,为语音识别、语音合成、自然语言处理、计算机视觉识别等领域提供专业的数据采集和标注服务。致力于提供准确、专业、定制化的数据服务,提高客户的生产力。

项目推荐

A5创业网 版权所有

返回顶部