本文在中国专利文摘数据库(CNABS)和世界专利文摘数据库(SIPOABS)中,通过检索、筛选、统计和分析国内外有关可视语音的专利申请,梳理了非声学特征语音识别技术专利的分布情况,从不同维度分析了非声学特征语音识别技术专利发展,并对该领域重点申请人的专利申请以及布局进行详细阐述。申请的时间分布
图 1 反映了在全球范围和中国国内的申请量的时间变化趋势。
图 1 示出了非声学特征的语音识别的全球专利申请趋势,在 1994 年之前,该领域处理技术储备期,在语音识别的初期,应用声学特征参数进行语音识别是语音领域的研发主流,这与当时的图像处理算法、分类算法以及语音识别精度要求有关;在 1995~2003 年,非声学特征的语音识别专利出现技术的第一发展高潮期,此时随着对语音识别的精度和噪声干扰的要求提升,越来越多的非声学参数引入至语音识别中,主要是嘴部的图像特征的参数分析处理;2004 年至今,随着分类算法的改进以及图像追踪处理技术的发展,迎来了本领域的第二个发展高峰,不仅可以基于嘴部特征进行语音识别,进一步的基于视线,眼部运动,面部表情,语气情感等行业曲线 link industry DOI:10.3969/j.issn.1001- 8972.2020.05.001 影响力 可替代度真实度特征,可以大大提升语音识别的准确度。
在国内的专利申请量显示中,2004 年以前总体保持相对较低的数量,均在 20 件以下,但从 2011 年至 2014 年这 3 年间出现了较为明显的增长,申请量在 30 项至 58 项之间。这说明该技术在国内市场出现较晚,但是随着近年来该技术的发展以及市场日趋激烈的竞争,在中国进行专利布局被越来越多的申请人所重视。
申请的地区分布
通过专利申请的地区分布可以较为直观的反映出各个国家或地区的专利技术实力和市场普及情况。图 2 和图 3 分布显示了非声学特征的语音识别技术的专利申请的原创国或地区和目标国或地区分布。
从图 2 中可以看出,美国仍然是该领域的专利申请量最高的国家,占据将近一半全球申请量。排在美国之后的是日本、韩国,其专利技术几乎也被各国大公司垄断,例如日本的索尼、佳能、都科摩,韩国的三星。中国的专利申请多数为跨国公司的专利申请,本土企业由于技术水平、经费和研究经验的不足,起步较晚,但随着国内企业(例如华为、中兴、科大讯飞等)的技术水平的提升,专利申请量有一定的提升。
从图 3 可以看出,美国作为语音识别领域的行业翘楚,在该领域具有巨大的技术积累和强大的研发实力。申请目标国排在美国之后的是日本、欧洲和中国,其中,日本公开的专利申请多达 637 件,日本市场也是全球的重点市场;欧洲和中国也占据了 20% 的市场。
重要申请人统计分析
图 4 是非声学特征语音识别领域的全球申请人排名情况,关于图中的说明:欧美公司占据 14 位,日本企业占据 6 位,韩国公司占据 2 位。
这也表明欧美企业在该技术领域的技术研发比较靠前。其中,美国的微软和 IBM 公司以其强大的技术开发能力,在该技术领域占据主要地位,韩国三星、美国的 AT&T 以及日本的 NTT 公司紧随其后,说明日韩企业中的语音开发前沿公司也开始重视非声学特征的语音识别技术的开发,索尼、谷歌、Intel、英国电讯以及美国的 Nuance 公司也展现了在该领域的技术开发实力。
从图 4 可知,作为申请量首位的微软公司,在其非语音特征识别的专利申请中,其中 40% 的申请采用面部特征识别(鼻子、嘴唇形状、嘴部运动),其余 20% 采用视线跟踪,眼部运动检测,主要应用于运动设备的语音识别中;IBM 公司,全球最大的信息技术和业务解决方案公司,该公司作为信息技术领域的行业巨头,在其语音识别的专利申请中,利用非语音特征辅助语音识别的专利数量占据整体专利数目的 10%,其中不乏被行业引用多次的多篇核心文献,奠定了该公司在本领域的领先地位。日韩的代表企业:索尼公司,都科摩,三星公司是语音领域的行业前沿开发者,其专利申请主要分布在面部特征识别、视线追踪辅助方面,由于其研发实力的积累,使其始终保持在语音识别处理领域中占据行业领导位置;曾经的语音识别处理的翘楚 Nuance 通讯公司,基于其先进的统计推断算法的语音技术,使 Nuance 公司的专利和算法均领先其他对手,但在语音技术高速发展,深度学习技术的火热,是其竞争力大大折扣,该情况也反映在其公司专利申请的数量逐渐减少。美国 CALIFORNIA 大学利用检测讲话人发音的电磁波,通过分析该电磁波的特征参数辅助语音识别,也为语音识别辅助方式提供了新的技术方向。
重要申请人专利布局分析
图 5 显示了本领域重要申请人专利申请的技术分布,从上图可见,各大行业巨头企业对各个方面技术均有涉猎,其中微软、AT&T 以及 INTEL 公司基于用户姿势的辅助语音识别较为明显的关注,这与其相关的语音识别产品密切相关;以 SONY、IBM、AT&T 以 及 SAMSUNG 引 领 的 面 部( 嘴部和鼻部)的辅助语音识别占据本领域的主流专利申请,其他企业中的面部特征识别的专利申请数量虽然不多,但是在其总的专利申请中仍属于占比较大的专利研究方向,可见,基于嘴部与鼻部的语音识别是本领域的研究热点与重点。
结束语
本文重点梳理对非声学特征的辅助语音识别的技术分支、专利申请态势、技术发展演进以及重要申请专利进行了综述分析。从整体来看,并没有单一的非声学特征、声学特征可以满足所有场景,随着语音识别精度需求越来越高,非声学特征的辅助语音识别技术日益受到关注,从最初的检测唇部图像,到后续发展的面部特征,伴随着图像处理技术、分类算法的发展,非声学特征技术方式也越来越多,针对不同的应用场景,选取多个特征进行综合的语音识别成为目前的发展趋势。目前,对语音识别技术的需求仍然处于上升阶段,进一步还会出现更多的提高语音识别效率的技术方案。——论文作者:董小东 丁业娇
非声学特征语音识别技术专利分析相关期刊推荐:《中国科技信息》杂志1989年10月于北京创刊,是由中国科学技术协会主管,中国科技新闻学会主办的一家国家级科技综合类半月刊,杂志面向科技界、企业界、学术界等广大读者。坚持为国家经济建设服务,坚持高起点、高标准,强调刊物的指导性、实用性;多年来一直注重科技信息含量、广泛刊登有利开展理论研究、交流工作经验的文章和报道。
转载请注明来自:http://www.lunwencheng.com/lunwen/dzi/17371.html