SJ/T 11380-2008.Technology specification for automatic voiceprint recognition (speaker recognition).
1范围
SJ/T 11380规定了声纹识别(系统)的术语与定义、数据交换格式与应用编程接口(VPR-API 1.0)。
SJ/T 11380适用于各种计算机、网络和智能设备配置的声纹识别系统。
2规范性引用文件
下列文件中的条款通过本标准的引用而i成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。
GB 12200. 1-1990汉语信息处理词汇第1部分:基本术语
GF 3006-2001语言文字规范-汉语拼音方案的通用键盘表示规范
3术语与定义
下列术语和定义适用于本标准。
3.1声纹识别的基本概念
3.1.1
声纹voicepr int
对语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征(参数)所建立的语音模型的总称。
3.1.2
声纹特征voicepr int feature
说话人特征speaker feature
从说话人的语音中所提取出来的、可以表征该说话人语音的个性特征的参数。
注:常用的特征参数包括频谱(spectrum) .倒频谱(cepstrum).线性预剥系数(LPC).音商(pitch)、声调(tone)、共振峰(formant).音质(voice quality)、 声韵(prosody)、习语(phoneme/word idiolect)等各种层次的信。
3.1.3
声纹模型voicepr int model
说话人模型speaker model
对声纹特征进行描述的数学模型。
生: 常用的数学模型有:商斯混合模型(Gaussian mixture model), 基于通用背众模型的商斯混合模型(Gaussian mixture model-universal background model),隐马尔可夫模型(hidden Markov rodel),人工神经网络(artificial neural network),支持向危机(support vector machine) 等。通常,一个声纹模型对应名说话人,但一名说话人可以有多个声纹模型,以对应各种不同的应用环境或声纹信息层次,如一名说话人可以在不同的信道条件下有不同的声纹模型。