viernes, 20 de abril de 2012

Qué son los SDCs, comparación con MFCCs


Ya hablamos en el post que describe las fases en la verificación de locutor de lo que son los MFCCs ( Mel-frequency cepstral coefficients ). Los MFCCs son coeficientes de información de tramas de audio que usamos para generar los modelos y hacer las comparaciones.

Los vectores de información de cada trama están compuestos por 12 MFCCs y el valor medio de la energía en la trama. A continuación se concatenan las derivadas Δ de cada dimensión teniendo en cuenta dos tramas por delante y dos tramas por detrás de la actual. Haciendo el mismo proceso sobre los coeficientes, se obtienen las segundas derivadas o ΔΔ.


Para cada trama de 20 ms habrá por tanto 12 coeficientes de información instantánea y sobre su primera y segunda derivadas. La energía sólo sirve para detectar tramos de silencio, pero no se tiene en cuenta al generar modelos. Por tanto, hay 36 dimensiones de información sobre el locutor.


Para conseguir mejores modelos y mejores tasas de acierto vamos a probar otra técnica, desarrollada posteriormente y que implicó un avance en el reconocimiento de voz. Consiste en generar unos coeficientes diferentes llamados SDCs ( Shifted Delta Coefficients ).

Los vectores de información son más sofisticados pero su elaboración más compleja. En vez de obtener 12 MFCCs se calculan 7. Después, para cada dimensión se calcula la primera derivada de una forma diferente a antes. Se recoge información de un mayor número de tramas por delante y por detrás de la actual, y se guarda el un vector de 7 dimensiones. Como esto se hace para cada coeficiente cepstral, se obtienen 49 dimensiones de derivada. Por tanto, consevando los originales, se tienen 56 dimensiones.



Para esta tarea se usa ShiftedDeltaFeat, una herramienta del paquete LIA_RAL. El resto de fases de la verificación de locutor son las mismas que antes y los modelos se entrenan con estas 56 dimensiones.

En definitiva, como se extrae información más útil de las tramas de audio, los modelos son más completos y el sistema es más robusto.

Como no hemos tenido realmente tiempo de probarlo, tan sólo de implementarlo y de construir un modelo sencillo, esperamos evaluar esta alternativa tras las presentaciones del hito 2.

Para la presentación no contamos con un UBM complejo, por lo que los resultados no serán asombrosos. Confiamos en que con la elaboración de un UBM a partir de más datos, consigamos unos scores congruentes.