Ir al contenido principal

Comparación forense de voces - Mezcla de Gausianas enfoque visual y práctico

Puede ver el video explicativo:

https://youtu.be/U0NNoQWB1xs

O bien continuar leyendo...

Comparación Forense de Voces: Explorando LTAS y la Metodología de Mezcla de Gaussianas (GMM)

La voz humana es una característica biométrica única, cargada de información sobre el hablante. Analizarla y compararla es fundamental en diversos campos, especialmente en el ámbito forense. Una de las metodologías clásicas y fundamentales para esta tarea se basa en el análisis del espectro de la voz y el modelado estadístico mediante Mezclas de Gaussianas (GMM). Aunque hoy existen técnicas más avanzadas, comprender estos principios sigue siendo crucial.

La Base: El Espectro Promedio a Largo Plazo (LTAS)

Todo análisis espectral de la voz comienza, conceptualmente, con el Espectro Promedio a Largo Plazo (Long-Term Average Spectrum - LTAS). Como su nombre indica, el LTAS representa las características promedio de la energía de la voz distribuida a lo largo de las diferentes frecuencias durante un período extenso de habla.

¿Cómo se obtiene? Se toma una muestra de voz (idealmente, de varios segundos o minutos para capturar variabilidad). Esta señal se divide en pequeños segmentos o tramas. A cada trama se le aplica la Transformada Rápida de Fourier (Fast Fourier Transform - FFT), una herramienta matemática que descompone la señal en sus frecuencias constituyentes y calcula la potencia (o energía) asociada a cada una. Finalmente, se promedia el espectro de potencia de todas las tramas a lo largo de toda la muestra de voz.

¿Qué representa? El resultado es una gráfica (como las mencionadas en el ejemplo con Audacity) que muestra la energía promedio en función de la frecuencia. Típicamente, veremos mayor energía en las frecuencias bajas (graves, fundamentales de la voz) y una disminución progresiva hacia las frecuencias altas (agudos, armónicos y componentes fricativos). Esta distribución general es característica de la voz humana, pero los detalles finos (la ubicación y prominencia de picos y valles) varían significativamente entre individuos debido a las diferencias en el tracto vocal, estilo de habla y otros factores fisiológicos y conductuales.

Visualización Preliminar: El Poder del Espectro

Al generar el LTAS para diferentes muestras de voz, podemos realizar una comparación visual inicial. Si observamos los espectros de dos grabaciones realizadas por la misma persona, a pesar de las variaciones naturales del habla, esperamos encontrar una gran similitud en la forma general de la curva, especialmente en la ubicación relativa de los principales picos (resonancias o formantes promedio) y valles.

Por el contrario, al comparar los espectros de hablantes distintos, es probable que observemos diferencias más marcadas en estas características espectrales. Esta inspección visual, aunque útil como primera aproximación, es subjetiva y no cuantitativa.

Profundizando el Análisis: La Mezcla de Gaussianas (GMM)

Aquí es donde entra en juego la Metodología de Mezcla de Gaussianas (Gaussian Mixture Models - GMM). En lugar de simplemente comparar las curvas LTAS promedio de forma visual o mediante una métrica simple, GMM ofrece un enfoque estadístico más robusto para modelar la distribución de las características de la voz.

Más allá del Promedio Simple: El LTAS nos da un promedio general. Sin embargo, la voz es dinámica. Una GMM no calcula un único valor medio para todo el espectro, sino que modela la distribución de las características espectrales como una combinación ponderada de múltiples distribuciones gaussianas (campanas de Gauss). Cada Gaussiana en la mezcla representa un "cluster" o patrón típico dentro de los datos, caracterizado por su propio valor medio (centro del cluster) y su desviación estándar o covarianza (dispersión del cluster).

Identificación de Patrones: Intuitivamente, podemos pensar que diferentes Gaussianas dentro de la mezcla capturan diferentes configuraciones recurrentes en el espectro, correspondientes a los "picos y valles" mencionados, pero de una manera estadísticamente formal. Una GMM puede modelar distribuciones complejas que no se ajustarían bien a una única campana de Gauss.

Extracción de Características Clave: MFCCs: Si bien se puede aplicar GMM directamente sobre el espectro, es mucho más común y efectivo extraer primero un conjunto reducido de características más informativas. Los Coeficientes Cepstrales en la Escala Mel (Mel-Frequency Cepstral Coefficients - MFCCs) son el estándar de facto. Se derivan del espectro de potencia, pero aplican dos pasos cruciales:

Escala Mel: Agrupan las frecuencias de manera similar a como lo hace el oído humano (más sensibilidad a cambios en bajas frecuencias). Esto se logra aplicando un banco de filtros triangulares sobre el espectro. Se toman "franjas" o bandas de frecuencia, como se mencionó.

Transformada Coseno Discreta (DCT): Se aplica a los logaritmos de las energías de las bandas Mel. Esto ayuda a descorrelacionar los coeficientes (haciéndolos más independientes) y a compactar la información en los primeros coeficientes.

Normalmente se usan entre 12 y 20 MFCCs, a veces añadiendo la energía total de la trama (resultando en 13 o más características por trama).

Modelado con GMM: Para cada hablante de referencia en una base de datos, se entrena un modelo GMM utilizando los vectores MFCC extraídos de sus muestras de voz. Este modelo GMM aprende la distribución estadística específica de los MFCCs de ese hablante.

El Proceso de Comparación/Identificación:

Se extraen los MFCCs de la muestra de voz desconocida (la que se quiere comparar o identificar).

Se calcula la probabilidad (likelihood) de que estos MFCCs hayan sido generados por cada uno de los modelos GMM de los hablantes en la base de datos.

El hablante cuyo modelo GMM asigne la mayor probabilidad a la voz desconocida es considerado el candidato más probable. En comparación forense, se suele calcular un cociente de verosimilitud (Likelihood Ratio - LR) para cuantificar la fuerza de la evidencia a favor de la hipótesis de que las voces provienen del mismo hablante frente a la hipótesis de que provienen de hablantes distintos.

Consideraciones Prácticas Importantes

Eliminación de Silencios: Es crucial eliminar los segmentos de silencio o ruido de fondo antes del análisis. Estos segmentos no contienen información de la voz del hablante y pueden distorsionar tanto el LTAS como los MFCCs, introduciendo ruido y afectando negativamente la precisión del modelo GMM.

Calidad y Condiciones de Grabación: La calidad del audio, el ruido de fondo, el canal de transmisión (teléfono, micrófono de sala) y la duración de las muestras son factores críticos que influyen enormemente en la fiabilidad de la comparación.

Base de Datos: Se requiere una base de datos representativa, con múltiples muestras de los hablantes conocidos y, para calcular LRs, una población de referencia de otros hablantes.

1. Modelado probabilístico: Ajusta múltiples distribuciones gaussianas para caracterizar:

        ◦ Medias espectrales (μ)

        ◦ Covarianzas (Σ)

        ◦ Ponderaciones por componente (wi)

La fórmula general del modelo es:


                 M

p(x∣λ) = ∑  wi N ( x∣μi, Σi )

                i=1


donde M representa el número de componentes gaussianos.

Contexto Histórico y Actualidad

La combinación de MFCCs y GMMs fue durante muchos años (desde los 90 hasta bien entrada la década de 2010) la tecnología dominante en reconocimiento y comparación de hablantes, incluyendo aplicaciones forenses. Proporcionó un marco estadístico sólido y eficaz.

Hoy en día, las técnicas basadas en Deep Learning (Redes Neuronales Profundas), como los sistemas que extraen i-vectors (que desacoplan la variabilidad del hablante de la variabilidad del canal/sesión) o más recientemente x-vectors y d-vectors (embeddings de hablante derivados directamente por redes profundas), han demostrado superar a GMM-MFCC en muchas condiciones, ofreciendo mayor robustez y precisión. Sin embargo, los principios del análisis espectral (como LTAS) y el modelado estadístico de características (como GMM) siguen siendo fundamentales para entender el campo y, en algunos casos, todavía se utilizan en combinación con enfoques más modernos o en escenarios específicos.

En conclusión, el análisis del espectro promedio (LTAS) ofrece una visión inicial de las características de la voz, mientras que la metodología de Mezcla de Gaussianas (GMM), aplicada comúnmente a características como los MFCCs, permite un modelado estadístico detallado y una comparación cuantitativa robusta, sentando las bases históricas y conceptuales para la identificación y comparación de hablantes.

Comentarios