Sobre gaussianas, dinosaurios y fiestas de cocktail (II)

Como ya vimos en la anterior entrega de este tema cuando sumamos N variables aleatorias con distribuciones de probabilidad idénticas la distribución de probabilidad resultante tiende a ser una gaussiana cuando N tiende a infinito.

¿Pero tienen que estar identicamente distribuídas sí o sí?

Pues aquí se puede ver una de las curiosidades del Teorema del Límite Central, y es que es un teorema que admite que se relajen mucho las condiciones. Dicho de otro modo, si no están identicamente distribuídas no dará una gaussiana perfecta cuando sume infinitas variables aleatorias, pero la distribución resultante seguirá pareciéndose mucho a
una gaussiana.

¿Y cómo mides lo que se parece una distribución a una gaussiana?

Existen múltiples métodos pero uno de los más extendidos es el apuntamiendo o kurtosis. Este parámetro, muy relacionado con el cuarto momento estadístico, mide cómo se concentran los valores de una distribución numérica en torno a su media. Esto, dicho de otra manera, significa que mide cómo de gaussiana es una distribución. La expresión de abajo detalla cómo se puede calcular la kurtosis de un conjunto de N muestras discretas.

\displaystyle g = \frac{N \cdot \sum_{i=1}^{N}(x_{i} - \mu)^4}{(\sum_{i=1}^{N}(x_{i} - \mu)^2)^2} - 3

Sí, muy interesante. ¿Y la aplicación? 

Para ver la aplicación de la que quería hablaros nos tenemos que vestir de gala. El “cocktail party problem” es uno de los problemas clásicos de la matemática y la teoría de la información. Supongamos que estamos en una fiesta en una sala cerrada. Hay varios invitados que conversan entre ellos, un grupo de música tocando música ambiental y los canapés están un poco secos (esto no es relevante pero suele pasar).  Por dicha sala hay distribuidos unos micrófonos captando el sonido ambiente. ¿Puedo obtener cada una de las conversaciones de la sala por separado observando únicamente las capturas de sonido ambiental?

La imagen de abajo pretende ilustrar este problema y ayudar a la comprensión del mismo. En este caso tenemos cuatro invitados hablando sobre sus temas, cada uno de ellos se puede modelar como una variable aleatoria con una distribución de probabilidad propia e independiente de las demás (esto es muy importante) y sus voces como observaciones de estas variables aleatorias (s1, s2, s3 y s4).

Además hemos dispuesto cuatro micrófonos por la sala capturando cada uno de ellos una suma de las voces de la sala. Sin embargo como cada uno de ellos está en  una posición distinta de la sala captara unas voces con más intensidad que otras. Matemáticamente hablando esto significa que tenemos una matriz de mezcla A, que multiplicada a la matriz de observaciones S nos da la matriz de capturas U.

\displaystyle U= \begin{pmatrix}u_{1}\\u_{2}\\u_{3}\\u_{4}\end{pmatrix}=\begin{pmatrix}a_{11}&a_{12}&a_{13}&a_{14}\\a_{21}&a_{22}&a_{23}&a_{24}\\a_{31}&a_{32}&a_{33}&a_{34}\\a_{41}&a_{42}&a_{43}&a_{44}\end{pmatrix}\begin{pmatrix}s_{1}\\s_{2}\\s_{3}\\s_{4}\end{pmatrix}=A \cdot S

O dicho de otra manera, cada uno de los micrófonos capta una combinación lineal {u1,u2, u3, u4} de las observaciones { s1, s2, s3 y s4} de las variables aleatorias mencionadas. ¿Cómo puedo, a partir de u1, u2, u3 y u4, recuperar s1, s2, s3 y s4?

La idea para resolver este problema es bastante sencilla. Vamos a construir una captura sintética y que sea una combinación lineal de las capturas obtenidas:

\displaystyle y =\sum_{i=1}^{4} b_{i}u_{i} =\sum_{i=1}^{4} c_{i}s_{i}

Como y es una combinación lineal de capturas será a su vez una captura, es decir una combinación lineal de las observaciones. La idea consiste en encontrar unos valores de bi tal que tres de los valores ci sean ceros o arbitrariamente bajos en comparación con el restante, para poder obtener de este modo alguna de las observaciones originales.

¿Y qué valores pones en bi? ¿Te los inventas? ¿Vas probando?

Aquí viene lo más bonito de todo y donde todo encaja con el anterior capítulo de esta entrada. Como hemos supuesto que las distintas variables aleatorias son independientes cualquier combinación lineal de ellas, por el Teorema del Límite Central, tenderá a tener una distribución de probabilidad más gaussiana que cualquiera de las originales.

Por ello, se puede ver como evoluciona la kurtosis de y en función de los valores de bi  y quedarnos con aquellos que maximicen la no-gaussianidad de y. De este modo se consigue obtener, si no las observaciones s1, s2, s3 y s4, la solución que garantiza la mayor independencia entre los resultados de salida.

¿Y en realidad cuantos micrófonos necesitas?

El número de micrófonos debe ser igual o mayor que el número de fuentes de sonido (es decir, variables aleatorias) que se quieren discriminar, siendo tanto mejor esta discriminación cuantos más micrófonos se tengan. Sin embargo la dificultad de computación aumenta mucho con el número de micrófonos, ya que cuanto mayor sea este número mayor será la dimensión del espacio en donde evaluar la kurtosis. Por esto, hay que llegar a un compromiso entre calidad de extracción y capacidad de computación (lo que se traduce en recursos y tiempo).

 Para acabar (se oyen gritos de júbilo al final de la sala), decir que este procedimiento se llama Independent Component Analysis (ICA). Y es un procedimiento muy utilizado en señales biomédicas. Por ejemplo, en electrocardiogramas, donde se dispone de muchos parches (“micrófonos”) y queremos observar la evolución del corazón (“1º invitado honorífico”) pero se nos cuelan otro tipo de señales como la respiración de los pulmones (“2º invitado, éste se ha colado en la fiesta”), la señales miográficas de los músculos (“3º invitado, otro gorrón”), etc.

¡Un saludo y perdonad el chorrazo!

Nota: Hay gente que llama a este teorema Teorema Central del Límite. A mi me parecen las dos traducciones igual de correctas  pero me sale de manera más natural la primera. 🙂

Anuncios
Esta entrada fue publicada en Uncategorized y etiquetada , , , , , , , , . Guarda el enlace permanente.

One Response to Sobre gaussianas, dinosaurios y fiestas de cocktail (II)

  1. José dice:

    Un placer leerlo Serj, espero que no sea el último que escribes.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s