UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE CIENCIAS MATEMÁTICAS METODOLOGÍA BAYESANA APLICADA AL ESTUDIO DE CONFIGURACIONES ESPACIALES EN BIOINFORMÁTICA. MEMORIA PARA OPTAR AL GRADO DE DOCTOR PRESENTADA POR Carmen Nieto Zayas Bajo la dirección del doctor Juan Miguel Marín Diazaraque Madrid, 2010 • ISBN: 978-84-693-4093-6 © Carmen Nieto Zayas, 2009 METODOLOGÍA BAYESIANA APLICADA AL ESTUDIO DE CONFIGURACIONES ESPACIALES EN BIOINFORMÁTICA Tesis Doctoral Carmen Nieto Zayas Dirigida por: Juan Miguel Marín Diazaraque Mayo 2009 Juan Miguel Marín Diazaraque, Profesor del Departamento de Estadística de la Universidad Carlos III de Getafe, Madrid, CERTIFICA: Que la presente memoria titulada METODOLOGÍA BAYESIANA APLICADA AL ESTUDIO DE CONFIGURACIONES ESPACIALES EN BIOINFORMÁTICA ha sido realizada bajo mi dirección por Dña. Carmen Nieto Zayas, licenciada en C.C. Matemáticas, y constituye su Tesis para optar al Grado de Doctor en Ciencias Matemáticas. Y para que coste, en cumplimiento de la legislación vigente y a los efectos opor- tunos, firmo la presente en Madrid, a 28 de Mayo de 2009. Fdo: J. Miguel Marín Diazaraque Agradecimientos Principalmente quiero dar las gracias a una persona que conozco desde hace más de quince años. El azar hizo que fuera mi compañero de despacho en la Universidad durante varios años lo que permitió que nos convirtiéramos en amigos. A pesar de que cambió de destino, siempre mantuvimos el contacto hasta que un día me propuso dirigirme la tesis. Muchas gracias Miguel, porque además de ser un gran amigo y una gran persona, tuviste la osadía de ser mi director de tesis y, gracias a ti, he conseguido finalizar este trabajo que es tanto tuyo como mío. Tengo la gran suerte de tener buenos amigos de los que he recibido un gran apoyo y comprensión a lo largo de todo este tiempo. Muchas gracias amiga Inés, amiga Julia, amiga María, amiga Ma Jesús, amigo Pedro, amiga Pepa y amiga Tere, porque nadie mejor que vosotros entendéis lo que es emprender este largo y, en ocasiones, duro camino de la tesis. Gracias, Carlos, que has sabido pacientemente adaptarte a mi dedicación a esta tesis, a mi disciplina en el estudio y hacer de padre y madre en momentos donde la tesis me reclamaba. Por último, quiero agradecer a mi hijo Alonso que, aun a su corta edad y a su manera, se preocupaba de mi tesis y con una sonrisa me preguntaba "¿te falta mucho?". Espero haber sido un ejemplo de que con el esfuerzo todo se consigue. Resumen En esta tesis se estudia la superposición y el emparejamientos de configuracio- nes o conjuntos de puntos en el espacio, considerando distintas transformaciones geométricas entre las mismas. El estudio de imágenes médicas o la comparación estructural de pares de moléculas son algunos ejemplos de problemas de configura- ciones de puntos. En una primera parte se extiende el modelo bayesiano de Green y Mardia (2006) en dos sentidos: por un lado, se consideran los emparejamientos en- tre más de dos configuraciones y, por otro, se asumen transformaciones geométricas entre ellas más generales. En una segunda parte, se estudian transformaciones no lineales entre configuraciones, planteando dos modelos de redes neuronales con los que se analiza, desde la perspectiva bayesiana, la relación entre dos configuraciones etiquetadas. Un aspecto importante de esta tesis es su aplicación en el campo de la Bioinfor- mática. Se parte de datos procedentes de microarrays, consistentes en las expresiones de los genes que se quieren estudiar. Una aportación novedosa es el tratamiento de estas expresiones hasta llegar a una representación de los genes como configuraciones de puntos en un espacio. Esto se lleva a cabo mediante la técnica multivariante mul- tidimensional scaling ponderada (INDSCAL), utilizada en el ámbito de las ciencias sociales, pero menos frecuente en el contexto de la Bioinformática, permitiendo un estudio geométrico de los genes a través de su disposición en el espacio. Índice general Prólogo VII 1. Motivación y Antecedentes 1 1.1. Introducción al análisis de datos espaciales . . . . . . . . . . . . . . . 1 1.2. El análisis de la forma, superposición y emparejamiento, como pro- blemas espaciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.1. Métodos tradicionales frente a métodos geométricos . . . . . . 4 1.3. Los objetos como configuraciones de puntos en el espacio . . . . . . . 6 1.4. La superposición de configuraciones: Métodos Procrustes . . . . . . . 11 1.5. El estudio de configuraciones no etiquetadas . . . . . . . . . . . . . . 11 2. Definiciones y conceptos previos 17 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2. Proceso de Poisson espacial . . . . . . . . . . . . . . . . . . . . . . . 18 2.2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 i 2.2.2. Los procesos puntuales espaciales . . . . . . . . . . . . . . . . 19 2.2.3. El Proceso de Poisson espacial . . . . . . . . . . . . . . . . . . 20 2.3. Transformaciones matriciales . . . . . . . . . . . . . . . . . . . . . . . 26 2.3.1. Transformaciones matriciales simples . . . . . . . . . . . . . . 26 2.3.2. Composición de transformaciones matriciales simples . . . . . 34 2.4. El emparejamiento de dos configuraciones de puntos no etiquetadas . 37 2.4.1. El modelo matemático . . . . . . . . . . . . . . . . . . . . . . 38 2.4.2. El Proceso de Poisson de la configuración de referencia . . . . 39 2.4.3. La matriz de emparejamientos y su distribución a priori . . . . 39 2.4.4. Verosimilitud de los datos . . . . . . . . . . . . . . . . . . . . 40 2.4.5. Inferencias sobre los parámetros . . . . . . . . . . . . . . . . . 41 2.5. Introducción a los modelos estadísticos de redes neuronales artificiales 43 2.5.1. El modelo biológico . . . . . . . . . . . . . . . . . . . . . . . . 43 2.5.2. Estructura de una red neuronal artificial . . . . . . . . . . . . 44 2.5.3. Los modelos de regresión como redes neuronales . . . . . . . . 45 2.5.4. Redes neuronales Perceptrón. . . . . . . . . . . . . . . . . . . 46 2.6. Escalamiento multidimensional: análisis INDSCAL . . . . . . . . . . 51 3. Emparejamiento de más de dos configuraciones no etiquetadas me- diante transformaciones lineales 53 ii 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.2. Modelización del problema . . . . . . . . . . . . . . . . . . . . . . . . 54 3.3. El Proceso de Poisson espacial de la configuración de referencia . . . 56 3.4. Matrices de afinidad M y matrices de emparejamiento S . . . . . . . 58 3.4.1. Matriz de afinidad y matriz de emparejamientos de orden 2 . . 58 3.4.2. Matriz de afinidad y matriz de emparejamientos de orden 3 . . 59 3.4.3. Matriz de afinidad y matriz de emparejamientos de orden k . . 60 3.4.4. Distribuciones a priori de las matrices de afinidad y de em- parejamientos . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.5. Modelización con transformaciones lineales generales . . . . . . . . . 68 3.5.1. Construcción de la verosimilitud de los datos . . . . . . . . . . 69 3.5.2. Emparejamiento deM = 4 configuraciones con errores normales 73 3.5.3. Inferencia bayesiana en el caso de emparejamientos conocidos de M = 4 configuraciones . . . . . . . . . . . . . . . . . . . . 79 3.6. Modelización con transformaciones euclídeas de similitud . . . . . . . 84 3.6.1. Construcción de la verosimilitud de los datos . . . . . . . . . . 86 3.6.2. Emparejamientos de M = 4 configuraciones con errores nor- males . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.6.3. Inferencia bayesiana en el caso de emparejamientos conocidos de M = 4 configuraciones . . . . . . . . . . . . . . . . . . . . 88 iii 3.6.4. Inferencia bayesiana en el caso de emparejamientos descono- cidos de M = 3 configuraciones y transformaciones rígidas . . 99 3.7. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.7.1. Datos simulados . . . . . . . . . . . . . . . . . . . . . . . . . . 108 3.7.2. Una aplicación en Bioinformática . . . . . . . . . . . . . . . . 110 4. Emparejamiento de pares de configuraciones mediante transforma- ciones no lineales 125 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.2. Emparejamiento de configuraciones no etiquetadas bajo modelo de redes neuronales basado en un Proceso de Poisson . . . . . . . . . . . 126 4.2.1. Modelización del problema . . . . . . . . . . . . . . . . . . . . 126 4.2.2. Construcción de la verosimilitud de los datos . . . . . . . . . . 129 4.2.3. Inferencia bayesiana en el caso de configuraciones etiquetadas 136 4.3. El modelo con M = 1 nodo, en el caso de R2 . . . . . . . . . . . . . . 147 4.3.1. Inferencia bayesiana en el caso de configuraciones etiquetadas 150 4.4. Emparejamiento de configuraciones etiquetadas bajo modelo de redes neuronales con una configuración fija . . . . . . . . . . . . . . . . . . 154 4.4.1. Modelización del problema . . . . . . . . . . . . . . . . . . . . 155 4.4.2. Construcción de la verosimilitud de los datos . . . . . . . . . . 156 4.4.3. Expresiones de las distribuciones a posteriori de los parámetros157 iv 4.5. Una aplicación en Bioinformática . . . . . . . . . . . . . . . . . . . . 162 4.5.1. Representación de los genes . . . . . . . . . . . . . . . . . . . 163 4.5.2. Elección del número de nodos del modelo . . . . . . . . . . . . 164 4.5.3. Aplicación del modelo de redes neuronales basado en un Pro- ceso de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 165 4.5.4. Aplicación del modelo de redes neuronales con una configura- ción de referencia . . . . . . . . . . . . . . . . . . . . . . . . . 171 Futuras líneas de investigación 179 Referencias 181 v vi Prólogo El trabajo realizado en esta tesis aborda dos líneas de investigación centradas en el estudio de configuraciones o conjuntos de puntos en el espacio. Por un lado, extiende el modelo bayesiano jerárquico de Green y Mardia (2006) sobre el em- parejamiento de dos configuraciones no etiquetadas de puntos, al caso de más de dos configuraciones, además de asumir transformaciones geométricas más generales entre ellas. En segundo lugar, se estudian transformaciones no lineales entre confi- guraciones, planteando dos modelos de redes neuronales que permiten estudiar la relación entre dos configuraciones etiquetadas, utilizando la metodología bayesiana. La asignación de etiquetas a los puntos de las configuraciones para su identifi- cación, puede hacerse de forma aleatoria en cada configuración, de manera que no existe ninguna correspondencia entre puntos de distintas configuraciones, o bien, se puede utilizar algún criterio, de forma que haya puntos de distintas configuraciones a los que, según este criterio, se les asigne las mismas etiquetas, quedando así em- parejados. En el primer caso se dice que las configuraciones son no etiquetadas y en el segundo que sí lo son. Con respecto a la primera parte de esta tesis, la modelización de M configura- ciones no etiquetadas se plantea bajo la suposición de que las configuraciones son perturbaciones aleatorias de un conjunto de puntos fijos y desconocidos {μl} ∈ Rd, la configuración de referencia, proveniente de un proceso de Poisson, y que cada μl sólo puede generar a lo sumo un punto de una misma configuración pero más de un punto de distintas configuraciones. Se desconoce qué puntos de cada configuración se vii corresponden con cada uno de estos μl, pero aquellos puntos de configuraciones dis- tintas que son perturbaciones aleatorias de un mismo punto μl estarán emparejados. Por otra parte, se asume que existen unas transformaciones geométricas desconoci- das entre los sistemas de referencia donde se representan lasM configuraciones, que también formarán parte del modelo. Se definen unas matrices de emparejamientos y de afinidad de distintos órdenes de emparejamientos, que modelizan los emparejamientos entre configuraciones. Se plantean los modelos con transformaciones lineales generales y con transformaciones de similitud entre las configuraciones, particularizando al caso de M = 4 configu- raciones con distribución normal de los errores, para realizar inferencias sobre los parámetros, en el caso de conocer los emparejamientos. En el caso de transforma- ciones de similitud se realizan inferencias cuando son configuraciones no etiquetadas. Sobre la segunda parte de esta tesis, continuando con la misma modelización de configuraciones no etiquetadas, se aborda el problema de asumir transformaciones no lineales de redes neuronales entre pares de configuraciones, aunque las inferencias sobre los parámetros se desarrollan sólo en el caso de emparejamientos conocidos. También se considera un segundo modelo considerando que una de la dos configu- raciones es fija y la otra una transformación no lineal de la primera más un error aleatorio. Un aspecto importante de esta tesis es su aplicación y el ámbito en el que se lleva a cabo. El análisis de la forma de objetos, el estudio de imágenes médicas, la comparación estructural de pares de moléculas son algunos ejemplos de problemas de configuraciones de puntos. Las aplicaciones presentadas en esta tesis se centran en el ámbito de la Bioinformática, donde la información de la que se parte son datos de microarrays. En particular se utilizan dos bases de datos. Una primera tomada de un experimento de Karaman et al. (2003) con células cultivadas de fibroblastos en tres especies genéticamente relacionadas: gorilas (Gorilla gorilla), bonobos (Pan paniscus) y humanos (Homo sapiens). La segunda, es la base de datos de microarrays ALL (Acute Lymphoblastic Leukemia) de Chiaretti et al. (2004) de pacientes con viii leucemia linfoblástica aguda. El tratamiento de estas expresiones hasta llegar a una representación de los genes en un espacio, es una de las aportaciones novedosas de este trabajo, utilizando la técnica multivariante multidimensional scaling ponderada (INDSCAL) cuya apli- cación, aunque utilizada en el ámbito de las ciencias sociales, en Bioinformática es innovadora. La aplicación de los modelos estudiados a configuraciones de genes permite, ha- ciendo una selección adecuada de los mismos, realizar un estudio de ellos desde un punto de vista geométrico. Se podría, por ejemplo, estudiar la evolución de una en- fermedad comparando la disposición de genes relevantes en diferentes instantes del transcurso de la misma, o comparar la expresión de los genes en pacientes sanos y pacientes enfermos. ix x Capítulo 1 Motivación y Antecedentes 1.1. Introducción al análisis de datos espaciales La investigación con datos recogidos en el espacio está creciendo en disciplinas tan distintas como la ecología, marketing, medicina, climatología, bioinformática... Son muy diversos los tipos de investigación que es posible realizar y dependen, en gran medida, del tipo de datos espaciales de los que se disponga. Estos datos pueden corresponder a vectores aleatorios observados en distintas localizaciones y a las coordenadas de estas posiciones. Además es posible que se recoja la información en distintos instantes de tiempo, de manera que se trate de investigaciones espacio- temporales. En función de la información disponible y del carácter de la región en el espacio donde se centre el estudio, los conjuntos de datos espaciales se pueden clasificar en tres tipos: 1. Datos geoestadísticos: Fijada una región D ⊂ Rd que contiene un rectángulo d-dimensional de volumen positivo, los datos corresponden a las observaciones de un vector aleatorio Y (s) en cualquier localización s ∈ D. Tal podría ser el caso en el que se recogen las concentraciones de un sustrato 1 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES en una región de terreno. 2. Datos reticulares: La región D ⊂ Rd es una colección numerable de puntos de Rd, regular o irregular, en cada uno de los cuales se recogen las observa- ciones del vector aleatorio Y (s). La región suele construirse teniendo forma de retícula, aunque en ocasiones presenta formas irregulares. Estas localizaciones a menudo representan los centroides de zonas en las que está dividida la región D y, conectadas entre sí, adquieren un aspecto de retícula. La observación Y (s) recoge la información de toda el área de estudio representada por su centroide s. Dos situaciones de datos reticulares se encuentran en las imágenes propor- cionadas por los satélites y en las imágenes médicas que, aunque las escalas espaciales en ambos problemas son muy diferentes, la forma de los datos y las cuestiones en ambos contextos son similares. 3. Datos de un proceso puntual : A diferencia de los casos anteriores, la región D es aleatoria, de manera que los datos corresponden a las localizaciones de los eventos aleatorios encontrados en D. El valor de Y (s) es fijo, y representa la ocurrencia o no del evento de interés. También es posible recoger, además de la localización donde ha tenido lugar el evento, información adicional de alguna variable, obteniendo lo que se denomina un proceso puntual con marcas. La localización de personas con una enfermedad determinada en cierta zona, o la de ciertas especies en Biología, son ejemplos de este tipo de datos. Aunque el objetivo de las investigaciones es muy diferente, un contexto especial donde también se trabaja con datos espaciales es el análisis de formas de objetos. Las localizaciones de los puntos vienen determinadas por la forma del objeto en cuestión, ya que se sitúan en puntos estratégicos (landmarks) del contorno del objeto que permiten describir la forma que tiene. Esto permite, por ejemplo, estimar la forma media de una población de objetos a partir de los landmarks de una muestra aleatoria de ellos, o comparar las formas medias de objetos distintos. No obstante, el estudio 2 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES de la forma se ha extendido a conjuntos de puntos aleatorios, como proyecciones de partículas de polvo o de granos de arena (Stoyan y Molchanov (1997)). Pero además de la comparación de la forma de dos o más conjuntos de puntos en el espacio, es interesante plantearse la búsqueda de transformaciones que mejor los superpongan y, en el caso de que no se conozca la correspondencia entre los puntos, investigar métodos de estimación de emparejamientos. 1.2. El análisis de la forma, superposición y em- parejamiento, como problemas espaciales El análisis, descripción y comparación de formas y tamaños de los objetos y seres que nos rodean, han sido y son actualmente de gran interés en muchas disciplinas. Se denomina morfometría el estudio estadístico de la forma y el tamaño de un objeto y sus relaciones con otras variables y es una herramienta muy utilizada en Arqueología, Paleontología, Geografía, Geología, o en investigaciones forenses. Así, por ejemplo, se estudia de qué manera cambia la forma del cuerpo humano a lo largo del tiempo, o si es posible saber por la forma o el tamaño de un cráneo, si éste perteneció a un hombre o a una mujer. En Medicina y Biología tiene especial interés estudiar cómo la forma de un or- ganismo cambia durante el crecimiento o a lo largo de la evolución, cómo viene relacionada con el tamaño o con otras variables como el sexo, la edad o condiciones ambientales en las que se haya desarrollado el organismo. Ya Galileo, en 1638, ob- servó que los huesos de animales grandes no son exactamente versiones a mayor escala de esos mismos huesos en animales más pequeños. La explicación viene dada porque los animales de mayor peso necesitan huesos proporcionalmente más grue- sos para soportar el incremento de peso. Otra aplicación muy interesante es poder discriminar y clasificar organismos utilizando la forma que estos presentan. El análisis estadístico de formas recoge la metodología para analizar las formas 3 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES en condiciones de aleatoriedad. Los objetos a estudiar podrían ser considerados como una muestra aleatoria de una población, siendo los objetivos principales estimar la forma media de la población, estimar la variabilidad de las formas e incluso realizar inferencias como, por ejemplo, comparar las formas medias de dos poblaciones de objetos. 1.2.1. Métodos tradicionales frente a métodos geométricos Los métodos que se han utilizado para el análisis de la forma de objetos han ido cambiando a lo largo del tiempo. En los últimos años se ha desarrollado toda una teoría del análisis de las formas desde un punto de vista geométrico, centrándose los estudios en la definición de la forma a través de ciertos puntos claves del objeto que lleguen a caracterizarlo no perdiendo la estructura geométrica del mismo. Este enfoque tiene su origen en el trabajo de Thompson (1917) que propuso representar la forma de los objetos en una rejilla con el objetivo de, mediante deformaciones de la misma, describir cambios morfológicos en ellos. A principios del siglo XX se abordó este problema, desde otro punto de vista, basándose en la descripción de los objetos a partir de mediciones cuantitativas de los mismos (longitud, altura, anchura, distancia entre ejes, cociente de longitudes...), siendo desarrolladas numerosas técnicas multivariantes hoy en día ampliamente conocidas y utilizadas. Este enfoque es conocido en biología como morfometría multivariante. Pearson, en 1926, estudió un coeficiente de semejanza racial como medida de similitud entre cráneos basada en las distancias de un gran número de landmarks. Este término ya había sido definido en 1882, en el décimotercer congreso de la Sociedad Antropológica Alemana. Algunas aplicaciones directas de este enfoque en el análisis de formas, son la clasificación de especies e identificación del sexo basándose en mediciones cuantita- tivas craneales. El análisis de componentes principales sobre las mediciones es una técnica que ampliamente se ha utilizado en este contexto, y cada componente se 4 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES identificaba con un aspecto del tamaño o la forma. Frecuentemente la primera com- ponente principal se interpretaba como una medida global del tamaño del objeto, pues ponderaba con el mismo peso a todas las variables cuantitativas consideradas. Otra área de gran aplicación de estas técnicas multivariantes es la alometría, que consiste en el estudio de las diferencias en formas asociadas al tamaño. El concepto de alometría fue desarrollado por Huxley en 1924. Mosimann, en 1970, realizó un análisis en profundidad en esta materia, aportando teoremas donde se estudia la independencia entre el tamaño y la forma, concepto que denomina isometría. Como ejemplo, estudia la relación entre el tamaño y la forma en el hombre. Define la variable adimensional H B con la que se pretende recoger la idea de forma, donde H es la longitud de la cabeza (de la barbilla hasta la parte más alta) y B la longitud del cuerpo, excluyendo la cabeza. Por otra parte, define la variable tamaño H + B , dimensional, y que representa la altura del individuo. Demuestra, a partir de una muestra de personas, tanto adultos como niños, que la correlación entre la variable de forma H B y la variable de tamaño H +B es negativa. Toda esta teoría está basada exclusivamente en variables positivas (longitudes, ángulos, cociente de longitudes...). Hay que señalar que la idea de considerar las coordenadas de las localizaciones en vez de las distancias, ángulos, etc, entre ellas, permite disponer de mayor información además de poder recurrir, si fuera necesario, a cualquier medida cuantitativa que se necesite. En muchas ocasiones, la interpretación de las combinaciones lineales constru- idas a partir de las variables cuantitativas es poco intuitiva y complicada. Por todo esto, es interesante abordar el problema desde un punto de vista geométrico, par- tiendo del espacio original desde el que se obtienen las mediciones cuantitativas, es decir, trabajar en el espacio geométrico original del objeto en vez de en el espacio multivariante de sus mediciones. Los nuevos avances tecnológicos han permitido desarrollar este nuevo enfoque espacial del problema gracias a la digitalización de objetos. 5 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES Estos problemas requieren dar una definición exhaustiva del concepto de forma, así como decidir qué aspectos geométricos de los objetos son prescindibles a la hora de definirla. Esto lleva a estudiar las transformaciones óptimas que superpongan a los objetos, ya que la localización, orientación o tamaño de un objeto no afecta a su forma. Los métodos Procrustes son ampliamente utilizados en este contexto y se basan en la estimación de transformaciones de similitud mediante mínimos cuadrados. Por último, también un aspecto muy interesante en este contexto de datos es- paciales, es la estimación de los emparejamientos de objetos cuando no se conoce qué puntos de uno corresponden con los del resto, por lo que el problema consiste en identificar qué puntos están emparejados. Problemas de este tipo se plantean con frecuencia en Bioinformática y Quimioinformática, donde las estructuras mole- culares no permiten conocer qué partes de las moléculas se corresponden. Trabajos realizados en este contexto se pueden encontrar en Dryden et al. (2007) y en Green y Mardia (2006). Como conclusión, los problemas de análisis de formas, de superposición y de emparejamientos de objetos requieren una representación geométrica de los mismos, dando lugar a investigaciones y análisis con datos espaciales. 1.3. Los objetos como configuraciones de puntos en el espacio La forma de un objeto está relacionada con la apariencia o con la información geométrica que tiene el mismo, pero es difícil en ocasiones describirla. En el lenguaje cotidiano la forma desconocida de un objeto a menudo se relaciona con una segunda forma de otro al que se parece. Así, por ejemplo, se dice que el mapa de Italia tiene forma de bota. La siguiente definición de forma es debida a Kendall (1977) y es la más referida. 6 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES Definición 1 Se entiende por forma a toda la información geométrica que per- manece en un objeto prescindiendo de cambios en la posición, en la escala y en giros o rotaciones. En otras palabras, la forma es invariante a transformaciones euclídeas de simili- tud de localización, escala y rotación. Esta definición recoge la idea intuitiva de que independiente de dónde se localice el objeto, qué tamaño tenga y si está rotado de una manera o de otra. Así, dos objetos tendrán la misma forma si después de ciertas transformaciones de traslación, de escala y de rotación en un sistema de coordenas arbitrario, coinciden, es decir, son objetos similares. En la Figura 1.1 las dos siluetas de la luna tienen la misma forma aunque distinta localización y tamaño. En la Figura 1.2 las dos siluetas tienen la misma forma y el mismo tamaño, pero distinta localización. Figura 1.1 Dos siluetas de luna con la misma forma Figura 1.2 Dos siluetas de luna con la misma forma y tamaño En la práctica, tiene interés comparar objetos con distintas formas, por lo que se necesita alguna manera de describirlas. Una manera de hacerlo es localizando 7 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES un número finito de puntos en su entorno, denominados landmarks (Dryden and Mardia, 1992). Definición 2 Un landmark es un punto de un objeto u organismo que caracteriza o es común a los de su misma población o especie. Los landmarks van a ayudar a describir la forma de un objeto localizando un número finito de ellos sobre él. Dryden and Mardia (1992) definen tres tipos de landmarks: i) Landmarks anatómicos: es un punto especial identificado por un experto que tiene algún significado específico dentro del objeto u organismo. ii) Landmarks matemáticos: se caracterizan por verificar alguna propiedadmatemáti- ca o geométrica dentro del objeto (punto de máxima curvatura, punto máxi- mo...) iii) Pseudo-landmarks: son puntos localizados normalmente entre dos landmarks anatómicos o matemáticos. Suelen dibujarse equidistantes y ayudan a aproxi- mar curvas continuas del objeto a estudiar. Definición 3 Se llama configuración al conjunto de landmarks de un determinado objeto. Toda configuración se representa a través de la matriz de la configuración X, de dimensiones k ×m, que recoge las coordenadas cartesianas de k landmarks en dimensión m. Es frecuente asignar a cada landmark una etiqueta, que suele ser un nombre o un número, con el objetivo de identificarlo. Esto es importante en problemas de comparación y emparejamientos de objetos, pues ayudarán a describir qué pares de landmarks están emparejados. 8 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES La asignación de las etiquetas a los landmarks puede ser elegida según algún cri- terio, de manera que los landmarks de distintos objetos de la misma especie vendrán identificados con las mismas etiquetas. Se dice entonces que son landmarks etique- tados. Sin embargo, puede haber situaciones donde la asignación de las etiquetas a los landmarks sean arbitrarias y no exista una correspondencia de landmarks entre puntos de distintas especies. En este caso, se dice que los landmarks no están eti- quetados. En esta situación, un interesante objetivo que se plantea es la estimación de los mejores emparejamientos de landmarks. Definición 4 Sean X = {xj, j = 1, . . . , n} e Y = {yk, k = 1, . . . n} dos configura- ciones de n puntos en Rd. Se dice que son dos configuraciones de puntos etiquetados, o son dos configuraciones etiquetadas, si se conoce qué puntos de la configuración X están emparejados con qué puntos de la configuración Y, es decir, se sabe cuáles son los emparejamientos entre sus puntos. En el caso de que se conozcan sólo los em- parejamientos de algunos de los puntos, se dirá que son configuraciones parcialmente etiquetadas, o que tienen emparejamientos parcialmente conocidos. Ejemplo 5 En O’Higgins (1989), se puede encontrar un ejemplo de configuraciones etiquetadas. Se tomó ocho landmarks anatómicos, seleccionados por un especialista, en la sección vertical media de los cráneos de simios para estudiar si existían dife- rencias entre los cráneos de simios hembra y simios macho. En las Figuras 1.3 y 1.4 se representan las configuraciones de dos de los simios hembras y de dos de los simios machos que utilizó en su estudio. Los nombres de las etiquetas corresponden a puntos identificativos de la sección vertical de los cráneos. 9 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES Figura 1.3 Dos configuraciones de cráneos de simios hembras Figura 1.4 Dos configuraciones de cráneos de simios machos El estudio de la superposición de dos o más configuraciones etiquetadas per- mite comparar sus formas, ya que éstas no se ven afectadas por sus localizaciones, orientaciones o tamaños. Así, se estudian las transformaciones que superponen a las configuraciones de puntos. Los métodos Procrustes son ampliamente utilizados en este contexto. En el caso de configuraciones no etiquetadas, el estudio se extiende también a la búsqueda de emparejamientos entre sus puntos además del análisis de la forma. 10 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES 1.4. La superposición de configuraciones: Méto- dos Procrustes El análisis Procrustes estudia la superposición de configuraciones etiquetadas mediante transformaciones de similitud (rotaciones, traslaciones y escalamientos), minimizando la distancia entre ellas mediante la técnica de mínimos cuadrados. No obstante, estos métodos se han ido adaptando al caso de configuraciones no etiquetadas o parcialmente etiquetadas, extendiendo la minimización al conjunto de las transformaciones y al conjunto de las permutaciones de los landmarks. El origen del término se encuentra en la mitología griega. Procrustes fue el apodo de un ladrón que vivió en los caminos entre Atenas y Eleusis. Ofrecía a los viajantes una habitación para pasar la noche y los ajustaba a la cama estirándolos si eran demasiado bajos o acortándoles si eran demasiado altos. La analogía con respecto a las técnicas actuales puede verse interpretando una configuración como la cama que ofrecía Procrustes y la otra identificándola con la persona que iba a pasar la noche en ella, pues era rotada, trasladada y hasta reescalada para que se ajustara lo más posible a la cama. El término análisis Procrustes fue acuñado por primera vez por Hurley y Cattell en relación al Análisis Factorial (1962). El análisis Procrustes utilizando matrices ortogonales (rotación-reflexión), ini- cialmente tuvo su aplicación en Psicología y las primeras publicaciones aparecieron en la revista Psychometrika. 1.5. El estudio de configuraciones no etiquetadas En el caso de configuraciones no etiquetadas o parcialmente etiquetadas, además del estudio de su forma, es de gran interés buscar emparejamientos entre sus puntos y ajustar una transformación geométrica entre ellas. Con respecto al análisis de la forma de una configuración no etiquetada, inicial- 11 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES mente, algunas investigaciones se centraron en el estudio de triángulos (configura- ciones de tres puntos). A principio de los años veinte, se planteó el estudio de la localización de 52 piedras megalíticas situadas en Cornwall, Inglaterra. El enfoque que se le dio al problema fue analizar las formas de todos los triángulos que se pudieran formar con las 52 localizaciones, en total ¡ 52 3 ¢ triángulos, y comprobar si se obtenían más triángulos planos, es decir tres puntos casi alineados con el ángulo mayor cerca de 180 grados, que los que se esperaría encontrar bajo hipótesis de aleatoriedad. Los puntos en este problema no estaban etiquetados y los datos consistían en las posiciones de los¡ 52 3 ¢ triángulos en el plano. Estos datos fueron particularmente importantes porque motivaron investigaciones pioneras de D.G. Kendall. Trabajos relacionados con este problema se pueden encontrar en Broadbent (1980), Kendall y Kendall (1980), Small (1988) y Stoyan et al. (1995). Por otra parte, Christaller (1933) elaboró la Teoría del Lugar Central, desarrolla- da para explicar la distribución espacial de los asentamientos humanos. Según esta teoría, un lugar central sería aquel que pudiese ofrecer servicios de determinadas clase y su área de alcance tendría forma hexagonal, para garantizar la prestación de ese servicio a todo el espacio. Una forma de comprobar si se cumple la Teoría del Lugar Central en una región, es examinar la forma de los triángulos formados por un asentamiento y dos de sus vecinos, y comprobar si son triángulos más o menos equiláteros que lo que se esperaría bajo hipótesis de aleatoriedad. Una triangulación de las ciudades es la triangulación Delaunay, estudiada por Mardia et al. (1977), Green y Sibson (1977) y Mardia (1989). Estos triángulos forman configuraciones de puntos no etiquetadas. Un ámbito de aplicación donde el problema del emparejamientos de configura- ciones no etiquetadas tiene una gran importancia, es el análisis de imágenes donde se han desarrollado varios métodos algorítmicos de emparejamientos. Rangarajan et al. (1997), extendieron la técnica Procrustes a configuraciones no 12 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES etiquetadas (softassign procrustes algorithm) y la aplicaron a imágenes digitalizadas del cerebro de primates. También el emparejamiento de dos imágenes es de gran interés en las investiga- ciones en visión computarizada, también conocida como reconocimiento de objetos, que se basa en la construcción de sistemas artificiales que obtienen información a partir de imágenes, como secuencias de vídeos o fotografías desde distintas cámaras. Gold et al. (1998) desarrollaron un algoritmo rápido y robusto (DAS, Deter- ministic Annealing and Softassignment) que consiste en encontrar una función afín entre las configuraciones de puntos que representan las imágenes y una matriz de correspondencias, a través de un problema de minimización con restricciones. Para ello se apoyaron en la técnica denominada softassign (basada en el trabajo de Kosowsky y Yuille, 1994) y el método de simulación de annealing. Las restricciones recogen el hecho de que las filas y las columnas de dicha matriz de corresponden- cias deben sumar uno y además, estar formada por unos o ceros (en el caso de ser cuadrada, resulta ser una matriz permutación). En general, la simulación annealing encuentra una buena aproximación a un mínimo global de una función dada en un espacio grande de búsqueda y suele usarse cuando éste es discreto. La matriz de correspondencias se encuentra como límite de matrices estocásticas, es decir, matri- ces cuyos elementos son no negativos y sus filas y columnas suman uno. De forma intuitiva, puede interpretarse como el caso continuo de una matriz permutación. El problema de la modelización de los emparejamientos de configuraciones de distinto número de puntos, se resuelve definiendo en la matriz de correspondencias una nueva fila y columna que identifique los no emparejamientos, o outliers. Liu et al. (2004) realizaron una extensión del algoritmo DAS incluyendo modi- ficaciones en la función objetivo a minimizar. Otros algoritmos de búsqueda de emparejamientos son los métodos tree-pruning, con los que se representan inicialmente todos los posibles emparejamientos en forma 13 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES de árbol, y se van talando sus ramas, según van eliminándose los emparejamientos menos probables (Baird (1984), Grimson y Lozano-Pérez (1987) y Umeyama (1993)). Cross y Hancock (1998), resolvieron el problema utilizando el algoritmo EM en conjunto de puntos en dos dimensiones. Walker (1999) adaptó su método al caso de emparejamiento en electroféresis en gel, técnicas empleadas para separar moléculas basándose en propiedades como el tamaño o la forma. En el ámbito de la Biología, Taylor et al. (2003) y Kent et al. (2004) estudiaron el emparejamiento de moléculas de proteínas utilizando también el algoritmo EM para la estimación, definiendo los emparejamientos entre dos configuraciones a través del conjunto de permutaciones entre los dos conjuntos de puntos. A continuación, se presentan dos publicaciones recientes sobre el problema de emparejamiento de configuraciones no etiquetadas utilizando metodología bayesiana. En ambas, se definen los emparejamientos entre pares de configuraciones a través de una matriz de correspondencias, que se convierte en un parámetro más de los modelos. Dryden et al. (2007) comparan configuraciones no etiquetadas y consideran una aplicación con moléculas cuyos átomos son identificados con los puntos de estas con- figuraciones. También incluyen en el modelo información adicional sobre los átomos, en particular, la carga del mismo y el radio van der Waals que ayudan a estimar de forma óptima los emparejamientos. La importancia de la comparación de moléculas activas, con características cono- cidas, con moléculas desconocidas, es que puede ayudar a encontrar similitudes entre ambas. Si se consigue encontrar un emparejamiento estructural entre ambos tipos de moléculas, es posible deducir la funcionalidad de las moléculas desconocidas. Por lo general, las coordenadas de las moléculas se representan sin tener en cuenta su localización y su orientación, de manera que se comparan prescindiendo de dónde estén situadas y si están o no giradas. Es por ello por lo que el modelo 14 CAPÍTULO 1. MOTIVACIÓN Y ANTECEDENTES planteado asume que la verosimilitud es invariante ante rotaciones y traslaciones de los datos, de modo que el problema se centra en encontrar los emparejamientos entre los átomos de las moléculas, es decir, una matriz de etiquetas que identifique los emparejamientos. En el trabajo de Green y Mardia (2006) se aborda el problema del empare- jamiento de dos configuraciones de puntos no etiquetados, o parcialmente etiqueta- dos, identificando algunos emparejamientos y sus aplicaciones en conformación de moléculas de proteínas. Se plantea un modelo bayesiano jerárquico donde se supone la existencia de una configuración de puntos de referencia desconocida proveniente de un Proceso de Poisson. Los autores realizan inferencias bayesianas sobre los em- parejamientos, al mismo tiempo que estiman las transformaciones afines que definen las superposiciones, entendidas como transformaciones entre los sistemas de coorde- nadas donde se representan las dos configuraciones. Existen dos diferencias con respecto al enfoque hecho por Dryden et al. (2007). La primera es que el modelo supone que las dos configuraciones se superponen a una configuración de referencia, es decir, son generadas a partir de los puntos del Processo de Poisson de esta configuración de referencia y, así, proponen un modelo simétrico para ambas configuraciones. La segunda diferencia es que los parámetros de las transformaciones que definen la superposición son incluidos en el modelo. Evans y Dryden (2008) abordan la comparación de los modelos presentados en los trabajos de Dryden et al. (2007) y de Green y Mardia (2006) y también mejoran la convergencia del algoritmo utilizado en Dryden et al. (2007), proponiendo saltos más grandes en la fase de calentamiento del algoritmo MCMC, usado en la estimación de los parámetros. 15 Capítulo 2 Definiciones y conceptos previos 2.1. Introducción El objetivo de este segundo capítulo es presentar varios temas fundamentales en los que se basan los modelos estudiados en esta tesis. En primer lugar, se exponen los aspectos más importantes del proceso de Pois- son espacial homogéneo, en particular en R2, ya que uno de los modelos de empare- jamiento entre configuraciones que se estudiará en los capítulos 3 y 4, está basado en este tipo de proceso puntual. A continuación se presentan las principales transformaciones matriciales de con- figuraciones de puntos en Rd, estudiando desde las transformaciones más simples hasta composiciones de ellas que dan lugar a transformaciones lineales más genera- les, todo ello ilustrado a través de representaciones geométricas. En tercer lugar se realiza un análisis del problema del emparejamiento de dos configuraciones no etiquetadas asumiendo una transformación afín entre ellas, mo- delo que será el origen de la generalización a más de dos configuraciones y que será la base del capítulo 3. 17 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Como introducción a las transformaciones no lineales entre configuraciones que se estudiarán en el capítulo 4, se realiza una introducción a las redes neuronales desde la perspectiva de los modelos de regresión no lineales. Por último, y como presentación de la técnica multivariante utilizada en las aplicaciones en Bioinformática realizadas en este trabajo, se resumen los concep- tos claves de la técnica multivariante INDSCAL (INDividual differences SCALing), modelo de escalamiento multidimensional con ponderaciones. 2.2. Proceso de Poisson espacial 2.2.1. Introducción La disposición de puntos en una región del espacio, sea éste R, R2 ó en general Rn, puede presentar distintos patrones. Si la nube de puntos presenta un aspecto homogéneo sobre la región, se dice que sigue un modelo regular. Por el contrario, si los puntos presentan ciertos agrupamientos se dice que siguen un modelo agregado. En las figuras 2.1 y 2.2 se muestran dos ejemplos de este tipo de patrones. Mediante el proceso de Poisson espacial se modelizan disposiciones de puntos en el espacio que son aleatorias, y por tanto se dice que siguen un modelo aleatorio. Este proceso es la base de la teoría de procesos puntuales espaciales y modeliza el mecanismo aleatorio más sencillo para generar patrones aleatorios de puntos. En la figura 1.3 se muestra una nube de puntos de un modelo aleatorio. 18 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Figura 2.1 Modelo regular Figura 2.2 Modelo agregado Figura 2.3 Modelo aleatorio Sin pérdida de generalidad, nos centraremos en el caso de R2. Denotaremos por N(A) el número de eventos o puntos en una región A del plano, |A| al área de A y dx una región infinitesimal que contiene a x. 2.2.2. Los procesos puntuales espaciales Definición 6 Se llama proceso puntual espacial en R2, a cualquier mecanismo es- tocástico que genera un conjunto de eventos o puntos xi, i = 1, . . . , n, situados en el plano. Definición 7 Se dice que un proceso puntual espacial es estacionario, si todas sus propiedades probabilísticas en cualquier región A del plano, se mantienen invariantes bajo traslaciones arbitrarias de la región A. Si además esta invarianza se mantiene bajo rotaciones de A, se dice que el proceso es isotrópico. Definición 8 Sea N un proceso puntual en el plano. Se define la función de inten- sidad de primer orden del proceso como, λ(x) = ĺım |dx|→0 ½ E[N(dx)] |dx| ¾ . En un proceso estacionario λ(x) es constante e igual a λ para todo x, y representa el número medio de eventos por unidad de área. 19 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Definición 9 Se define la función de intensidad de segundo orden del proceso N como λ2(x,y) = ĺım |dx|→0 |dy|→0 ½ E[N(dx)N(dy)] |dx| |dy| ¾ . En un proceso estacionario, λ2(x,y) = λ2(x − y) es decir, es función de la diferencia x− y. Definición 10 Para n puntos en una región A, se define la distancia al vecino más próximo desde el punto i como la distancia desde el i-ésimo punto al punto más cercano en A. La función de distribución empírica de la variable Y, distancia de un punto al vecino más próximo, es bG(y) = #(yi ≤ y) n , donde con # se denota el número de puntos. Esta variable tiene interés en situaciones donde los eventos o puntos compiten entre ellos y por lo tanto es necesario fijar una distancia mínima. Tal puede ser el caso de los árboles en una región, donde la necesidad de nutrientes en la tierra y de la luz solar puede convertirles en competidores. Este concepto puede generalizarse definiendo la distancia al k-ésimo vecino más próximo desde el punto i, como la distancia desde el i-ésimo punto al k-ésimo más cercano que se encuentra en A. 2.2.3. El Proceso de Poisson espacial Definición 11 El proceso de conteo N es un proceso de Poisson homogéneo de intensidad λ > 0, si verifica las siguientes propiedades: 20 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS (i) Para cualquier región finita del plano A, N(A) sigue una distribución de Pois- son de media λ |A| . (ii) Para toda colección {A1, . . . , Am} de conjuntos disjuntos, las variables aleato- rias N(A1), . . . , N(Am) son independientes. Proposición 1 Sea A una región del plano con |A| > 0 con exactamente un punto. Entonces, la probabilidad de que el punto se encuentre en B ⊂ A es P{N(B) = 1 | N(A) = 1} = |B| |A| . Demostración. A = B ∪ Bc. Por (ii) N(B) y N(Bc) son independientes y por (i) N(B) y N(Bc) siguen una distribución Poisson de medias λ |B| y λ |Bc|, respecti- vamente. Así, P{N(B) = 1 | N(A) = 1} = P{N(B) = 1,N(Bc) = 0} P{N(A) = 1} = P{N(B) = 1}P{N(Bc) = 0} P{N(A) = 1} = £ (λ |B|)1 e−λ|B|/1! ¤ £ (λ |Bc|)0 e−λ|Bc|/0! ¤ (λ |A|)1 e−λ|A|/1! = |B| |A| . La generalización de este resultado a más de un punto, se recoge en la siguiente proposición. Proposición 2 Sea A una región del plano con |A| > 0 con exactamente n pun- tos. Entonces para toda partición disjunta de A, A1 ∪ . . . ∪ Am = A, y para todo k1,. . . , km ∈ R tales que mP i=1 ki = n se tiene que P (N(A1) = k1, . . . , N(Am) = km) | N(A) = n) = n! k1! . . . km! µ |A1| |A| ¶k1 . . . µ |Am| |A| ¶km . 21 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Demostración. Para todo i = 1, . . . ,m, por la definición 11(ii) N(Ai) son inde- pendientes y por definición 11(i) N(Ai) siguen una distribución Poisson de media λ |Ai| . Además, por la proposición 1, la probabilidad de que un punto pertenezca al conjunto Ai es |Ai| |A| . Por lo tanto, para todo k1,. . . , km ∈ R tales que mP i=1 ki = n, a partir de la distribución multinomial, se tiene que P (N(A1) = k1, . . . , N(Am) = km) | N(A) = n) = n! k1! . . . km! µ |A1| |A| ¶k1 . . . µ |Am| |A| ¶km . Este resultado asegura que los n eventos en A se distribuyen uniformemente sobre A. Observación 1 La definición del proceso de Poisson espacial implica unas propiedades que verifica el proceso puntual, análogas al caso unidimensional y que son las siguien- tes: 1. La distribución de N(A) depende de la región A sólo a través de su tamaño |A| con la propiedad que P{N(A) ≥ 1} = λ |A|+ o(|A|) cuando |A| ↓ 0. 2. Para m = 2, 3, . . . , si A1, . . . , Am son regiones disjuntas, entonces N(A1), . . . , N(Am) son variables aleatorias independientes y N(A1∪ . . .∪Am) = N(A1)+ . . .+N(Am). 3. ĺım |A|→0 P{N(A) ≥ 1} P{N(A) = 1} = 1. La propiedad 1 indica que la distribución de N(A) no depende de la forma ni de la localización de A, sino sólo de su tamaño |A|. La propiedad 2 implica que un punto en una región ni influye ni es influido por la presencia de otro punto en una segunda región que no se solape con la primera. Y, por último, la tercera propiedad 22 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS establece el hecho de que los eventos se presentan de uno en uno, no siendo posible el solapamiento de dos en una misma localización. La función de intensidad del proceso de Poisson homogéneo es constante e igual a λ, ya que λ(x) = ĺım |dx|→0 ½ E[N(dx)] |dx| ¾ = ĺım |dx|→0 ½ λ |dx| |dx| ¾ = λ, y la función de intensidad de segundo orden es λ2, ya que se tiene que λ2(x,y) = ĺım |dx|→0 |dy|→0 ½ E[N(dx)N(dy)] |dx| |dy| ¾ = ĺım |dx|→0 |dy|→0 ½ E[N(dx)] · E[N(dy)] |dx| |dy| ¾ = ĺım |dx|→0 |dy|→0 ½ λ |dx| · λ |dy| |dx| |dy| ¾ = λ2. Con respecto a la variable Y, distancia de un punto al vecino más próximo, denota- mos por Yi a la distancia desde el punto i al vecino más próximo. Así la probabilidad de que se encuentre a menos de una distancia y será: P (Yi ≤ y) = Área del círculo de radio y |A| = πy2 |A| . Por lo tanto la función de distribución de Y es, G(y) = P{Y ≤ y} = 1− P{todos los puntos están a una distancia mayor que y} = 1− n−1Y j=1 P{Yi > y} = 1− µ 1− πy2 |A| ¶n−1 . Una aproximación para n grande, tomando λ = n/ |A| es entonces, G(y) = 1− exp(−λπy2) y ≥ 0. Por tanto, la función de densidad de Y es f(y) = 2λπy exp(−λπy2). 23 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Un tipo de proceso puntual no estacionario es el proceso de Poisson no homogéneo donde la función de intensidad no es constante, sino es función de x. Definición 12 El proceso de conteo N es un proceso de Poisson no homogéneo con función de intensidad λ(x), si verifica las siguientes propiedades: (i) Para cualquier región finita del plano A, N(A) sigue una distribución de Pois- son de media R A λ(x)dx. (ii) Dado N(A) = n, los n eventos en A forman una muestra aleatoria simple de la distribución sobre A, cuya función de distribución es proporcional a λ(x). Simulación de un proceso de Poisson espacial Si se condiciona a un valor fijo de N(A), un método directo para generar un proceso de Poisson homogéneo en A sería distribuir los sucesos independientemente según la distribución uniforme sobre A. Si la forma de A no es sencilla, se puede sim- ular sobre una región de una forma más sencilla (rectángulo o círculo, por ejemplo) donde esté incluida la región A, y prescindir de aquellos eventos que no han caído en A. Hsuan (1979), proporciona un algoritmo para generar puntos uniformemente distribuidos sobre un polígono cualquiera. Por otro lado, si se requiere que N(A) sea aleatorio, se puede aplicar este mismo método previa simulación de N(A) a partir de la distribución de Poisson adecuada. Ross (1997) presenta la simulación de un proceso de Poisson homogéneo en un círculo de radio fijo r y centro el origen, a partir de las coordenadas polares de los puntos. Denotamos por C(r) al círculo centrado en el origen y de radio r. Por definición 11(i), el número de puntos en C(r) tiene una distribución Poisson de parámetro λπr2. Sea Ri la distancia del origen a su i-ésimo vecino más próximo. 24 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Entonces, P{πR21 > x} = P{R1 > r x π } = P{Ningún punto se encuentre en C( r x π )} = P{N(C( r x π )) = 0} = exp{−λx}. Por lo tanto, el área del círculo centrado en el origen y de radio R1, (distancia del origen al vecino más próximo), sigue una distribución exponencial de parámetro λ. Este razonamiento puede repetirse para obtener el siguiente resultado general, que afirma que las áreas de las coronas circulares formadas como diferencia de dos círculos de radio Ri y Ri−1 i = 1, . . . , n, son variables independientes y siguen una distribución exponencial de parámetro λ. Proposición 3 Tomando R0 = 0, se tiene que para todo i ≥ 1, πR2i − πR2i−1 son variables aleatorias independientes de media λ. Además, por simetría, se tiene que los respectivos ángulos de los puntos del proceso de Poisson son independientes y se distribuyen uniformemente sobre (0, 2π), por lo que el algoritmo que propone Ross (1997) para simular un proceso de Poisson sobre un círculo de radio r y centro el origen, es el siguiente: Algoritmo 13 Paso 1 Simular exponenciales independientes de tasa λ, X1, X2,. . . ,XN−1 donde N =Min{n : X1 + . . .+Xn > πr2}. Paso 2 Si N = 1, parar, y entonces no hay puntos en C(r). En otro caso, para i = 1, . . . , N − 1, tomar Ri = r X1 + . . .+Xi π , es decir, πR2i = X1 + . . .+Xi. 25 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Paso 3 Simular U1, . . . , UN−1 de una distribución U(0, 1). Paso 4 Las coordenadas polares de los N − 1 puntos del proceso de Poisson de tasa λ son (Ri, 2πUi), i = 1, . . . , N − 1. Ross (1997) también aplica el mismo razonamiento a regiones del plano generales, limitadas por el eje x (intervalo (0, T )) y una función positiva f(x). El caso particular de f(x) = k, equivale a simular en el rectángulo (0, T )× (0, k). Por último, para simular un proceso de Poisson no homogéneo, Lewis y Shedler (1979) sugieren un algoritmo basado en el método de rechazo. Básicamente consiste en simular un proceso de Poisson homogéneo sobre A con intensidad λ0 = máx x∈A λ(x) y elegir el evento en x con probabilidad λ(x)/λ0. 2.3. Transformaciones matriciales Uno de los aspectos más relevantes de este trabajo se refiere a la representación de configuraciones de puntos, su emparejamiento y su relación mediante distinto tipo de transformaciones, en particular, transformaciones lineales. En esta sección se presentan distintos tipos de transformaciones matriciales en Rd. 2.3.1. Transformaciones matriciales simples Definición 14 Se llama configuración de puntos a un conjunto de k puntos en Rd, de manera que se representa a través de la matriz X, de dimensiones k × d, que recoge las coordenadas cartesianas de los k puntos en Rd. Definición 15 Una transformación T : Rd −→ Rd es lineal si verifica las siguientes propiedades: 26 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS 1. Para todo x ∈ Rd existe un único vector x∗ = T (x) ∈ Rd. 2. Para todo k ∈ R y todo x ∈ Rd, se tiene que T (kx) = kT (x). 3. Para todo x,y ∈ Rd se tiene que T (x+ y) = T (x) + T (y). Cualquier transformación lineal de Rd en Rd, puede representarse mediante una matriz cuadrada no singular A de dimensiones d× d, es decir, mediante una trans- formación matricial general, T (x) = Ax, x ∈ Rd. Observación 2 En general, si se quiere aplicar una transformación matricial a una configuración de puntos X, al recogerse los puntos en vectores filas, la configuración transformada se expresa multiplicando por la derecha por la matriz traspuesta, es decir, X∗ = T (X) = XAT . Definición 16 Una matriz cuadrada An×n es ortogonal si verifica ATA = In, es decir, cualquier par de vectores fila o vectores columna son ortogonales y cada vector tiene módulo 1. Una matriz ortogonal verifica las siguiente propiedades: 1. A−1 = AT . 2. |A| = 1 ó |A| = −1. 3. C = AB es ortogonal si A y B son ortogonales. 27 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Las matrices ortogonales pueden utilizarse para representar cambios de base o rotaciones. A continuación se presentan las siguientes transformaciones simples: rotación, traslación, reflexión, dilatación y estiramiento. Rotación Definición 17 Una matriz Γn×n es una matriz de rotación si es ortogonal (ΓTΓ = ΓΓT = In) y |Γ| = +1. También se le conoce como rotación propia. Las rotaciones son un tipo particular de transformación lineal y juegan un papel muy importante en el análisis de transformaciones matriciales generales. Se puede hablar de rotaciones desde dos puntos de vista: 1. Rotaciones de puntos, donde el sistema de referencia se mantiene fijo y lo que se rotan son los puntos con respecto al origen, según el sentido de las manecillas del reloj (ángulos negativos) o en sentido contrario (ángulos positivos). 2. Rotaciones de ejes, donde los puntos se mantienen fijos y lo que se rota es el sistema de referencia (origen y base) según también el sentido de las manecillas del reloj o en sentido contrario. En este caso, los puntos son expresados en términos del nuevo sistema de referencia rotado. Aunque ambos tipos de rotación son equivalentes, la rotación de puntos es más sencilla de utilizar aunque la segunda interpretación es muy empleada en el desarrollo de las técnicas de análisis multivariante. Las coordenadas de un punto al que se le aplica una rotación de ángulo −α coinciden con las coordenadas del mismo punto con respecto al eje rotado un ángulo +α. Este resultado se ilustra en las figuras 2.4 y 2.5, donde se representa el punto x = (1, 2) respecto al eje de coordenadas rotado 28 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS 30o en sentido positivo (figura 2.4), y las coordenadas del mismo punto, rotado 30o negativo (figura 2.5). -3 -2 -1 1 2 3 -3 -2 -1 1 2 3 +30º x*=(1.87,1.23) Figura 2.4 Rotación de ejes en sentido positivo -3 -2 -1 1 2 3 -3 -2 -1 1 2 3 -30º x*=(1.87,1.23) Figura 2.5 Rotación de punto en sentido negativo Observación 3 En el caso de dos dimensiones, la matriz de rotación con la que se rota a un punto x con un ángulo α en sentido positivo, es de la forma Γ = µ cosα −senα senα cosα ¶ , y en el caso de que la rotación sea en sentido de las agujas del reloj, utilizando las propiedades trigonométricas senα = −sen(−α) y cosα = cos(−α), la matriz de 29 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS rotación será Γ∗ = µ cosα senα −senα cosα ¶ = ΓT . Así, el punto xT = (x1, x2) rotado en sentido positivo α, tendrá por coordenadas x∗ = µ x∗1 x∗2 ¶ = Γx = µ x1 cosα− x2senα x1senα+ x2 cosα ¶ . y en sentido negativo α, x∗ = µ x∗1 x∗2 ¶ = Γ∗x = µ x1 cosα+ x2senα −x1senα+ x2 cosα ¶ . La matriz de rotación utilizada en la figura 1.5 para rotar el punto xT = (1, 2) un ángulo de α = 30o en sentido negativo es: Γ∗ = µ 0,87 0,5 −0,5 0,87 ¶ por lo que el punto rotado es x∗ = Γ∗x = µ 0,87 + 2·0,5 1(−0,5) + 2·0,87 ¶ = µ 1,87 1,23 ¶ . Observación 4 En general, para rotar en sentido positivo una configuración de k puntos Xk×d, la configuración transformada se expresa de la forma X∗ = XΓ∗ donde Γ∗ = µ cosα −senα senα cosα ¶T = µ cosα senα −senα cosα ¶ . Así, la rotación en sentido positivo de una configuración se consigue multiplican- do por la derecha la matriz de configuración por la matriz de rotación Γ∗. Traslación Definición 18 Una traslación se consigue sumando un vector constante k-dimensional al punto, es decir x∗ = x+ γ 30 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS o bien, a una configuración de puntos, X∗ = X + 1kγ T . Definición 19 Las transformaciones rígidas de una matriz de configuración Xk×m son el conjunto de matrices X rotadas y trasladadas, es decir X∗ = XΓ+ 1kγ T donde Γ es una matriz de rotación, 1k es un vector columna de unos de dimensión k y γ es el vector de traslación. Estas transformaciones se caracterizan porque preservan los ángulos entre vec- tores, longitudes y distancias entre puntos. Reflexión Esta transformación consiste en multiplicar un número impar de coordenadas de los puntos por −1. Así, por ejemplo en R2, la matriz de reflexión que cambia de signo a las primeras coordenadas de los puntos sería A = µ −1 0 0 1 ¶ . En las figuras 2.6 y 2.7 se representan una configuración de 9 puntos, y la configu- ración reflejada a través de esta matriz, respectivamente. 31 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS -2 -1 1 2 -2 -1 1 2 A B C D E F G H I Figura 2.6 Configuración original -2 -1 1 2 -2 -1 1 2 C B A F E D I H G Figura 2.7 Configuración reflejada Observación 5 Las matrices ortogonales con |Γ| = −1, se les llama impropias y representan una rotación seguida de un número impar de reflexiones de los ejes, es decir, en el caso de R2, rotación más una reflexión, en el caso de R3, rotación más una o tres reflexiones, y así sucesivamente. Estas matrices se obtienen a partir de las matrices ortogonales propias (|Γ| = +1), multiplicando por −1 un número impar de filas. Esto hace que |Γ| = −1. 32 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Dilatación Una dilatación de un punto x consiste en multiplicarlo por un escalar s (x∗ = sx), de manera que si s > 1 se consigue una extensión uniforme del vector de puntos mientras que si s < 1, se consigue una contracción del mismo Por otro lado la dilatación de una configuración de puntos X, se consigue mul- tiplicando la configuración por una matriz diagonal, con todos los elementos de la misma iguales a s (X∗ = XU = sXIk = sX). Estiramiento Una transformación de estiramiento, es una generalización de la dilatación, donde las coordenadas de los puntos se dilatan o contraen multiplicándolas por distintos escalares. Así, la matriz involucrada en esta transformación es una matriz diagonal D, con diferentes valores en la misma. Así, por ejemplo, tomando x = (−1,−1), x∗ = Dx = µ 2 0 0 1 ¶µ −1 −1 ¶ = µ −2 −1 ¶ . En la figura 2.8 se recoge la configuración X de la figura 2.6, transformada mediante este estiramiento. -2 -1 1 2 -2 -1 1 2 A B C D E F G H I Figura 2.8 Efecto geométrico de una transformación de estiramiento 33 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS 2.3.2. Composición de transformaciones matriciales simples Una vez presentadas las transformaciones simples y su interpretación geométrica, en esta sección se muestran transformaciones lineales más generales y complejas, obtenidas como composición de las primeras. En concreto, nos centramos en las transformaciones lineales arbitrarias de matriz no singularA, transformaciones afines y transformaciones de similitud. Una transformación lineal arbitraria se puede interpretar como una composición de transformaciones más simples, gracias a la descomposición singular de una matriz. Teorema 20 Toda matriz A(n×k) de rango r puede expresarse como A = UDV T donde Un×r y Vk×r son matrices con vectores columnas ortogonales de norma uno y Dr×r es una matriz diagonal con elementos positivos ordenados. La matriz diagonal D contiene las raíces cuadradas de los valores propios no nulos de las matrices AAT o ATA, que son positivos. La matriz U contiene en columnas los vectores propios asociados a valores propios no nulos de AAT y V contiene en columnas los vectores propios asociados a valores propios no nulos de ATA. Los elementos diagonales de D se denominan los valores singulares de la matriz A. Corolario 21 Si Ap×p es una matriz cuadrada no singular, entonces se puede es- cribir de la forma A = UDV T donde UTU = UUT = I y V TV = V V T = I y D es una matriz diagonal. Este resultado garantiza que cualquier transformación matricial general no sin- gular con valores reales, puede descomponerse de manera única en el producto de las siguientes transformaciones simples: 34 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS 1. una rotación, un estiramiento y otra rotación, o bien 2. una rotación, una reflexión, un estiramiento y otra rotación. Ejemplo 22 Consideramos la transformación matricial general definida con la ma- triz no singular A = µ 1 2 3 4 ¶ . La descomposición singular de A, es A = UDV T = µ −0,41 −0,91 −0,91 0,414 ¶µ 5,47 0 0 0,37 ¶µ −0,58 −0,82 0,82 −0,58 ¶ donde U es ortogonal con |U | = −1 y V también con |V | = 1. Así, la transformación lineal dada por la matriz A se puede descomponer en una rotación de −66o seguida de una reflexión, transformación recogida con la matriz U , un estiramiento, la matriz D, y una rotación de 125o, matriz V T . En las figuras 2.9, 2.10 y 2.11 se representa la descomposición de la transforma- ción general A, de la configuración de la figura 2.6. A D G B E H C F I Figura 2.9 Configuración X rotada y reflejada XU 35 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS A BC DE F GH I Figura 2.10 Configuración rotada, reflejada y estirada XUD A B CD E FG H I Figura 2.11 Configuración XA = XUDV T Definición 23 Se define la transformación lineal general afin de un vector x como x∗ = Ax+ c y de una configuración X como X∗ = XAT + 1cT , donde A es una matriz arbitraria cuadrada y c un vector de Rd. Este tipo de transformaciones consisten, pues, en la composición de una trans- formación lineal general, más una traslación mediante el vector c. Si no se cambia de origen, entonces estamos ante transformaciones lineales generales homogéneas x∗ = Ax. 36 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Definición 24 Una transformación de similitud es aquella que consiste en una rotación, mediante una matriz de rotación propia A, una dilatación de constante s y una traslación de un vector x, es decir, x∗ = sAx+ c. En el caso de una configuración X, X∗ = XATU + 1cT donde U es la matriz escalar U = sI2. Estas transformaciones se caracterizan porque estiran todas las distancias de la configuración por un mismo factor de escala. En el caso de que la transformación deje todas las distancias entre puntos exactamente iguales, se dice que es una isometría. Ejemplos de isometría son las traslaciones y las rotaciones. 2.4. El emparejamiento de dos configuraciones de puntos no etiquetadas En la sección 2.3 se ha representado una configuración de k puntos mediante una matriz X, de dimensiones k × d, que recoge las coordenadas cartesianas de los k puntos en dimensión d. Cuando se procede a estudiar la relación entre dos o más configuraciones es necesario etiquetar los puntos que las definen con el objetivo de identificarlos. Ya adelantamos en el capítulo 1, que dependiendo del conocimiento que se tenga de las configuraciones que se van a estudiar y de la relación existente entre ellas, la asignación de estas etiquetas puede hacerse de forma aleatoria en cada configura- ción, de manera que no existe ninguna correspondencia entre los puntos de distintas configuraciones, (configuraciones no etiquetadas), o bien, mediante algún criterio 37 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS que permita identificar a puntos de configuraciones distintas con las mismas etique- tas, creando, por lo tanto, emparejamientos entre los puntos de las configuraciones, (configuraciones etiquetadas). Green y Mardia (2006) abordan el problema del emparejamiento de dos configu- raciones de puntos no etiquetados, o parcialmente etiquetados, identificando algunos emparejamientos y asumiendo transformaciones afines entre ellas. Los contenidos del capítulo 3 y parte de los del capítulo 4 de la presente tesis, se han apoyado en este trabajo y consisten en una generalización al caso de más de dos configuraciones y a transformaciones más generales. 2.4.1. El modelo matemático Sean dos configuraciones de puntos en Rd, X = {xj, j = 1, . . . , n} e Y = {yk, k = 1, . . .m} consideradas como observaciones aleatorias de un conjunto de puntos o localizaciones {μl} l = 1, . . . , N, que definen la configuración de referencia y se des- conoce qué puntos de ambas configuraciones se corresponden a cada μl. El objetivo es realizar inferencias acerca de los posibles pares (j, k) que se correspondan con la misma localización, lo que indicaría que el punto xj está emparejado con el punto yk. Pero además de desconocer los emparejamientos, existe una transformación afin también desconocida entre el espacio de la configuración X y el de la configuración Y , de manera que un y en el espacio de Y, se corresponde con un x = Ay + τ en el espacio de X. Se supone, sin falta de generalidad, que la configuración de referencia {μl l = 1, . . . , N} se localiza en el espacio de X. Green y Mardia (2006) representan esta situación a través del modelo: xj = μξj + ε1j, j = 1, . . . , n Ayk + τ = μηk + ε2k, k = 1, . . . ,m (2.1) donde A y τ , definen la transformación afín entre los dos espacios, ξj identifica al punto μ que se corresponde con el punto xj de la primera configuración, y ηk iden- tifica al punto μ que genera a yk de la segunda configuración. Además {ε1j} y {ε2k} 38 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS tienen distribución f1 y f2 respectivamente, y son independientes e independientes de {μl}. 2.4.2. El Proceso de Poisson de la configuración de referen- cia Se supone que el conjunto de puntos fijos {μl} l = 1, . . . , N, forman un proceso de Poisson homogéneo de tasa λ sobre una región V ⊂ Rd de volumen v, y que parti- mos de N observaciones de este proceso en dicha región. Se asume además que cada uno de estos μl puede generar de forma independiente, un punto de cada configura- ción (lo que indicará que son puntos emparejados), sólo un punto de la configuración X, sólo un punto de la configuración Y o ningún punto de ninguna configuración. Así, los {μl} quedan clasificados en cuatro clases distintas e independientes, CXY , CX , CY y C0, respectivamente. Las probabilidades de que un μl pertenezca a cada una de ellas son, ρpXpY , pX , pY y 1− pX − pY − ρpXpY , respectivamente, donde ρ es la tasa de emparejamientos a priori, entendida como una medida a priori de la tendencia a que dos puntos estén emparejados. Para todo N, n y m, habrá L pares de puntos emparejados en la muestra si y sólo si, hay L puntos μl en CXY , n − L puntos en CX , m − l puntos en CY y N − n −m + L puntos en C0. Así, los procesos puntuales que cuentan el número de puntos μl de cada tipo son procesos de Poisson de tasas λvρpXpY , λvpX , λvpY y λv(1− ρpXpY − pX − pY ), respectivamente. 2.4.3. La matriz de emparejamientos y su distribución a priori Con el objetivo de identificar qué puntos de las dos configuraciones están em- parejados, Green y Mardia (2006) definen la matriz de emparejamientos M como, Mjk = ½ 1 si ξj = ηk 0 si ξj 6= ηk , 39 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS es decir, Mjk = 1 indica que xj e yk provienen del mismo punto μl y por tanto están emparejados y Mjk = 0 indica que no lo están. Se tiene que P j,kMjk = L, y que en cada fila y en cada columna de la matriz M hay a lo sumo un 1, es decir,P j Mjk ≤ 1 para todo k, y P kMjk ≤ 1 para todo j. Se asume que conocido L, el número de pares de puntos emparejados, M sigue una distribución uniforme, es decir, hay L! µ n L ¶µ m L ¶ posibles matrices de emparejamientos, todas con la misma probabilidad, por lo que p(M |L) = 1 L! ¡ n L ¢¡ m L ¢ . Entonces, basándonos en el hecho de que la distribución a priori de L condicionada a n y m es proporcional a p(L) ∝ e−λvpX (λvpX) n−L (n− L)! · e −λvpY (λvρpY ) m−L (m− L)! · e −λvρpXpY (λvρpXpY ) L L! ∝ (ρ/λv)L (m− L)!(n− L)!L! , donde L = 0, 1, . . . ,mı́n{n,m}, se llega a que la distribución a priori de M es p(M) = p(L)p(M |L) ∝ (ρ/λv)L (m− L)!(n− L)!L! · 1 L! ¡ n L ¢¡ m L ¢ ∝ (ρ/λv)L. 2.4.4. Verosimilitud de los datos Asumiendo la transformación afín entre las configuraciones, Green y Mardia (2006) calculan la expresión de la verosimilitud de los datos que toma la forma, p(x, y|M,A, τ) ∝ v−(m+n) |A|n Q {(j,k):Mjk=1} g(xj −Ayk − τ), donde g(z) = R f1(z+u)f2(u)du, es la función de densidad de la diferencia ε1j−ε2k. 40 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS En el caso de asumir que f1 y f2 son distribuciones normales, de manera que xj ∼ Nd(μξj , σ 2Id), Ayk + τ ∼ Nd(μηk , σ 2Id), se tiene que g(z) = 1 (σ √ 2)d ϕ{z/(σ √ 2)}, por lo que la verosimilitud de los datos tiene la forma p(x, y|M,A, τ) ∝ |A|n Q {(j,k):Mjk=1} ρϕd{(xj −Ayk − τ)/(σ √ 2)} λ(σ √ 2)d , donde ϕd(z) es la función de densidad de la distribución Nd(0, I). 2.4.5. Inferencias sobre los parámetros Asumiendo ρ y λ fijos, se puede realizar inferencias sobre el resto de los paráme- tros, M , τ , σ2 y A, dados los datos {xj} e {yk}. Se considera el caso en el que A es una matriz de rotación, es decir, es una matriz ortogonal con determinante positivo, (ATA = I y |A| = +1). En este caso, la expresión de la distribución a posteriori de A, condicionada por el resto de los parámetros es P (A|M, τ, σ, x, y) ∝ p(A) exp ⎡⎣traza ⎧⎨⎩ 1 2σ2 X {(j,k):Mjk=1} yk(xj − τ)TA ⎫⎬⎭ ⎤⎦ . Asumiendo que A tiene una distribución a priori von Mises (véase e.g. Mardia y Jupp, 2000), cuya expresión es p(A) ∝ exp{traza(F T 0 A)}, donde F0 es una matriz fijada, la distribución a posteriori es también una von Mises cuyo parámetro es F = F0 + 1 2σ2 X {(j,k):Mjk=1} (xj − τ)yTk . 41 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Green y Mardia (2006) consideran el caso bidimensional, con A = µ cos θ −senθ senθ cos θ ¶ , y también el caso en tres dimensiones donde la matriz de rotación es el producto de matrices de rotaciones elementales, A = A12(θ12)A13(θ13)A23(θ23) donde, para i < j, Aij(θij) es la matriz de dimensión 3× 3 con mii = mjj = cos θij, −mij = mji = sin θij, mrr = 1 con r 6= i, j y el resto de los elementos iguales a cero (Khatri y Mardia, 1977). Por otro lado, las distribuciones a priori que se asumen para τ y para σ2 son las distribuciones normal y gamma inversa, respectivamente, que son también conju- gadas con respecto a errores normales. La estimación de la distribución a posteriori de los tres parámetros A, τ y σ2 se realiza con saltos Metropolis. En el caso de emparejamientos desconocidos, la estimación de la matriz de emparejamientos M, se lleva a cabo mediante el método de Metropolis-Hasting, definiendo la distribución propuesta como sigue: en primer lugar, se selecciona al azar uno de los n + m puntos de las dos configuraciones (por ejemplo y sin falta de generalidad xj). Si xj está emparejado, con probabilidad p∗ se propone eliminar el emparejamiento y con probabilidad 1− p∗ se propone cambiar el emparejamien- to de yk a yk0. Por el contrario, si xj no está emparejado, se propone emparejarlo eligiendo de forma aleatoria entre los yk que no están emparejados. Por último, una vez generada una muestra a posteriori de matrices de emparejamientos, Green y Mardia (2006) proponen como estimador de la matriz de emparejamiento aquella que consigue minimizar cierta función de pérdida. 42 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS 2.5. Introducción a los modelos estadísticos de re- des neuronales artificiales 2.5.1. El modelo biológico Las redes neuronales artificiales surgieron como modelo de representación y si- mulación del proceso de aprendizaje del cerebro basado en la estructura de conexión de las neuronas. El cerebro humano está formado por miles de millones de neuronas que proce- san la información. Cada una de ellas trabaja como un simple procesador pero sus múltiples conexiones son las que hacen posible las grandes capacidades de nuestro cerebro. Una neurona del cerebro consta de un cuerpo celular o soma, una o varias prolon- gaciones cortas que generalmente transmiten impulsos hacia el soma, las dendritas, y una prolongación larga, denominada axón, que conduce los impulsos desde el soma hacia otra neurona. En la figura 2.12 se presenta un esquema de esta estructura. La información pasa de neurona a neurona en forma de estímulo eléctrico a través de las dendritas. Cuando se alcanza un nivel de excitación y supera cierto umbral, se envía información a través del axón, en cuyo caso se dice que la neurona está activada. Si no se llega a este umbral, la neurona se dice que está inhibida. Esta estructura y este mecanismo de funcionamiento de una neurona del cerebro intenta representarse con las redes neuronales artificiales. 43 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Figura 2.12 Estructura de una neurona del cerebro 2.5.2. Estructura de una red neuronal artificial Evidentemente, la representación artificial de una neurona cerebral y de su fun- cionamiento requiere una gran simplificación. Sin embargo, como el cerebro humano, una red neuronal artificial consta de neuronas artificiales o nodos y conexiones entre ellas. Desde los nodos se transporta información a lo largo de sus conexiones a otros nodos. Las neuronas artificiales como unidades independientes no son muy eficaces para el tratamiento de la información y se agrupan en estructuras más grandes, las redes de neuronas artificiales o redes neuronales. La distribución de nodos dentro de la red se realiza formando niveles o capas de un número determinado de nodos cada una. A partir de su situación dentro de la red se pueden distinguir tres tipos de capas: 1. Capas de entrada: estas capas reciben la información desde el exterior y la forman los nodos input. Con ellas se identifican en los modelos estadísticos a las variables explicativas. 2. Capas de Salida: están formadas por los nodos output y envían la información hacia el exterior; identifican a las variables respuestas en los modelos estadís- 44 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS ticos. 3. Capas ocultas: son capas que sólo sirven para procesar información y comunicar otras capas. Sus nodos están escondidos y corresponden a las transformaciones de los nodos input y sus ponderaciones. 2.5.3. Los modelos de regresión como redes neuronales Muchos de los problemas estudiados a través de una red neuronal corresponden a problemas planteados mediante modelos de regresión, en su versión más general. Como ejemplo, en la figura 2.13 se presenta un diagrama del modelo de regresión lineal múltiple, y = w0 + kP i=1 wixi, (2.2) utilizando un esquema de red neuronal simple con sólo nodos input, formado por las variables explicativas xi, i = 1, . . . , k y nodos output, formado por la variable dependiente y. Los pesos sobre las flechas indican la ponderación dada a cada input xi, formando así la suma ponderada a la que se le añade el valor w0 para dar lugar al output y. Figura 2.13 Red neuronal artificial simple 45 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS En general, hay dos aspectos importantes en el planteamiento de una red neu- ronal: 1. La estructura o arquitectura de la red, que se refiere a la definición de los nodos y a sus conexiones, con la que pretende representarse el problema. 2. El entrenamiento de la red a partir de los datos de entrenamiento, que permite mejorar las predicciones de la red. Desde un punto de vista estadístico, estos dos aspectos corresponden a 1. Especificar un modelo matemático de regresión. 2. Estimar los parámetros del modelo a partir de un conjunto de datos. La diferencia en la práctica entre ambos enfoques radica en la forma de utilizar los datos, nodos input y output en la red neuronal, para conocer los valores w0 y w. Mientras en Estadística se utilizan métodos de estimación, (máxima verosimili- tud, inferencia bayesiana, estimación no paramétrica...), el enfoque de tipo machine learning utiliza algoritmos recursivos en los que los pesos van siendo modificados según van procesándose los datos de entrenamiento. Para más detalle puede verse Cheng y Titterington (1994). El tipo de red neuronal que más se utiliza para resolver problemas de regresión es el de redes Perceptrón multicapa (multilayer perceptron) y generalizaciones de la red Perceptón simple. 2.5.4. Redes neuronales Perceptrón. Red Perceptrón simple El Perceptrón es una red de alimentación directa, esto es, la información fluye desde la capa de entrada hacia la capa de salida. Fue desarrollado por F. Rosen- 46 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS blatt (1958), basándose en los modelos de neuronas biológicas de McCulloch y Pitts (1942). La arquitectura de una red Perceptrón simple se muestra en la figura 2.13. Un conjunto de k variables input xi binarias, generan una variable output también binaria y, a través de la expresión y = f(φ(x, w)), donde φ(x,w) = kP j=1 wjxj, y f es una función escalón en el valor w0, es decir, f(u) = ½ 0 si u < w0 1 si u ≥ w0 . Formalmente, y = ½ 1 si Pk i=1wixi − w0 ≥ 0 0 si resto . En general, a la función f se le denomina función de activación. Existen generalizaciones de esta red, utilizando otras funciones f y con variables input no necesariamente binarias. Algunos ejemplos son los siguientes: 1. f(u) = ½ −1 si u < 0 1 si u ≥ 0 2. f(u) = (signo(u) + 1)/2, que produce una respuesta binaria 0/1. 3. f(u) = 1 1+exp(−u) . 4. f(u) =tgh(u) = e2u − 1 e2u + 1 , de forma sigmoidal y que toma valores entre -1 y 1. 5. f(u) = u. En un principio las funciones de activación más utilizadas fueron las funciones escalón en un valor o umbral, pero después se extendieron a las funciones sigmoidales 47 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS (como la logística o la tangente hiperbólica) que fueron tomando mayor interés para resolver problemas de predicción. Se puede generalizar la red Perceptrón simple al caso en el que la variable res- puesta sea un vector multivariante n-dimensional. Basta tratar cada una de sus coordenadas como un output unidimensional, con ponderaciones distintas de las variables input. Así el modelo sería, para todo j = 1, . . . , n, yj = ½ 1 si Pk i=1wjixi − wj0 ≥ 0 0 si resto , y el esquema de la red neuronal correspondiente puede verse en la figura 2.14. Figura 2.14 Red simple preceptron, con output multidimensional Red Perceptrón multicapa Los modelos de Perceptrón multicapa, además de tener las capas de entrada y de salida, constan de al menos una capa de nodos ocultos. Se caracterizan por que el nodo de una capa, alimenta todos los nodos de la capa siguiente, de manera que sólo puede conectarse con nodos de otras capas y, por tanto, no se permite conexiones entre nodos de la misma capa. A las redes con este tipo de conexión entre sus nodos se les denomina redes feed-forward. 48 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS En la figura 2.15 se observa un esquema de este tipo de redes con una sola capa de M nodos ocultos. El número de nodos de una capa oculta suele ser desconocido y es, por tanto, un parámetro más a estimar. Figura 2.15 Red neuronal Feed-forward con una capa de nodos ocultos En general, el modelo de red Perceptrón con una capa de nodos ocultos y un output n-dimensional, se puede expresar como, yj = f2(φ2(w2j,v)), j = 1, . . . , n dondeW2 = (w2j)j=1,...,n, v = (vr)r=1,...,M siendo vr = f1(φ1(x,w1r)), dondeW1 = (w1r)r=1,...,M y f1 y f2 son las funciones de activación. Entonces, la expresión de y como una función no lineal de x equivale a una función de regresión no lineal, con parámetrosW1 yW2. Existen varios casos de este tipo de redes, dependiendo de las funciones de acti- vación y de las funciones φi i = 1, 2 que se definan. 49 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Un ejemplo importante de redes feed-forward es aquella que tiene una capa de nodos ocultos y f1 es la función de activación logística, es decir, f1(u) = 1 1 + exp(−u) , de modo que, yj = βj0 + MX r=1 βjr 1 1 + exp{−γr0 − kP h=1 γrhxh} , j = 1, . . . , n. (2.3) donde φ1(x,w1r) = kP h=0 γrhxh, con r = 1, . . . ,M, w1r = (γrh)h=0,...,k y x0 = 1, vr = f1(φ1(x,w1r)) = 1 1 + exp{− kP h=0 γrhxh} , φ2(w2j,v) = MP r=0 βjrvr, con v0 = 1 y w2j = (βjr)r=0,...,M y f2(u) = u. Por otro lado, Cybenko (1989) demostró que las redes neuronales de este tipo pueden aproximar uniformemente cualquier función continua utilizando un número dado M de nodos ocultos. Este resultado hace que los modelos de redes neuronales sean un buen método para resolver problemas de regresión no parámetricos. Por último, en ocasiones, se consideran conexiones adicionales entre nodos conectan- do capas no contiguas. Por ejemplo, en el modelo (2.3), se pueden considerar también como inputs, tanto la combinación lineal de las funciones logísticas (nodos ocultos) como una combinación lineal de los nodos input, es decir, yij = βj0 + λTx+ MX k=1 βjk 1 1 + exp{−γk0 − rP h=1 γkhxih} . 50 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS Estos modelos de redes neuronales con una capa de redes ocultas van a servir de base para construir los modelos de regresión no lineales que se utilizarán en el capítulo 4. 2.6. Escalamiento multidimensional: análisis IND- SCAL Los resultados desarrollados en esta tesis se aplican a conjuntos de puntos re- presentados en R2. En concreto, se representan conjuntos de genes en situaciones diferentes con el fin de proceder al estudio de su emparejamiento y su solapamiento. Con el objetivo de conseguir la representación de los genes en el espacio R2, se parte de sus expresiones y se calculan las distancias euclídeas entre ellos, definiendo una matriz de distancias. La técnica INDSCAL permite la representación de estos genes proyectándolos, normalmente, en un espacio de dos dimensiones. El origen del escalamiento multidimensional tuvo lugar en el área de la Psicología, pero actualmente se está extendiendo a otros campos de aplicación. En términos ge- nerales, el escalamiento multidimensional es una técnica estadística multivariante que, tomando como datos una matriz de proximidad o similitud entre objetos, pro- porciona una proyección de éstos en un espacio de dimensión r (generalmente dos o tres), donde las distancias entre ellos se relaciona mediante una función lineal con las similitudes (escalamiento métrico). Cuando existen varias matrices de similitud entre objetos (por ejemplo, dadas por distintos individuos), es interesante poder ponderar de diferente manera las dimensiones de la representación de los objetos, dependiendo del individuo. Esto es lo que consigue el análisis INDSCAL, tomando como entrada varias matrices de proximidad, una para cada uno de los individuos. El modelo supone que hay un conjunto de r dimensiones comunes a todos los objetos, pero que las distancias entre ellos en este espacio cambian de un individuo a otro, de acuerdo a la importancia o peso que cada uno dé a cada dimensión. Así, denotando como s(i)jk la similitud entre 51 CAPÍTULO 2. DEFINICIONES Y CONCEPTOS PREVIOS el objeto j y el k dada por el individuo i, el modelo asume que s (i) jk = L(d (i) jk ), donde L es una función lineal (con pendiente negativa) y d(i)jk es la distancia euclídea entre los objetos ponderada por distintos pesos, es decir, d (i) jk = s rP t=1 wit(xjt − xkt)2, donde xjt es la coordenada del j-ésimo objeto en la dimensión t. Se puede observar que d(i)jk puede interpretarse como la distancia euclídea ordinaria entre los puntos y (i) jt = √ witxjt, es decir, la configuración es contraída o expandida dependiendo de los valores de las raíces cuadradas de los pesos. El resultado del análisis proporciona, por una parte, las coordenadas de todos los objetos sin diferenciar por individuo en el denominado espacio global de objetos o espacio de estímulos, (frecuentemente de dimensión r = 2) y, por otra, los pesos o ponderaciones que cada individuo asigna a cada dimensión. Las raíces cuadradas de las ponderaciones de cada individuo, se representan como vectores en un espacio de dimensión dos denominado espacio de sujetos. Cuanto menor sea el ángulo entre el vector de un individuo y una dimensión dada, mayor es la ponderación o la importancia que está dando a esa dimensión. Por otra parte el ángulo formado entre los vectores de dos individuos, indicará el grado de similitud entre ambos. Multiplicando las coordenadas de cada objeto en el espacio global de objetos por las raíces cuadradas de sus ponderaciones se consigue la representación de los objetos por cada sujeto o individuo en el mismo espacio r−dimensional. (véase por ejemplo Borg y Groenen, 1997). 52 Capítulo 3 Emparejamiento de más de dos configuraciones no etiquetadas mediante transformaciones lineales 3.1. Introducción En este capítulo se estudiará el problema general del emparejamiento de M > 2 configuraciones de puntos, como generalización del modelo Green y Mardia (2006), y se irán desarrollando diferentes situaciones dependiendo del tipo de transformaciones que puedan existir entre las configuraciones consideradas. En primer lugar se realizará una exposición del problema a resolver y se presen- tará el desarrollo del modelo matemático en su versión más general, que incluirá la definición del Proceso de Poisson que da lugar a la configuración de referencia, y las matrices de afinidad y de emparejamientos de distintos órdenes. A continuación, se presentarán distintos modelos variando el tipo de transformaciones, empezan- do por las transformaciones lineales generales que modelizan deformaciones entre configuraciones, para pasar a tratar el modelo con transformaciones de similitud (rotaciones, traslaciones y escalamientos) más utilizadas en el análisis Procrustes (Dryden y Mardia, 1998) al mantener constantes los cocientes entre distancias entre 53 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES puntos y, por lo tanto, mantener la forma de las configuraciones. Al final del capítulo se presentan aplicaciones de estas situaciones, inicialmente con datos simulados para comprobar la validez de los resultados teóricos, y pos- teriormente, y como aplicación real en Bioinformática, con datos provenientes de experimentos con microarrays. 3.2. Modelización del problema Partimos deM configuraciones conM > 2 situadas en el espacio Rd donde d = 2. Cada una de ellas está formada por ni puntos (i = 1, . . .M), de modo que, xi = {xij, j = 1, . . . , ni} xij ∈ Rd i = 1, . . . ,M. El problema es determinar de qué manera están emparejadas estas configuraciones, es decir, qué puntos de cada configuración están emparejados con otros puntos de otras configuraciones teniendo en cuenta que existen transformaciones geométricas entre los sistemas de referencia donde están representados o, equivalentemente, entre las configuraciones. Al tratarse de más de dos configuraciones, los emparejamientos pueden ser de distintos órdenes. Si fueran sólo dos, las posibilidades de emparejamiento serían simples: cada punto de una configuración, i) o está emparejado con un punto de la otra configuración ii) o no está emparejado con ninguno. Si fueran tres configuraciones, las posibilidades de emparejamiento se amplían: cada punto de una configuración, i) o no está emparejado con ningún punto de ninguna de las otras dos configuracio- nes 54 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES ii) o tiene emparejamiento con un punto de una de las dos configuraciones iii) o está emparejado con dos puntos, uno de cada una de las otras dos configura- ciones. Por tanto, pueden presentarse emparejamientos dobles o emparejamientos triples. Así, la situación se generaliza pudiéndose presentar, emparejamientos dobles, triples, cuádruples,..., hasta emparejamientos de orden M . Suponemos que estas configuraciones son perturbaciones aleatorias de un con- junto de puntos fijos y desconocidos {μl} ∈ Rd, (la configuración de referencia), y que cada μl sólo puede generar a lo sumo un punto de una misma configuración pero más de un punto de distintas configuraciones. Se desconoce, qué puntos de cada configuración se corresponden con cada uno de estos μl, pero aquellos puntos de configuraciones distintas que son perturbaciones aleatorias de un mismo punto μl estarán emparejados. La correspondencia entre puntos μl y puntos de las configuraciones podría re- presentarse a través de una función entre ellos, de manera que a cada xij, le corres- pondería el μl que lo genera, verificando que si j 6= j0 el punto μl que genera a xij es distinto al que genera xij0. Otra opción es definir estas correspondencias entre los subíndices de {μl} y los de los datos {xij} i = 1, . . . ,M , j = 1 . . . , ni indicando qué punto μl está asociado con qué puntos de los xi a través de la matriz de índices © ξij ª i = 1, . . . ,M , j = 1, . . . , ni. Así ξij representa el subíndice de μl que genera el punto j de la configuración i, es decir, el punto xij viene generado a partir de μξij . Además, existen unas transformaciones geométricas desconocidas entre los sis- temas de referencia donde se representan las M configuraciones, que también for- marán parte del modelo. Sin pérdida de generalidad, consideramos la configuración x1 en el sistema de 55 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES coordenadas de referencia donde se encuentra {μl}. Así, consideramos que los puntos de x1 se generan a partir de los {μl} más un error aleatorio y la transformación geométrica entre el sistema de coordenadas de x1 y el de la configuración xi la denotaremos por φi−1 i = 2, . . . ,M. Bajo estas hipótesis, el modelo matemático que refleja esta situación va a venir dado por, x1j = μξ1j + ε1j j = 1, . . . , n1 φ1(x2j) = μξ2j + ε2j j = 1, . . . , n2 ... ... φr−1(xrj) = μξrj + εrj j = 1, . . . , nr ... ... φM−1(xMj) = μξMj + εMj j = 1, . . . , nM (3.1) donde para todo i = 1, . . . ,M y para todo j = 1, . . . , ni, εij tiene como función de densidad fi. Además, se supone que cada μl genera a lo sumo, un punto de cada configuración, es decir, cada punto de una configuración tiene a lo sumo un emparejamiento, por lo que, fijado i = 1, ..,M , ξi1 6= ξi2 6= . . . 6= ξini. Por último, todos los {εij} son independientes entre sí e independientes de los {μl} . Una vez planteado el modelo matemático que representa la situación a estudiar, vamos a ir definiendo distintos elementos del mismo, comenzando por el Proceso de Poisson que da lugar a los puntos fijos {μl} de la configuración de referencia. 3.3. El Proceso de Poisson espacial de la configu- ración de referencia Supongamos que el conjunto de puntos fijos {μl} forman un proceso de Poisson homogéneo de tasa λ sobre una región V ⊂ Rd de volumen v, y que partimos de N observaciones de este proceso en dicha región. Suponemos además que cada uno de estos μl puede generar de forma independiente, ningún punto de ninguna confi- guración, un único punto de una configuración, dos puntos de dos configuraciones 56 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES distintas (es decir, un emparejamiento doble), tres puntos de tres configuraciones distintas, es decir, un emparejamiento triple, y así hasta M puntos, uno de cada configuración. Así, los {μl} quedan clasificados en M +1 clases distintas e indepen- dientes, que denotaremos por C0, C1,. . . , CM−1, yCM , respectivamente, dependiendo del tipo de emparejamiento que generan. Para calcular la probabilidad de pertenecer a una clase o a otra, consideramos unas tasas de emparejamientos a priori ρs, s = 1, . . . ,M , entendidas como medidas de las tendencias a generar emparejamientos de distintos órdenes. Estas son inde- pendientes de cuáles sean las configuraciones involucradas en los emparejamientos, aunque pueden ser distintas dependiendo del orden del emparejamiento. Por ejem- plo, se podría pensar que las tasas de emparejamientos de órdenes superiores son menores que las de emparejamientos de órdenes inferiores. Todo esto queda resumido en las siguientes suposiciones sobre los puntos del proceso de Poisson espacial: 1. Cada μl tiene la misma probabilidad p de generar un punto de una configura- ción xi o xj. 2. Las tasas de emparejamientos a priori son distintas dependiendo del orden de emparejamiento. 3. La tasa de emparejamiento de cierto orden a priori es independiente de cuáles sean las configuraciones a las que pertenezcan los puntos emparejados. Bajo estas hipótesis, un punto μl pertenecerá a la clase Ci, i = 1, . . . ,M con probabilidad ρip i y a la clase C0 con probabilidad 1− PM j=1 ρjp j con ρ1 = 1. Una vez definido el Proceso de Poisson que genera la configuración de referen- cia, vamos a definir las matrices de afinidad y de emparejamiento que permitirán identificar los emparejamientos entre configuraciones. 57 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES 3.4. Matrices de afinidad M y matrices de em- parejamiento S Con el objetivo de identificar cuáles son los puntos que están emparejados defi- nimos, en primer lugar, las matrices de afinidad con las que se recogerá el número de veces que cada configuración está emparejada con las otras configuraciones y, en segundo lugar, las matrices de emparejamiento con las que, una vez conocidas qué configuraciones son las que tienen al menos un punto emparejado, se identificarán cuáles son estos puntos. La definición de los emparejamientos a través de estos dos tipos de matrices, permite modelizar situaciones donde se tiene la información parcial de cuántos em- parejamientos hay entre configuraciones, lo que redundaría en un conocimiento de las matrices de afinidad, pero se desconoce cuáles son exactamente los puntos in- volucrados en los emparejamientos. 3.4.1. Matriz de afinidad y matriz de emparejamientos de orden 2 Definición 25 Se define la matriz de afinidad de orden 2, M (2) de dimensión M × M , como aquella matriz cuyos elementos son: {M (2) i1i2 } = número de emparejamientos dobles que hay entre las configuraciones xi1 y xi2 . Esta matriz será simétrica con ceros en la diagonal. Además, si denotamos con Li, i = 2, . . .M , el número total de emparejamientos de orden i que hay entre todas las configuraciones, MX i1=1 MX i2>i1 M (2) i1i2 = L2. Una vez que la matriz de afinidad de orden 2 identifica qué configuraciones tienen algún emparejamiento doble y cuántos son, es necesario identificar los puntos que 58 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES están emparejados. Definición 26 Para todo i1< i2, (i1, i2 ∈ {1, . . . ,M}), tales que M (2) i1i2 6= 0, se define la matriz de emparejamientos de orden 2 de las configuraciones xi1 y xi2 y se denota por S(i1,i2), como aquella matriz de dimensiones ni1 × ni2, cuyos elementos son: S (i1,i2) j1j2 = ⎧⎨⎩ 1 si ξi1j1 = ξi2j2 0 resto . Por tanto, los superíndices van a identificar las configuraciones que son afines (por existir emparejamientos entre ellas), y los subíndices los puntos de esas confi- guraciones que están emparejados. Así, el número total de emparejamientos dobles entre las configuraciones afines xi1 y xi2 se podrá expresar como: M (2) i1i2 = n1X j1=1 n2X j2=1 S (i1,i2) j1j2 . 3.4.2. Matriz de afinidad y matriz de emparejamientos de orden 3 Definición 27 Se define la matriz de afinidad de orden 3,M(3), de dimensión M× M ×M , como aquella array cuyos elementos son: {M (3) i1i2i3 } = número de emparejamientos triples que hay entre las configuraciones xi1 , xi2 y xi3 . Esta matriz será una matriz tridimensional con ceros en todas las coordenadas tales que x = y, x = z ó y = z. Además, MX i1=1 MX i2>i1 MX i3>i2 M (3) i1i2i3 = L3. 59 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Una vez que la matriz de afinidad de orden tres identifica qué configuraciones tienen algún emparejamiento triple, definimos la matriz de emparejamientos de or- den 3. Definición 28 Para todo i1 < i2 < i3, (i1, i2, i3 ∈ {1, . . . ,M}) tales queM (3) i1i2i3 6= 0, se define la matriz de emparejamientos de orden 3 de las configuraciones xi1, xi2 y xi3 y se denota por S (i1,i2,i3), como aquel array de dimensiones ni1 × ni2 × ni3 cuyos elementos son: S (i1,i2,i3) j1j2j3 = ⎧⎨⎩ 1 si ξi1j1 = ξi2j2 = ξi3j3 0 resto . Así, el número total de emparejamientos triples entre las configuraciones xi1 , xi2 y xi3 se podrá expresar como: M (3) i1i2i3 = n1X j1=1 n2X j2=1 n3X j3=1 S (i1,i2,i3) j1j2j3 . 3.4.3. Matriz de afinidad y matriz de emparejamientos de orden k Definición 29 En general, se define la matriz de afinidad de orden k, M(k), de dimensión M × (k veces). . . ×M , como aquella array cuyos elementos son: {M (k) i1...ik } = número de emparejamientos de orden k que hay entre las configuraciones xi1, xi2, . . . ,xik . Esta matriz será una matriz k-dimensional con ceros en todas las coordenadas tales que xir = xis. Además, MX i1=1 MX i2>i1 . . . MX ik>ik−1 M (k) i1...ik = Lk. 60 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Definición 30 Para todo i1 < i2 < . . . < ik−1 < ik (i1,. . . , ik ∈ {1, . . . ,M}) tales que M (k) i1...ik 6= 0, se define la matriz de emparejamientos de orden k de las confi- guraciones xi1 , . . . , xik y se denota por S (i1,...,ik), como aquel array de dimensiones ni1 × . . .× nik cuyos elementos son: S (i1,...,ik) j1...jk = ⎧⎨⎩ 1 si ξi1j1 = ξi2j2 = . . . = ξikjk 0 resto . Así, el número total de emparejamientos de orden k entre los k configuraciones se podrá expresar como: M (k) i1...ik = n1X j1=1 . . . nkX jk=1 S (i1,...,ik) j1...jk . Se puede observar que en el caso de k =M , M (M) 1...M = LM . Ejemplo 31 Supongamos M = 4 configuraciones, cada una de ellas con ni = 5 puntos. Supongamos que L2 = 3 y L3 = 2. Esto indica que hay tres emparejamientos dobles, dos triples y, por tanto, un total de ocho puntos que no están emparejados. Supongamos que, los emparejamientos dobles son (x11, x21), (x24, x32) y (x23, x31), y que los emparejamientos triples son (x12, x22, x41) y (x14, x33, x44). Entonces la matriz de afinidad de orden 2 será: M(2) = x1 x2 x3 x4 x1 x2 x3 x4 0 1 0 0 1 0 2 0 0 2 0 0 0 0 0 0 , es decir, hay un emparejamiento doble entre las configuraciones x1 y x2 y dos entre las configuraciones x2 y x3. 61 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Las matrices de emparejamientos dobles serán, S(1,2) = ⎛⎜⎜⎜⎜⎝ 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ⎞⎟⎟⎟⎟⎠ ,S(2,3) = ⎛⎜⎜⎜⎜⎝ 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 ⎞⎟⎟⎟⎟⎠ es decir, están emparejados los puntos 1 y 1 de las configuraciones x1 y x2, y los puntos 3 y 1 y los puntos 4 y 2 de las configuraciones x2 y x3. Sobre los emparejamientos de tercer orden, al tratarse M(3) de una matriz en tres dimensiones, para cada i = 1, .., 4, calculamos las 4 matrices de dimensión dos (M (3) i )i=1,..,4, donde (M (3) i ) recogerá los emparejamientos de orden 3 en los que está involucrada la configuración xi con el resto de las configuraciones (corresponderían a las 4 "slices", fijada la primera coordenada de la matriz tridimensional). Así, M (3) 1 = x1 x2 x3 x4 x1 x2 x3 x4 0 0 0 0 0 0 0 1 0 0 0 1 0 1 1 0 ,M (3) 2 = x1 x2 x3 x4 x1 x2 x3 x4 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 M (3) 3 = x1 x2 x3 x4 x1 x2 x3 x4 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 ,M (3) 4 = x1 x2 x3 x4 x1 x2 x3 x4 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0 es decir, hay un emparejamiento triple entre las configuraciones x1,x2 y x4 y otro emparejamiento triple entre las configuraciones x1, x3 y x4. Para calcular las matrices de emparejamientos S(1,2,4) y S(1,3,4), que vuelven a ser matrices tridimensionales, procedemos de la misma manera (en este caso, sólo se muestran aquellas matrices con algún elemento distinto de cero). 62 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES S (1,2,4) 2 = ⎛⎜⎜⎜⎜⎝ 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ⎞⎟⎟⎟⎟⎠ , S (1,3,4) 4 = ⎛⎜⎜⎜⎜⎝ 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 ⎞⎟⎟⎟⎟⎠ . Por tanto, hemos definido unos nuevos parámetros, las matrices de afinidad y de emparejamientos, con los que se describen los emparejamientos existentes. Además, las funciones φi de (3.1) representan las transformaciones geométricas que relacionan a las M configuraciones. Todos estos parámetros, junto con los que están involucra- dos en las distribuciones fi de los εij de (3.1), forman el total de parámetros de nuestro modelo. 3.4.4. Distribuciones a priori de las matrices de afinidad y de emparejamientos Distribución a priori de las matrices de afinidad Vamos a definir la distribución a priori de las matrices de afinidad a partir de su distribución condicionada por el número de emparejamientos que hay de cada orden. Supongamos que la distribución de la matriz de afinidad de orden k, sabiendo que hay Lk emparejamientos de orden k, es la distribución uniforme. Esto equivale a suponer que conocidos cuántos emparejamientos de orden k hay, todas las posibles combinaciones de Lk emparejamientos de orden k son igual de probables. Por ejemplo, si hay L2 = 4 emparejamientos dobles entre un grupo de M = 3 configuraciones, hay 15 maneras posibles de presentarse estos emparejamientos, todas ellas con la misma probabilidad: 63 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Distribución de los L2 = 4 emparejamientos x1,x2 4 3 3 2 2 2 1 1 1 1 0 0 0 0 0 x1,x3 0 1 0 1 2 0 3 0 1 2 4 0 3 1 2 x2,x3 0 0 1 1 0 2 0 3 2 1 0 4 1 3 2 Por lo tanto, en general hay que calcular cuántas matrices de afinidad de orden k puede haber, sabiendo que hay Lk emparejamientos de orden k. Suponiendo ni suficientemente grande, esto equivale a distribuir Lk empare- jamientos en ¡ M k ¢ posiciones (las posiciones representan todos los posibles empare- jamientos de orden k que puede haber con las M configuraciones). Así, el número de matrices de afinidad de orden k que puede haber se calcula como combinaciones con repetición de ¡ M k ¢ configuraciones tomados de Lk en Lk. En el ejemplo ¡ M k ¢ = ¡ 3 2 ¢ = 3, y el número de combinaciones con repetición de M = 3 configuraciones tomados de L2 = 4 en 4, es ¡(Mk )+Lk−1 Lk ¢ = ¡ 3+4−1 4 ¢ = ¡ 6 4 ¢ = 15). Por tanto, p(M(k) | Lk) = 1¡(Mk )+Lk−1 Lk ¢ . Así, asumiendo independencia para configuraciones con una cantidad de puntos suficientemente grande, la distribución conjunta de todas ellas condicionada por los números de emparejamientos, será de la forma: p(M(2),M(3), . . . ,M(M) | L2, L3, . . . , LM) = MY k=1 1¡(Mk )+Lk−1 Lk ¢ . (3.2) Para obtener la distribución a priori de estas matrices de afinidad, bastará mul- tiplicar (3.2) por la distribución conjunta a priori del número de emparejamientos. Supongamos que N, n1, . . . , nM son conocidos y sea n = PM i=1 ni. Entonces se observarán L2 emparejamientos dobles, L3 emparejamientos triples,. . . , LM−1 emparejamientos de M − 1 configuraciones y LM emparejamientos de las M con- figuraciones, siempre y cuando el número de μl de cada clase Ck (k = 0, . . . ,M), 64 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES definidas en (3.3) sean, respectivamente N − n + L2 + 2L3 + . . . + (M − 1)LM , n− 2L2 − 3L3 − . . .−MLM , L2, . . . , LM . Bajo las suposiciones presentadas en (3.3), lasM+1 variables aleatorias definidas como número de puntos fijos μl de la clase Ck observados en el volumen v (k = 0, . . . ,M) son independientes y con distribución de Poisson con tasas λv(1− PM j=1 ρjp j), λvp, λvρ2p 2, . . . , λvρMpM , respectivamente. Clase de μl Frecuencia Tasa C0 N − n+ L2 + 2L3 + . . .+ (M − 1)LM λv(1− PM j=1 ρjp j) C1 n− 2L2 − 3L3 − . . .MLM λvp C2 L2 λvρ2p 2 . . . . . . . . . CM−1 LM−1 λvρM−1p M−1 CM LM λvρMpM Así, la distribución a priori conjunta de L2, L3, . . . , LM condicionada por n1, . . . , nM será: p(L2, L3, . . . , LM) ∝ e−λvp(λvp)n− M i=2 iLi (n− PM i=2 iLi)! ¦ e −λvρ2p2(λvρ2p 2)L2 L2! ¦ . . . ¦ e−λvρMpM (λvρMpM)LM LM ! = = e−λv( M i=1 ρip i)(λv)n− M i=2(i−1)LipnρL22 ρL33 . . . ρLMM (n− PM i=2 iLi)!L2!L3! . . . LM ! , por lo que, considerando constante todo lo que no depende de L2, L3, . . . , LM , se tiene que: p(L2, L3, . . . , LM) ∝ ( ρ2 λv )L2 . . . (ρM λv )LM (λv)L3+2L4+...+(M−2)LM (n− PM i=2 iLi)!L2!L3! . . . LM ! , (3.3) donde PM i=2 iLi ≤ n. Por lo tanto, multiplicando (3.2) y (3.3) se tiene que, p(M(2),M(3), . . . ,M(M)) ∝ p(M(2),M(3), . . . ,M(M) | L2, L3, . . . , LM)p(L2, L3, . . . , LM) ∝ MY k=1 1¡(Mk )+Lk−1 Lk ¢ ( ρ2 λv )L2 . . . (ρM λv )LM (λv) M k=3(k−2)Lk(n− PM i=2 iLi)!L2!L3! . . . LM ! . 65 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Operando y considerando constante todo aquello que no dependa de M(i), la distribución a priori conjunta de las matrices de afinidad tiene como expresión: p(M(2),M(3), . . . ,M(M)) ∝ ( ρ2 λv )L2 . . . (ρM λv )LM (λv) M k=3(k−2)Lk(n− PM i=2 iLi)! QM k=2[ ¡ M k ¢ + Lk − 1]! . (3.4) Distribución a priori de las matrices de emparejamiento Consideramos ahora la distribución a priori de las matrices de emparejamiento. Supongamos, por ejemplo, conocida la matriz de afinidad de orden dosM(2). Como por hipótesis todos los emparejamientos de orden 2 son igualmente probables (es decir, no dependen de las configuraciones que se emparejen) podemos asumir una distribución uniforme sobre todas las matrices de emparejamientos de orden 2. Así, debemos calcular, para cada pareja (i1, i2) tales queM (2) i1,i2 6= 0, el número de matrices de emparejamientos S(i1,i2) que se pueden construir. Conocido M(2) i1,i2 6= 0 primero seleccionamos los puntos de la configuración xi1 que van a estar emparejados con los de la configuración xi2 (en total, ¡ ni1 M (2) i1,i2 ¢ ). A continuación hacemos lo mismo con los puntos de la configuración xi2 (en total,¡ ni2 M (2) i1,i2 ¢ ), y después, fijando los puntos de una de las configuraciones y permutando los puntos de la otra configuración se generan todos los posibles emparejamientos, (en totalM(2) i1,i2 !). Por tanto, para cada pareja (i1, i2) tales que M (2) i1,i2 6= 0, la distribución de la matriz de emparejamientos S(i1,i2), dada la matriz de afinidad de orden 2 será: p(S(i1,i2)|M(2)) = 1∙¡ ni1 M (2) i1,i2 ¢¡ ni2 M (2) i1,i2 ¢ M (2) i1,i2 ! ¸ . Asumiendo independencia, la distribución conjunta de todas las matrices de em- 66 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES parejamientos de orden dos, dada la matriz de afinidad de orden dos, será: p(S(1,2), ...,S(M−1,M)|M(2)) = 1Q {(i1,i2)|M(2) i1,i2 6=0} ¡ ni1 M (2) i1,i2 ¢¡ ni2 M (2) i1,i2 ¢ M (2) i1,i2 ! . Razonando de la misma forma, se puede obtener la distribución conjunta de todas las matrices de emparejamientos de orden 3, dada la matriz de afinidad de orden 3. Para cada terna (i1, i2, i3) tales que M (3) i1,i2,i3 6= 0, seleccionamos los puntos de la configuración xi1 que van a estar emparejados (en total, ¡ ni1 M (3) i1,i2,i3 ¢ ). Después hacemos lo mismo con los puntos de la configuración xi2 (en total, ¡ ni2 M (3) i1,i2,i3 ¢ ) y con los de la tercera configuración xi3 (en total, ¡ ni3 M (3) i1,i2i3 ¢ ) y por último permutamos los puntos de dos configuraciones para generar todos los posibles emparejamientos ( ³ M (3) i1,i2,i3 ! ´2 ). Por tanto, de forma análoga al caso anterior, la distribución conjunta de las matrices de emparejamientos de orden tres, dada la matriz de afinidad de orden tres será: p(S(1,2,3), ...,S(M−2,M−1,M)|M(3)) = 1Q {(i1,i2,i3)|M(3) i1,i2,i3 6=0} ¡ ni1 M (3) i1,i2,i3 ¢¡ ni2 M (3) i1,i2,i3 ¢¡ ni3 M (3) i1,i2,i3 ¢ ³ M (3) i1,i2,i3 ! ´2 . En general, para todo k = 2, . . .M, la distribución conjunta de las matrices de emparejamientos de orden k, dada la matriz de afinidad de orden k, será: p(S(1,...,k), ...,S(M−(k−1),...,M)|M(k)) = 1Q {(i1,...,ik)| M (k) i1,...,ik 6=0} ¡ ni1 M (k) i1,...,ik ¢ . . . ¡ nik M (k) i1,...,ik ¢ ³ M (k) i1,...,ik ! ´k−1 . (3.5) Por tanto, el producto de todas ellas, dará lugar a la distribución a priori conjunta de todas las matrices de emparejamientos, dadas las matrices de afinidad. A continuación vamos a estudiar distintas situaciones, dependiendo de la trans- formación existente entre los sistemas de coordenadas donde se representan las con- 67 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES figuraciones. Partiremos del caso más general, donde se supone que las transforma- ciones entre configuraciones son transformaciones lineales generales, para pasar al caso de transformaciones de similitud (rotaciones, traslaciones y escalamientos). 3.5. Modelización con transformaciones lineales generales Una transformación lineal general aplicada a una configuración da lugar a una deformación de la misma, ya que en general no mantiene constantes los cocientes de las distancias entre los puntos de la configuración, lo que implica un cambio en su forma (véase ejemplo 22). No obstante, los resultados que se van a obtener en esta sección, servirán de base para presentar los casos donde se suponen transformaciones de similitud (rotaciones, traslaciones y escalamientos) y transformaciones rígidas, que son ampliamente extendidas y utilizadas tanto en el análisis de formas como en análisis Procrustes. El modelo (3.1) tomando φi(xi+1j) = Aixi+1j quedaría de la forma: x1j = μξ1j + ε1j j = 1, . . . , n1 A1x2j = μξ2j + ε2j j = 1, . . . , n2 ... ... Ar−1xrj = μξrj + εrj j = 1, . . . , nr ... ... AM−1xMj = μξMj + εMj j = 1, . . . , nM (3.6) donde para todo i = 1, . . . ,M y j = 1, . . . , ni,.Ai−1 ∈ Rd×d es una matriz no singular, con A0 = Id, y {εij} son independientes con función de densidad fi A partir de (3.6), se observa que la función de densidad de xij, condicionada por Ai−1, ξij, y {μi} (para todo i = 1, . . . ,M y j = 1, . . . , ni) es f(xij) = fi(Ai−1xij − μξij) |Ai−1| , (3.7) donde |A| denota el valor absoluto del determinante de A. 68 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES 3.5.1. Construcción de la verosimilitud de los datos Para construir la verosimilitud de los datos, conocidas las matrices de afinidad y de emparejamientos, deberemos diferenciar y agrupar los puntos de las configura- ciones según estén o no emparejados, y según el grado de emparejamiento. A partir de (3.7), se construye la verosimilitud de todos los puntos de las configu- raciones, diferenciando si los puntos están o no emparejados y, en el caso de estarlo, con qué orden de emparejamiento. Así, cada punto de una configuración puede no estar emparejado, formar parte de un emparejamiento doble, de uno triple,... De esta manera se calcula la aportación de cada subgrupo de puntos a la verosimilitud total. Aportación a la verosimilitud de los puntos no emparejados A partir de las propiedades del proceso de Poisson espacial, los {μl} que generan los puntos que no están emparejados, (aquéllos que forman parte de la clase C1), se distribuyen uniformemente sobre la región V (proposición 2). De (3.7) se tiene que para todo i = 1, . . . ,M y para todo j = 1, . . . , ni, f(xij|μ) = fi(Ai−1xij − μ) |Ai−1| . Así, f(xij) = Z V f(xij/μ)f(μ)dμ = = |Ai−1| Z V fi(Ai−1xij − μ) 1 v dμ = |Ai−1| 1 v Z V fi(Ai−1xij − μ)dμ. Si denotamos como E0 i al conjunto de puntos de la configuración xi que no están emparejados, la aportación conjunta a la verosimilitud de todos los puntos no 69 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES emparejados será: MQ i=1 Q {j,xij∈E0i } f(xij) = MQ i=1 Q {j,xij∈E0i } 1 v |Ai−1| Z V fi(Ai−1xij − μ)dμ = µ 1 v ¶n− M i=2 iLi MQ i=1 Q {j,xij∈E0i } |Ai−1| Z V fi(Ai−1xij − μ)dμ. (3.8) Aportación a la verosimilitud de los puntos con emparejamiento doble Los valores {μl} que generan los puntos que tienen un emparejamiento doble también se distribuyen uniformemente sobre la región V. Por otra parte, para todos los puntos xi1j1 y xi2j2 que están emparejados, es decir, para todo (i1, i2) tales que M (2) i1,i2 6= 0 y para todo (j1, j2) tales que S(i1,i2)j1j2 = 1, la función de densidad conjunta de ambos, por la independencia entre los puntos, será: f(xi1j1 , xi2j2) = Z V f(xi1j1 | μ)f(xi2j2 | μ)f(μ)dμ = = 1 v Z V fi1(Ai1−1xi1j1 − μ) |Ai1−1| fi2(Ai2−1xi2j2 − μ) |Ai2−1| dμ = 1 v |Ai1−1| |Ai2−1| Z V fi1(Ai1−1xi1j1 − μ)fi2(Ai2−1xi2j2 − μ)dμ. Por lo tanto, la aportación conjunta a la verosimilitud de todos los puntos con emparejamientos dobles será: Q {(i1,i2)|M(2) i1,i2 6=0} Q {(j1,j2)|S(i1,i2)j1j2 =1} f(xi1j1 , xi2j2) = µ 1 v ¶L2 Q {(i1,i2)| M (2) i1,i2 6=0} Q {(j1,j2)| S (i1,i2) j1j2 =1} |Ai1−1| |Ai2−1| · (3.9) · Z V fi1(Ai1−1xi1j1 − μ)fi2(Ai2−1xi2j2 − μ)dμ. 70 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Aportación a la verosimilitud de los puntos con emparejamiento de orden k En general, la aportación conjunta a la verosimilitud de todos los puntos con emparejamientos de orden k (k = 2, ...,M), es:µ 1 v ¶Lk Q {(i1,...,ik)| M (k) i1,...,ik 6=0} Q {(j1,...,jk)| S (i1,...,ik) j1...jk =1} |Ai1−1| . . . |Aik−1| · Z V fi1(Ai1−1xi1j1 − μ) . . . fik(Aik−1xikjk − μ)dμ. (3.10) En el caso k =M , esta expresión se reduce aµ 1 v |A1| . . . |AM−1| ¶LM Q {(j1,...,jk)| S (1,...,M) j1...jk =1} Z V f1(x1j1 − μ) . . . fM(AM−1xMjM − μ)dμ. Expresión aproximada de la verosimilitud de los datos Considerando la región V ⊂ Rd suficientemente grande con respecto al soporte de fi, podemos aproximar V por Rd, con lo que se consigue simplificar considera- blemente las expresiones (3.8), (3.9) y (3.10). Denotando por e(k)i al número de emparejamientos de orden k que tiene la confi- guración i, se tiene que la aportación a la verosimilitud de los puntos no emparejados (3.8), se puede aproximar por, µ 1 v ¶n− M i=2 iLi MQ i=1 Q {j,xij∈E0i } |Ai−1| Z Rd fi(Ai−1xij − μ)dμ = = µ 1 v ¶n− M i=2 iLi MQ i=1 |Ai−1| ni− M l=2 e (l) i , (3.11) ya que R Rd fi(Ai−1xij − μ)dμ = 1. El exponente de |Ai−1| representa el número de puntos de la configuración xi que no están emparejados. 71 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES De la misma manera, (3.9) puede aproximarse por,µ 1 v ¶L2 Q {(i1,i2)| M (2) i1,i2 6=0} (|Ai1−1| |Ai2−1|) M (2) i1,i2 · Q {(j1,j2)| S (i1,i2) j1j2 =1} Z Rd fi1(Ai1−1xi1j1 − μ)fi2(Ai2−1xi2j2 − μ)dμ. (3.12) Pero por (3.1) sabemos que εi1j1 y εi2j2 tienen como función de densidad fi1 y fi2 respectivamente (para todo j1 y j2), y que ambas distribuciones son independientes. Entonces, realizando un cambio de variable, la función de densidad de la variable Z = εi1j1 − εi2j2 viene dada por la expresión, gi1.i2(z) = Z Rd fi1(w)fi2(w − z)dw, (3.13) por lo que la aproximación de la aportación de los emparejamientos de orden dos a la verosimilitud (3.12) puede expresarse como,µ 1 v ¶L2 Q {(i1,i2)| M (2) i1,i2 6=0} (|Ai1−1| |Ai2−1|) M (2) i1,i2 Q {(j1,j2)| S (i1,i2) j1j2 =1} gi1.i2(Ai1−1xi1j1 −Ai2−1xi2j2). (3.14) Para las expresiones de las aportaciones aproximadas del resto de los emparejamien- tos, utilizamos el siguiente resultado, que viene a ser la generalización de (3.13). Proposición 4 Dadas las variables aleatorias independientes εi1j1, εi2j2,...,εikjk (k = 2, ...,M), con funciones de densidad fi1 , fi2 , ..., fik se tiene que la distribución con- junta de (Z2, . . . , Zk) = (εi1j1 − εi2j2, εi1j1 − εi3j3, . . . , εi1j1 − εikjk) es, gi1.i2,i3,...ik(z2, . . . , zk) = Z Rd fi1(w)fi2(w − z2)fi3(w − z3) . . . fik(w − zk)dw. (3.15) Demostración. Dado k = 2, . . .M, hacemos el cambio de variable w = εi1j1 z2 = εi1j1 − εi2j2 . . . zk = εi1j1 − εikjk ⇒ εi1j1 = w εi2j2 = w − z2 . . . εikjk = w − zk 72 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES por lo que el jacobiano |J | = 1. Así g(w, z2, . . . , zk) = f(w,w − z2, . . . , w − zk) = fi1(w) · fi2(w − z2) · . . . · fik(w − zk). Por lo tanto gi1.i2,i3,...ik(z2, . . . , zk) = Z Rd fi1(w)fi2(w − z2)fi3(w − z3) . . . fik(w − zk)dw, como se quería demostrar. Entonces, a partir de (3.10) y de (3.15), la aproximación de la aportación de la verosimilitud aportada por los puntos con emparejamientos de orden k = 2, . . . ,M , tendrá la expresión,µ 1 v ¶Lk Q {(i1,···ik)| M (k) i1...ik 6=0} (|Ai1−1| · · · |Aik−1|) M (k) i1...ik · Q {(j1...jk)| S (i1...ik) j1...jk =1} gi1.i2,...,ik(Ai1−1xi1j1 −Ai2−1xi2j2 , . . . , Ai1−1xi1j1 −Aik−1xikjk). (3.16) Se puede observar que (3.14) es el caso particular de (3.16) para k = 2. Por lo tanto, la aproximación de la verosimilitud de todos los puntos, se obtendrá a través del producto de (3.11) y de todas las expresiones (3.16) para los valores k = 2, ...,M . 3.5.2. Emparejamiento deM = 4 configuraciones con errores normales Como un caso particular de transformaciones lineales generales vamos a concretar estos resultados en el caso en el que los {εij} tienen distribución normal, tomando M = 4 configuraciones con el único objetivo de simplificar las expresiones. El modelo (3.6) en el caso de cuatro configuraciones quedaría reducido a, x1j = μξ1j + ε1j j = 1, . . . , n1 A1x2j = μξ2j + ε2j j = 1, . . . , n2 A2x3j = μξ3j + ε3j j = 1, . . . , n3 A3x4j = μξ4j + ε4j j = 1, . . . , n4 73 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES donde para todo i = 1, . . . , 4 y j = 1, . . . , ni, Ai−1 son matrices no singulares y los {εij} son independientes con distribución Nd(0, σ 2Id), con d = 2. En este caso, los parámetros del modelo son: a) Las matrices de afinidad de órdenes dos, tres y cuatro:M(2),M(3)yM(4). b) Las matrices de emparejamientos de órdenes dos, tres y cuatro: S(1,2), S(1,3), S(1,4), S(2,3), S(2,4), S(3,4), S(1,2,3), S(1,2,4), S(2,3,4) y S(1,2,3,4). c) Las matrices no singulares que definen las transformaciones lineales: A1, A2 y A3. d) La varianza de la distribución normal de los errores: σ2. La distribución conjunta de las matrices de afinidad particularizada en el caso de cuatro configuraciones, se puede deducir de (3.4), obteniendo la expresión, p(M(2),M(3),M(4)) ∝ ( ρ2 λv )L2( ρ3 λv )L3( ρ3 λv )L4 (λv)L3+2L4(n− 2L2 − 3L3 − 4L4)!(5 + L2)!(3 + L3)!L4! . (3.17) A partir de (3.5) se construye la expresión de la distribución conjunta de las matrices de emparejamientos de orden dos, dada la matriz de afinidad de orden 2, p(S(1,2),S(1,3),S(1,4),S(2,3),S(2,4),S(3,4) |M(2)) = 1Q {(i1,i2)|M(2) i1,i2 6=0} ¡ ni1 M (2) i1,i2 ¢¡ ni2 M (3) i1,i2 ¢ ³ M (2) i1,i2 ! ´ , (3.18) la distribución conjunta de las matrices de emparejamientos de orden tres, dada la matriz de afinidad de orden 3, p(S(1,2,3),S(1,2,4),S(2,3,4) |M(3)) = 1Q {(i1,i2,i3)|M(3) i1,i2,i3 6=0} ¡ ni1 M (3) i1,i2,i3 ¢¡ ni2 M (3) i1,i2,i3 ¢¡ ni3 M (3) i1,i2,i3 ¢ ³ M (3) i1,i2,i3 ! ´2 , (3.19) 74 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES y la distribución de la matriz de emparejamientos de orden cuatro, dada la matriz de afinidad de orden 4, o equivalentemente, dado L4, pues esta es la información recogida en la matrizM(4), p(S(1,2,3,4) |M(4)) = 1¡ n1 L4 ¢¡ n2 L4 ¢¡ n3 L4 ¢¡ n4 L4 ¢ (L4!) 3 . (3.20) Por lo tanto la distribución conjunta de todas las matrices de afinidad y de em- parejamientos, se construirá mediante el producto de (3.17), (3.18), (3.19) y (3.20). Verosimilitud de los datos en caso de normalidad Como caso particular de la aportación aproximada a la verosimilitud de los pun- tos no emparejados (3.11), para M = 4 se obtiene la expresión,µ 1 v ¶n−2L2−3L3−4L4 |A1| n2− M k=2 e (k) 2 |A2| n3− M k=2 e (k) 3 |A3| n4− M k=2 e (k) 4 , (3.21) donde MX k=2 e (k) 2 = M (2) 12 +M (2) 23 +M (2) 24 +M (3) 123 +M (3) 124 +M (3) 234 +M (4) 1234, MX k=2 e (k) 3 = M (2) 13 +M (2) 23 +M (2) 34 +M (3) 123 +M (3) 134 +M (3) 234 +M (4) 1234, MX k=2 e (k) 4 = M (2) 14 +M (2) 24 +M (2) 34 +M (3) 124 +M (3) 134 +M (3) 234 +M (4) 1234, representan el número de puntos emparejados en las configuraciones x2, x3 y x4, respectivamente. Para encontrar las expresiones de las aportaciones de los puntos con empare- jamientos dobles, emparejamientos triples y emparejamientos de orden cuatro, bajo hipótesis de normalidad y deducirlas de las expresiones (3.16), nos basamos en el siguiente resultado. Proposición 5 Sean Y1, Y2, Y3 y Y4 vectores aleatorios independientes con distribu- ción Nd(0, σ 2Id). Se tiene que: 75 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES (i) Para todo i, j ∈ {1, 2, 3, 4}, las diferencias Zij = Yi − Yj, tienen como función de densidad gi.j(z) = µ 1 σ √ 2 ¶d ϕd( z σ √ 2 ), donde ϕd(z) es la función de densidad de la distribución Nd(0, Id). (ii) Para todo j1, j2 ∈ {2, 3, 4} la distribución conjunta de Wj1j2 = (Z1j1 , Z1j2) = (Y1 − Yj1, Y1 − Yj2) tiene como función de densidad g1.j1,j2(zj1 , zj2) = µ 1 σ2 √ 3 ¶d ϕ2d( zj1 σ √ 2 , √ 6 3σ (zj2 − 1 2 zj1)), (3.22) donde ϕ2d(z, v) es la función de densidad de la distribución N2d(0, I2d). (iii) La distribución conjunta de W = (Z12, Z13, Z14) = (Y1 − Y2, Y1 − Y3, Y1 − Y4) tiene función de densidad g1.2,3,4(z2, z3, z4) = µ 1 2σ3 ¶d ϕ3d( z2 σ √ 2 , 1 σ √ 6 (−z2+2z3), 1 σ √ 12 (−z2−z3+3z4)), donde ϕ3d(z, v, w) es la función de densidad de la distribución N3d(0, I3d). Demostración. (i) Al ser independientes Yi y Yj para todo i, j ∈ {1, 2, 3, 4}, el vector aleatorio Zij = Yi − Yj ∼ Nd(0, 2σ 2Id). Entonces Zij se puede expresar como Zij = σ √ 2Y , donde Y ∼ Nd(0, Id) con función de densidad ϕd(y). Así, haciendo el cambio de variable, Y = Zij/σ √ 2, se tiene que el jacobiano |J | = ³ 1 σ √ 2 ´d por lo que para todo i, j ∈ {1, 2, 3, 4}, la función de densidad de Zij, será g(z) = µ 1 σ √ 2 ¶d ϕd( z σ √ 2 ), quedando demostrado (i). (ii) De la proposición 5(i) se tiene que Z1j1 y Z1j2 se distribuyenNd(0, 2σ 2Id). Pero no son independientes, ya que la matriz de varianzas-covarianzas de Wj1j2 = (Z1j1 , Z1j2) es: V(Wj1j2) = Σ = σ2 µ 2Id Id Id 2Id ¶ . 76 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Entonces, la distribución de Wj1j2 = (Z1j1 , Z1j2) es N2d(0,Σ). Por otro lado, para escribir la función de densidad deWj1j2 en términos de la función de den- sidad de la distribución N2d(0, I2d), utilizamos la descomposión de Cholesky de la matriz Σ, es decir, utilizamos que existe una matriz A tal que Σ = ATA, y por lo tanto, Wj1j2 = ATY2d donde Y2d ∼ N2d(0, I2d). Esta matriz es, A = σ Ã√ 2Id √ 2 2 Id 0d √ 6 2 Id ! = σ √ 2 µ Id 1 2 Id 0d √ 3 2 Id ¶ . Así, calculamos la densidad de Wj1j2 haciendo el cambio de variable Y2d = (AT )−1Wj1j2 y entonces, g(w) = g1.j1,j2(zj1 , zj2) = ϕ2d((A T )−1w)) ¯̄̄¡ AT ¢−1 ¯̄̄ = ϕ2d((A T )−1(zj1, zj2)) ¯̄̄¡ AT ¢−1 ¯̄̄ . Pero ¡ AT ¢−1 = 1 σ à √ 2 2 Id 0 − √ 6 6 Id √ 6 3 Id ! , y su determinante ¯̄̄¡ AT ¢−1 ¯̄̄ = ³ 1 σ2 √ 3 ´d . Por lo tanto, g1.j1,j2(zj1, zj2) = ϕ2d Ã√ 2 2σ zj1 ,− √ 6 6σ zj1 + √ 6 3σ zj2 !µ 1 σ2 √ 3 ¶d , que coincide con la expresión (3.22). (iii) Por último, sabemos que Z12, Z13 y Z14 se distribuyen Nd(0, 2σ 2Id). Entonces, la matriz de varianzas covarianzas de W = (Z12, Z13, Z14) es V(W ) = ΣW = σ2 ⎛⎝ 2Id Id Id Id 2Id Id Id Id 2Id ⎞⎠ , por lo que la distribución de W = (Z12, Z13, Z14) es N3d(0,ΣW ). De la misma manera que en la demostración de (ii), utilizamos la descomposi- ción de Cholesky de la matriz ΣW , con el objetivo de expresar la densidad de W en términos de la función de densidad de la distribución normal es- tándar 3d-dimensional. Es inmediato que la descomposición de Cholesky de ΣW = T TT con T = σ ⎛⎜⎜⎝ √ 2Id √ 2 2 Id √ 2 2 Id 0d q 3 2 Id 1 2 q 2 3 Id 0d 0d q 4 3 Id ⎞⎟⎟⎠ . 77 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Haciendo el cambio de variableW = T TY3d donde Y3d ∼ N3d(0, I3d) y utilizan- do que (T T )−1 = 1 σ ⎛⎜⎜⎝ √ 2 2 Id 0d 0d − 1√ 6 Id q 2 3 Id 0d − 1√ 12 Id − 1√ 12 Id q 3 4 Id ⎞⎟⎟⎠ , con determinante ¯̄̄¡ T T ¢−1 ¯̄̄ = ¡ 1 2σ2 ¢d , se obtiene que la función de densidad de W = (Z12, Z13, Z14) es g(w) = g1,2,3,4(z2, z3, z4) = µ 1 2σ3 ¶d ϕ3d( z2 σ √ 2 , 1 σ √ 6 (−z2+2z3), 1 σ √ 12 (−z2−z3+3z4)). La proposición 5(i) nos lleva a deducir, a partir de (3.16), que la aportación aproximada a la verosimilitud de los emparejamientos dobles en el caso de cuatro configuraciones y bajo hipótesis de normalidad tiene la expresión, µ 1 v ¶L2 Q {(i1,i2)| M (2) i1,i2 6=0} (|Ai1−1| |Ai2−1|) M (2) i1,i2 Q {(j1,j2)| S (i1,i2) j1j2 =1} µ 1 σ √ 2 ¶d ϕd( Ai1−1xi1j1 −Ai2−1xi2j2 σ √ 2 ). (3.23) Por otro lado, a partir de (3.16) en el caso k = 3, se deduce que la aportación aproximada a la verosimilitud de los emparejamientos triples, en el caso de M = 4 tiene la expresión,µ 1 v ¶L3 Q {(i1,i2,i3)| M (3) i1,i2,i3 6=0} |Ai1−1Ai2−1Ai3−1| M (3) i1,i2,i3 · Q {(j1j2,j3)| S (1,2,3) j1,j2,j3 =1} gi1.i2,i3(Ai1−1xi1j1 −Ai2−1xi2j2 , Ai1−1xi1j1 −Ai3−1xi3j3). Además en el caso de normalidad, de la proposición 5(ii), esta aportación tiene 78 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES la forma µ 1 v ¶L3 Y {(i1,i2,i3)| M (3) i1,i2,i3 6=0} ¯̄ Ai1−1Ai2−1Ai3−1 ¯̄M(3) i1,i2,i3 Y {(j1j2,j3)| S (1,2,3) j1,j2,j3 =1} µ 1 σ2 √ 3 ¶d · ·ϕ2d µ Ai1−1xi1j1 −Ai2−1xi2j2 σ √ 2 , √ 6 6σ (Ai1−1xi1j1 +Ai2−1xi2j2 − 2Ai3−1xi3j3) ! . (3.24) Por último, la aportación aproximada a la verosimilitud de los emparejamientos de orden 4 a partir de (3.16) y de la proposición 5(iii), es de la formaµ 1 v |A1A2A3| ¶L4 Y {(j1j2,j3,j4)| S (1,2,3,4) j1,j2,j3,j4 =1} µ 1 2σ3 ¶d ϕ3d µ x1j1 −A1x2j2 σ √ 2 , x1j1 +A1x2j2 − 2A2x3j3 σ √ 6 , x1j1 +A1x2j2 +A2x3j3 − 3A3x4j4 σ √ 12 ¶ . (3.25) Por lo tanto, bajo hipótesis de normalidad, la aproximación de la verosimilitud de los puntos de cuatro configuraciones será el producto de las expresiones (3.21), (3.23), (3.24) y (3.25). 3.5.3. Inferencia bayesiana en el caso de emparejamientos conocidos de M = 4 configuraciones Partiendo de M = 4 configuraciones en Rd, vamos a añadir la restricción de que todas ellas tienen el mismo número de puntos, es decir, ni = m para todo i = 1, 2, 3, 4. Además, vamos a suponer que se sabe que hay m emparejamientos cuádruples y también cuáles son los puntos que están emparejados. Así, los pará- metros del modelo se reducen a aquellos con los que se definen las transformaciones entre configuraciones, es decir, las matrices A1, A2, A3 y el parámetro de precisión σ2 y sobre ellos aplicaremos la metodología bayesiana. 79 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Sin pérdida de generalidad, supongamos que ∀j = 1, . . .m los puntos x1j, x2j, x3j y x4j forman los m emparejamientos de orden cuatro, es decir, ξ1j = ξ2j = ξ3j = ξ4j. En esta situación, las matrices de afinidad y de emparejamientos son conocidas. En particular, las matrices de afinidad de orden 2 y 3 son cero (por tanto también las de emparejamientos de este orden), y la matriz de afinidad de orden 4 toma el valor m en la coordenada (1,2,3,4) y permutaciones de ella, y cero en el resto, es decir, M (4) ijkl = ⎧⎨⎩ m si {i, j, k, l} ∈ {π(1, 2, 3, 4)} 0 resto donde π(1, 2, 3, 4) denota las permutaciones de los números {1, 2, 3, 4}. La matriz de emparejamientos de orden cuatro S(1,2,3,4), tendrá dimensiones m× m×m×m, y tomará el valor uno en las coordenadas S(1,2,3,4)j,j,j,j para todo j = 1, . . .m y cero en el resto, es decir, S (1,2,3,4) ijkl = ⎧⎨⎩ 1 si i = j = k = l ∈ {1, . . . ,m} 0 resto En primer lugar, calculamos la expresión de la verosimilitud de los datos y a con- tinuación calcularemos las distribuciones a posteriori de los parámetros asumiendo ciertas distribuciones a priori. La verosimilitud de los datos se reducirá a la expresión asociada a los empare- jamientos de orden cuatro (3.25) que, particularizada en esta situación quedaría de la forma, p(x1,x2,x3,x4 | A1, A2, A3, σ2) ∝ µ 1 v |A1A2A3| ¶m mY j=1 µ 1 2σ3 ¶d · ϕ3d µ x1j −A1x2j σ √ 2 , x1j +A1x2j − 2A2x3j σ √ 6 , x1j +A1x2j +A2x3j − 3A3x4j σ √ 12 ¶ ∝ µ 1 2σ3 ¶md exp ( −1 2 à mX j=1 °°°°x1j −A1x2j σ √ 2 °°°°2 + mX j=1 °°°°x1j +A1x2j − 2A2x3j σ √ 6 °°°°2 + mX j=1 °°°°x1j +A1x2j +A2x3j − 3A3x4j σ √ 12 °°°°2 !) . 80 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Con el objetivo de conseguir una expresión más manejable, denotamos por B1j = 1√ 2 (x1j −A1x2j), B2j = 1√ 6 (x1j +A1x2j − 2A2x3j), B3j = 1√ 12 (x1j +A1x2j +A2x3j − 3A3x4j). Así la verosimilitud se puede expresar como: p(x1,x2,x3,x4 | A1, A2, A3, σ 2) ∝ µ 1 σ2 ¶ 3 2 md |A1A2A3| m exp ( − 1 2σ2 à mX j=1 kB1jk2 + mX j=1 kB2jk2 + mX j=1 kB3jk2 !) .(3.26) Distribución a posteriori de los parámetros Se sume que la distribución a priori de la varianza σ2 es una gamma inversa σ−2 ∼ G(α, β), α, β > 0, cuya función de densidad es, p(σ2) = βα Γ(α) (σ2)−(α+1) exp{−β/σ2}. A partir de (3.26) se obtiene que la distribución a posteriori de σ2 es de la forma, p(σ2 | x1,x2,x3,x4, A1, A2, A3) ∝ βα Γ(α) (σ2)−(α+1) exp{−β/σ2}· µ 1 σ2 ¶ 3 2 md exp ( − 1 2σ2 mX j=1 ¡ kB1jk2 + kB2jk2 + kB3jk2 ¢) = = (σ2)−(α+ 3 2 md+1) exp ( − 1 σ2 à β + 1 2 mX j=1 ¡ kB1jk2 + kB2jk2 + kB3jk2 ¢!) . Por lo tanto, la distribución a posteriori de σ2 es una gamma inversa σ−2 ∼ 81 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES G(α∗, β∗) donde α∗ = α+ 3 2 md, β∗ = β + ( 1 2 mX j=1 kx1j −A1x2jk2 + 1 6 mX j=1 kx1j +A1x2j − 2A2x3jk2 + 1 12 mX j=1 kx1j +A1x2j +A2x3j − 3A3x4jk2 ) . (3.27) A continuación estudiaremos las distribuciones a posteriori de las matrices de las transformaciones lineales, suponiendo distribución a priori Matriz Normal. Definición 32 Una matriz X ∈ Rn×p se dice que tiene distribución Matriz Normal X ∼ N(M,Φ⊗Σ), donde ⊗ es el producto de Kronecker, M ∈ Rn×p y Σp×p,Φn×n > 0, si su función de densidad es p(X |M,Φ,Σ) = (2π)− np 2 |Φ|−p/2 |Σ|− n 2 exp µ −1 2 trazaΦ−1 (X −M)Σ−1 (X −M)T ¶ . El vector aleatorio vec(XT ) = (xT1 , x T 2 , . . . , x T n ) T donde xTi representa la fila i−ésima de la matriz traspuesta de X, tiene distribución normal n×p−dimensional de vector de media vec(M) y matriz de varianzas-covarianzas Ω = Φ⊗ Σ. Se asume que las distribuciones a priori de las matrices A1, A2 y A3 son Matriz Normales N(M,Φ⊗ Σ), con M = 0n×p, Φ = In y Σ = Ip, es decir, p(Ai) ∝ exp{− 1 2 traza(AiA T i )}. i = 1, 2, 3. Entonces, a partir (3.26) la distribución a posteriori de A1 es p(A1 | . . .) ∝ |A1|m exp ( − 1 2σ2 à mX j=1 kB1jk2 + mX j=1 kB2jk2 + mX j=1 kB3jk2 ! −1 2 traza(A1A T 1 ) ¾ . (3.28) 82 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Se puede simplificar la expresión en términos de la traza de una matriz. mX j=1 kB1jk2 = mX j=1 °°°°x1j −A1x2j√ 2 °°°°2 = 1 2 mX j=1 (x1j −A1x2j) T (x1j −A1x2j) = 1 2 mX j=1 ¡ kx1jk2 + kA1x2jk2 − 2xT1jA1x2j ¢ . (3.29) Análogamente, mX j=1 kB2jk2 = mX j=1 °°°°x1j +A1x2j − 2A2x3j√ 6 °°°°2 = 1 6 mX j=1 ¡ kA1x2jk2 + k2A2x3j − x1jk2 − 2(2A2x3j − x1j) TA1x2j ¢ . (3.30) Por último, mX j=1 kB3jk2 = mX j=1 °°°°x1j +A1x2j +A2x3j − 3A3x4j√ 12 °°°°2 = 1 12 mX j=1 ¡ kA1x2jk2 + k3A3x4j −A2x3j − x1jk2 −2(3A3x4j −A2x3j − x1j) TA1x2j ¢ (3.31) Entonces, sustituyendo (3.29), (3.30) y (3.31) en la expresión (3.28), teniendo en cuenta que aT b = traza(baT ) y simplificando, se llega a que p(A1 | . . .) ∝ |A1|m exp ( −1 2 à tr(3 mX j=1 A1x2jx T 2jA T 1 4σ2 ) −tr(A1 1 2σ2 mX j=1 x2j(x1j +A2x3j +A3x4j) T ) ! − 1 2 tr(A1A T 1 ) ) . 83 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Por lo tanto, la expresión de la distribución a posteriori de la matriz A1 es p(A1 | . . .) ∝ |A1|m exp ( −1 2 " tr(A1( 3 4σ2 mX j=1 x2jx T 2j + Id)A T 1 ) −tr( 1 2σ2 A1 mX j=1 x2j(x1j +A2x3j +A3x4j) T ) #) . Operando de la misma forma se llega a que las distribuciones a posteriori de A2 y A3 son de la forma p(A2 | . . .) ∝ |A2|m exp ( −1 2 " tr(A2( 3 4σ2 mP j=1 x3jx T 3j + Id)A T 2 ) − tr( 1 2σ2 A2 mP j=1 x3j(x1j +A1x2j +A3x4j) T ) #) . p(A3 | . . .) ∝ |A3|m exp ( −1 2 " tr(A3( 3 4σ2 mP j=1 x4jx T 4j + Id)A T 3 ) − tr( 1 2σ2 A3 mP j=1 x4j(x1j +A1x2j +A2x3j) T ) #) . 3.6. Modelización con transformaciones euclídeas de similitud En esta sección presentamos el mismo problema de emparejamiento de M > 2 configuraciones de puntos, cuando las transformaciones existentes entre los sistemas de referencia de las configuraciones son transformaciones de similitud. Este tipo de transformaciones multiplican todas las distancias por el mismo factor y son esen- ciales en el estudio de formas y de emparejamiento de configuraciones. Tal como se explicaba en el capítulo 2, estas transformaciones rotan, trasladan y escalan unas configuraciones sobre otras. El esquema que se sigue en esta sección y el desarrollo teórico, no son muy diferentes a los presentados anteriormente. En primer lugar se planteará el modelo 84 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES general, y se calculará la verosimilitud de los datos. A continuación, se tratará el caso donde se supone normalidad para los errores, además de centrarse en cuatro configu- raciones con el objetivo de mostrar aplicaciones. Por último, se realizarán inferencias sobre todos los parámetros suponiendo que los emparejamientos son conocidos. Así el modelo (3.1) quedaría expresado en términos de matrices de rotación, vectores de traslación y constantes de escalamiento de la siguiente manera: x1j = μξ1j + ε1j j = 1, . . . , n1 s1A1x2j + τ 1 = μξ2j + ε2j j = 1, . . . , n2 ... ... sr−1Ar−1xrj + τ r−1 = μξrj + εrj j = 1, . . . , nr ... ... sM−1AM−1xMj + τM−1 = μξMj + εMj j = 1, . . . , nM (3.32) donde para todo i = 1, . . . ,M y para todo j = 1, . . . , ni, si > 0 son parámetros de escala, Ai matrices de rotación en Rd (|Ai| = 1 y AT i = A−1i ), y τ i vectores de traslación de Rd. Además, {εij} tienen como función de densidad fi y son indepen- dientes entre sí. Así, a partir de (3.32) se tiene que las funciones de densidad de los distintos puntos de las configuraciones tienen las expresiones, f(x1j) = f1(x1j − μξ1j) j = 1, . . . , n1 f(x2j) = f2(s1A1x2j + τ 1 − μξ2j)s d 1 j = 1, . . . , n2 · · · · · · f(xrj) = fr(sr−1Ar−1xrj + τ r−1 − μξrj)s d r−1 j = 1, . . . , nr · · · · · · f(xMj) = fM(sM−1AM−1xMj + τM−1 − μξMj )sdM−1 j = 1, . . . , nM Por lo tanto, suponiendo A0 = I y τ 0 = 0, para todo i = 1, . . . ,M y para todo j = 1, . . . , ni la función de densidad de cada punto xij es, f(xij) = fi(si−1Ai−1xij + τ i−1 − μξij)s d i−1. (3.33) 85 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES 3.6.1. Construcción de la verosimilitud de los datos De la misma manera que en el caso de transformaciones lineales generales, la verosimilitud de los datos se construye diferenciando los puntos según el grado de emparejamiento que presentan. Las expresiones que se obtienen para cada caso van a ser análogas a las encontradas en aquella situación. Bastará sustituir |Ak| por |skAk| = sdk y la expresión Ak−1xkj por sk−1Ak−1xkj + τk−1. Así, a partir de (3.11), la aportación aproximada a la verosimilitud de los puntos no emparejados tiene la expresión, µ 1 v ¶n− M i=2 iLi MQ i=1 ¯̄ si−1 ¯̄ni−M l=2 e (l) i . (3.34) De la misma manera, a partir de la expresión obtenida en el caso general (3.16), la aportación aproximada a la verosimilitud de los puntos con emparejamiento de orden k, k = 2, ...,M , tiene la formaµ 1 v ¶Lk Q {(i1,···ik)| M (k) i1...ik 6=0} ³ |si1−1| d · · · |sik−1| d ´M(k) i1...ik · Q {(j1...jk)| S (i1...ik) j1...jk =1} gi1.i2,...,ik(si1−1Ai1−1xi1j1 + τ i1−1 − si2−1Ai2−1xi2j2 − τ i2−1, . . . , si1−1Ai1−1xi1j1 + τ i1−1 − sik−1Aik−1xikjk − τ ik−1), (3.35) donde gi1.i2,i3,...ik(z2, . . . zk) viene definida en (3.15). El producto de (3.34) y de (3.35) para todo k, da lugar a la expresión aproximada de la verosimilitud en el caso de transformaciones de similitud. 3.6.2. Emparejamientos de M = 4 configuraciones con erro- res normales Siguiendo con el esquema seguido en la sección 3.5, vamos a suponer que los errores tienen una distribución normal. Así, particularizando en el caso de M = 4 86 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES configuraciones, el modelo (3.32) queda de la forma x1j = μξ1j + ε1j j = 1, . . . , n1 s1A1x2j + τ 1 = μξ2j + ε2j j = 1, . . . , n2 s2A2x3j + τ 2 = μξ3j + ε3j j = 1, . . . , n3 s3A3x4j + τ 3 = μξ4j + ε4j j = 1, . . . , n4 donde {εij} son independientes con distribución Nd(0, σ 2Id) con d ≥ 2 y la matriz Id es la matriz identidad de orden d. En esta situación, los parámetros que definen los emparejamientos (matrices de afinidad y de emparejamientos) son los mismos que en el caso de transformaciones lineales generales, no así los parámetros que definen las transformaciones. Ahora, se tienen, con i = 1, 2, 3, las matrices de rotación Ai, los vectores de traslación τ i y las constantes de escalamiento si, además de la varianza de los errores σ2. Las aportaciones a la verosimilitud de los datos de los distintos emparejamientos, se deducen directamente de (3.21), (3.23), (3.24) y (3.25). Así, la aportación de los puntos no emparejados tiene la expresión µ 1 v ¶n−2L2−3L3−4L4 s d(n2− MP k=2 e (k) 2 ) 1 s d(n3− M k=2 e (k) 3 ) 2 s d(n4− M k=2 e (k) 4 ) 3 . (3.36) La expresión de la aportación de los puntos con emparejamientos dobles es, µ 1 v ¶L2 Q {(i1,i2)| M (2) i1,i2 6=0} ¡ sdi1−1s d i2−1 ¢M(2) i1,i2 Q {(j1,j2)| S (i1,i2) j1j2 =1} µ 1 σ √ 2 ¶d ϕd( si1−1Ai1−1xi1j1 + τ 1 − si2−1Ai2−1xi2j2 − τ 2 σ √ 2 ). (3.37) 87 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES La expresión de los emparejamientos triples es:µ 1 v ¶L3 Y {(i1,i2,i3)| M (3) i1,i2,i3 6=0} (si1−1si2−1si3−1) dM (3) i1,i2,i3 · Y {(j1j2,j3)| S (i1,i2,i3) j1,j2,j3 =1} µ 1 σ2 √ 3 ¶d ·ϕ2d µ si1−1Ai1−1xi1j1 + τ i1−1 − si2−1Ai2−1xi2j2 − τ i2−1 σ √ 2 , √ 6 6σ (si1−1Ai1−1xi1j1 + τ i1−1 + si2−1Ai2−1xi2j2 ++τ i2−1 − 2si3−1Ai3−1xi3j3 − 2τ i3−1 ! , (3.38) y la de los emparejamientos cuádruples es:µ 1 v s1s2s3 ¶dL4 Y {(j1j2,j3,j4)| S (1,2,3) j1,j2,j3,j4 =1} µ 1 2σ3 ¶d ϕ3d µ x1j1 − s1A1x2j2 − τ 1 σ √ 2 , , x1j1 + s1A1x2j2 + τ 1 − 2s2A2x3j3 − 2τ 2 σ √ 6 , , x1j1 + s1A1x2j2 + τ 1 + s2A2x3j3 + τ 2 − 3s3A3x4j4 − 3τ 3 σ √ 12 ¶ . (3.39) Por tanto, el producto de (3.36), (3.37), (3.38) y (3.39) da lugar a la expresión de la vesomilitud de los datos de cuatro configuraciones bajo hipótesis de normalidad en el caso de transformaciones de similitud entre las mismas. 3.6.3. Inferencia bayesiana en el caso de emparejamientos conocidos de M = 4 configuraciones En este apartado y de la misma manera que se hacía en el apartado 3.5.3, se presenta el caso de M = 4 configuraciones con el mismo número de puntos, m, suponiendo que estos m puntos están emparejados y se conoce cuáles son estos em- parejamientos. Así, centrándonos en el caso de que los errores siguen una distribución normal, los parámetros del modelo se reducen a aquellos con los que se definen las transformaciones entre configuraciones, es decir, los parámetros A1, A2, A3, s1, s2, s3, τ 1, τ 2, τ 3 y el parámetro de varianza σ2. 88 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Supongamos sin pérdida de generalidad que ∀j = 1, . . .m los puntos x1j, x2j, x3j y x4j forman los m emparejamientos de orden cuatro, es decir, ξ1j = ξ2j = ξ3j = ξ4j. En esta situación, las matrices de afinidad y de emparejamientos son conocidas y son las descritas en el apartado 3.5.3. Basándose en las expresiones (3.36), (3.37), (3.38) y (3.39) se obtiene la expresión de la verosimilitud, análoga a (3.26), p(x1,x2,x3,x4 | A1, A2, A3, s1, s2, s3, τ 1, τ 2, τ 3, σ2) ∝ µ 1 σ2 ¶3 2 md (s1s2s3) md · exp ( − 1 2σ2 à mX j=1 kD1jk2 + mX j=1 kD2jk2 + mX j=1 kD3jk2 !) , (3.40) donde D1j = 1√ 2 (x1j − s1A1x2j − τ 1), D2j = 1√ 6 (x1j + s1A1x2j + τ 1 − 2s2A2x3j − 2τ 2), D3j = 1√ 12 (x1j + s1A1x2j + τ 1 + s2A2x3j + τ 2 − 3s3A3x4j − 3τ 3). (3.41) Distribución a priori de la varianza σ2 y su distribución a posteriori Partiendo de que la distribución a priori de la varianza σ2 es una gamma inversa σ−2 ∼ G(α, β), se puede deducir de la misma manera que en el caso de transfor- maciones generales, que la distribución a posteriori de σ2 sigue siendo una gamma inversa σ−2 ∼ G(α∗, β∗) de parámetros, α∗ = α+ 3 2 md β∗ = β + ( 1 2 mX j=1 kx1j − s1A1x2j − τ 1k2 + 1 6 mX j=1 kx1j + s1A1x2j + τ 1 − 2s2A2x3j − 2τ 2k2 + 1 12 mX j=1 kx1j + s1A1x2j + τ 1 + s2A2x3j + τ 2 − 3s3A3x4j − 3τ 3k2 ) , expresiones análogas a (3.27), obtenidas en aquel caso. 89 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Distribuciones a priori de los parámetros de traslación τ 1, τ 2 y τ3 y sus distribuciones a posteriori Asumimos que la distribución a priori de los vectores de traslación es normal, τ i ∼ Nd(μi, σ 2 τ i Id) i = 1, 2, 3 es decir, p(τ i) ∝ exp ½ − 1 2σ2τ i (τ i − μi) T (τ i − μi) ¾ . Bajo el modelo (3.40) se tiene que la distribución a posteriori de τ 1 será de la forma, p(τ 1 | . . .) ∝ exp ½ − 1 2σ2τ1 (τ 1 − μ1) T (τ 1 − μ1) ¾ · exp ( − 1 2σ2 à mX j=1 kD1jk2 + mX j=1 kD2jk2 + mX j=1 kD3jk2 !) = exp ( − 1 2σ21 (τ 1 − μ1) T (τ 1 − μ1)− 1 2σ2 à mX j=1 kD1jk2 + mX j=1 kD2jk2 + mX j=1 kD3jk2 !) . (3.42) Operamos en (3.42) con el objetivo de llegar a una expresión simplificada. mX j=1 kD1jk2 = mX j=1 °°°° 1√2(x1j − s1A1x2j − τ 1) °°°°2 = 1 2 (mτT1 τ 1 − 2τT1 mX j=1 (x1j − s1A1x2j)) +K1, mX j=1 kD2jk2 = mX j=1 °°°° 1√6(x1j + s1A1x2j + τ 1 − 2s2A2x3j − 2τ 2) °°°°2 = 1 6 (mτT1 τ 1 − 2τT1 mX j=1 (2s2A2x3j + 2τ 2 − x1j − s1A1x2j)) +K2, mX j=1 kD3jk2 = mX j=1 °°°° 1√ 12 (x1j + s1A1x2j + τ 1 + s2A2x3j + τ 2 − 3s3A3x4j − 3τ 3) °°°°2 = 1 12 (mτT1 τ 1 − 2τT1 mX j=1 (3s3A3x4j + 3τ 3 − x1j − s1A1x2j − s2A2x3j − τ 2)) +K3, 90 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES con K1,K2 y K3 expresiones independientes de τ 1. Así, el exponente en (3.42) sería, − 1 2σ2τ1 (τT1 τ 1 − 2τT1 μτ1)− 1 2σ2 à 1 2 (mτT1 τ 1 − 2τT1 mX j=1 (x1j − s1A1x2j)) + 1 6 (mτT1 τ 1 − 2τT1 mX j=1 (2s2A2x3j + 2τ 2 − x1j − s1A1x2j)) + 1 12 (mτT1 τ 1 − 2τT1 mX j=1 (3s3A3x4j + 3τ 3 − x1j − s1A1x2j − s2A2x3j − τ 2)) ! = − 1 2σ2τ1 (τT1 τ 1 − 2τT1 μτ1)− 1 2σ2 à 1 2 (mτT1 τ 1 − 2τT1 mX j=1 C1j) + 1 6 (mτT1 τ 1 − 2τT1 mX j=1 C2j) + 1 12 (mτT1 τ 1 − 2τT1 mX j=1 C3j) ! , donde C1j = x1j − s1A1x2j, C2j = 2s2A2x3j + 2τ 2 − x1j − s1A1x2j C3j = 3s3A3x4j + 3τ 3 − x1j − s1A1x2j − s2A2x3j − τ 2. Entonces, la densidad a posteriori de τ 1 será de la forma: p(τ 1 | . . .) ∝ exp ½ −1 2 ∙ 1 12σ2τ1σ 2 ¡ τT1 τ 1(12σ 2 + 9mσ2τ1) −2τT1 à 12μτ1σ 2 + 6σ2τ1 mX j=1 C1j + 2σ 2 τ1 mX j=1 C2j + σ2τ1 mX j=1 C3j ! ) #) . Completando cuadrados con el fin de obtener la expresión de la función de den- 91 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES sidad de una distribución normal y operando, se llega a que, p(τ 1 | . . .) ∝ exp ⎧⎪⎨⎪⎩− 1 2 σ2τ1σ 2 σ2+ 3 4 mσ2τ1 · °°°°°°τ 1 − μτ1 σ2τ1 + 1 4σ2 Pm j=1(x1j − 3s1A1x2j + s2A2x3j + s3A3x4j + τ 2 + τ 3) 1 σ2τ1 + 3m 4σ2 °°°°°° 2⎫⎬⎭ . Por lo tanto, la distribución a posteriori de τ 1 es normal d-dimensional τ 1 | . . . ∼ Nd ⎛⎝ μτ1 σ2τ1 + 1 4σ2 Pm j=1(x1j − 3s1A1x2j + s2A2x3j + s3A3x4j + τ 2 + τ 3) 1 σ2τ1 + 3m 4σ2 , 1 1 σ2τ1 + 3m 4σ2 Id ⎞⎠ . Actuando de la misma manera para el cálculo de la distribución a posteriori de τ 2 y operando se llega a que, p(τ 2 | . . .) ∝ exp ⎧⎨⎩− 1 2 ³ 1/( 1 σ2τ2 + 3m 4σ2 ) ´ · °°°°°°τ 2 − μτ2 σ2τ2 + 1 4σ2 Pm j=1(x1j + s1A1x2j − 3s2A2x3j + s3A3x4j + τ 1 + τ 3) 1 σ2τ2 + 3m 4σ2 °°°°°° 2⎫⎬⎭ , por lo que la distribución a posteriori de τ 2 es también normal d-dimensional , τ 2 | . . . ∼ Nd ⎛⎜⎜⎝ μτ2 σ2τ2 + 1 4σ2 mP j=1 (x1j + s1A1x2j − 3s2A2x3j + s3A3x4j + τ 1 + τ 3) 1 σ2τ2 + 3m 4σ2 , 1 1 σ2τ2 + 3m 4σ2 Id ⎞⎟⎟⎠ . (3.43) Por último, y de la misma manera, se llega a que la distribución a posteriori de τ 3 es, τ 3 | . . . ∼ Nd ⎛⎜⎜⎝ μτ3 σ2τ3 + 1 4σ2 mP j=1 (x1j + s1A1x2j + s2A2x3j − 3s3A3x4j + τ 1 + τ 2) 1 σ2τ3 + 3m 4σ2 , 1 1 σ2τ3 + 3m 4σ2 Id ⎞⎟⎟⎠ . (3.44) 92 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Distribuciones a priori de los parámetros de escala s1, s2 y s3 y sus dis- tribuciones a posteriori Asumimos que a priori, los parámetros de escala si, i = 1, 2, 3, siguen una dis- tribución gamma, es decir si ∼ G(αi, βi), cuya función de densidad es, p(si) = βαi Γ(αi) si α−1 exp{−βisi} si > 0. Entonces a partir de (3.40), la distribución a posteriori de s1 tendrá la forma: p(s1 | · · · ) ∝ s1 α−1 exp{−β1s1}s1md exp ( − 1 2σ2 à mX j=1 kD1jk2 + mX j=1 kD2jk2 + mX j=1 kD3jk2 !) , donde D1j, D2j y D3j son como en (3.41). Desarrollando las normas al cuadrado se llega a que mX j=1 kD1jk2 + kD2jk2 + kD3jk2 = s21 3 4 mX j=1 kx2jk2 −1 2 s1 mX j=1 (x1j − 3τ 1 + s2A2x3j + τ 2 + s3A3x4j + τ 3) TA1x2j +K1, donde K1 es una expresión independiente de s1. Así, la función de densidad a posteriori del parámetro s1 es: p(s1 | · · · ) ∝ s1 α+dm−1 exp ( − 1 2σ2 à s21 3 4 mX j=1 kx2jk2 −s1 " 1 2 mX j=1 (x1j − 3τ 1 + s2A2x3j + τ 2 + s3A3x4j + τ 3) TA1x2j − 2σ2β1 #!) . Procediendo de la misma manera para el cálculo de la distribución a posteriori de s2, y observando que D1j no depende de s2, se tiene que: p(s2 | · · · ) ∝ s2 α−1 exp{−β2s2}s2md exp ( − 1 2σ2 à mX j=1 kD2jk2 + mX j=1 kD3jk2 !) . 93 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Operando de nuevo, se llega a que kD2jk2 + kD3jk2 = s22 3 4 mX j=1 kx3jk2 −1 2 s2 mX j=1 (x1j + τ 1 + s1A1x2j − 3τ 2 + s3A3x4j + τ 3) TA2x3j +K2, donde K2 es una expresión independiente de s2. Así, la función de densidad a pos- teriori del parámetro s2 es: p(s2 | · · · ) ∝ s2 α+dm−1 exp ( − 1 2σ2 à s22 3 4 mX j=1 kx3jk2 −s2 " 1 2 mX j=1 (x1j + τ 1 + s1A1x2j − 3τ 2 + s3A3x4j + τ 3) TA2x3j − 2σ2β2 #!) . Por último, en el caso del parámetro s3, se observa que D1j y D2j no dependen de s3, por lo que p(s3 | · · · ) ∝ s3 α−1 exp{−β3s3}s3md exp ( − 1 2σ2 mX j=1 kD3jk2 ) . En este caso, y de forma análoga, se llega a que la función de densidad a posteriori de s3 es: p(s3 | · · · ) ∝ s3 α+dm−1 exp ( − 1 2σ2 à s23 3 4 mX j=1 kx4jk2 −s3 " 1 2 mX j=1 (x1j + τ 1 + s1A1x2j + τ 2 + s2A2x3j − 3τ 3)TA3x4j − 2σ2β3 #!) . Distribuciones a priori de las matrices de rotación A1, A2 y A3 y sus dis- tribuciones a posteriori A partir de este momento, nos situamos en R2 con el fin de centrarnos en matrices de rotación en dicho espacio. Eligiendo como sentido de la rotación el contrario a las agujas del reloj, las matrices A1, A2 y A3 serán de la forma, A1 = µ cos θ1 −senθ1 senθ1 cos θ1 ¶ , A2 = µ cos θ2 −senθ2 senθ2 cos θ2 ¶ , A3 = µ cos θ3 −senθ3 senθ3 cos θ3 ¶ . 94 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Siguiendo a Green y Mardia (2006), asumimos que las distribuciones a priori de las matrices de rotación A1, A2 y A3 son distribuciones von Mises de parámetros νi y ki > 0 (Mardia y Jupp, 2000) con i = 1, 2, 3, Ai ∼M(νi, ki), es decir, sus funciones de densidad son, p(Ai) = 1 2πI0(ki) exp © traza ¡ F T i Ai ¢ª ∝ exp © traza ¡ F T i Ai ¢ª , donde I0 denota la función de Bessel modificada, definida como I0(ki) = 1 2π 2πZ 0 exp(ki cos θ)dθ, y la matriz Fi = ki 2 µ cos νi −senνi senνi cos νi ¶ . Entonces, las funciones de densidad se pueden escribir también en términos del ángulo θi, como p(θi) ∝ exp{ki cos νi cos θi + ki senνisenθi} = exp{ki cos(θi − νi)}. Para calcular la distribución a posteriori de A1, nos basamos en el modelo (3.40). Así, p(A1 | . . .) ∝ exp © traza ¡ F T 1 A1 ¢ª · exp ( − 1 2σ2 à mX j=1 kD1jk2 + mX j=1 kD2jk2 + mX j=1 kD3jk2 !) . (3.45) Operando y prescindiendo de lo que depende de A1, se tiene que, kD1jk2 = °°°° 1√2(x1j − s1A1x2j − τ 1) °°°°2 = 1 2 ¡ kA1x2jk2 − 2s1(x1j − τ 1) TA1x2j + kx1j − τ 1k2 ¢ = −s1(x1j − τ 1) TA1x2j +K1, 95 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES kD2jk2 = °°°° 1√6(x1j + s1A1x2j + τ 1 − 2s2A2x3j − 2τ 2) °°°°2 = 1 6 ¡ ks1A1x2jk2 − 2s1(2s2A2x3j + 2τ 2 − x1j − τ 1) TA1x2j + k2s2A2x3j + 2τ 2 − x1j − τ 1k2 ¢ = −1 3 s1(2s2A2x3j + 2τ 2 − x1j − τ 1) TA1x2j, y kD3jk2 = °°°° 1√ 12 (x1j + s1A1x2j + τ 1 + s2A2x3j + τ 2 − 3s3A3x4j − 3τ 3) °°°°2 = −1 6 s1(3s3A3x4j + 3τ 3 − x1j − τ 1 − s2A2x3j − τ 2) TA1x2j +K3, donde Ki son expresiones independientes de A1. Así, kD1jk2 + kD2jk2 + kD3jk2 = −1 2 s1 (x1j + s2A2x3j + s3A3x4j − 3τ 1 + τ 2 + τ 3) T A1x2j +K1 +K2 +K3. (3.46) Sustituyendo (3.46) en (3.45) y de nuevo utilizando que aT b = traza(baT ), se llega a que p(A1 | . . .) ∝ exp © traza ¡ F T 1 A1 ¢ª ∝ exp ( traza à 1 4σ2 s1 mX j=1 x2j(x1j + s2A2x3j + s3A3x4j − 3τ 1 + τ 2 + τ 3) TA1 !) ∝ exp ( traza Ã" F T 1 + 1 4σ2 s1 mX j=1 x2j(x1j + s2A2x3j + s3A3x4j − 3τ 1 + τ 2 + τ 3) T # A1 !) ∝ exp ⎧⎨⎩traza ⎛⎝"F1 + 1 4σ2 s1 mX j=1 (x1j + s2A2x3j + s3A3x4j − 3τ 1 + τ 2 + τ 3)x T 2j #T A1 ⎞⎠⎫⎬⎭ . Por lo tanto, la distribución a posteriori de A1 es una distribución von Mises con función de densidad p(A1 | . . .) ∝ exp © traza ¡ F ∗T1 A1 ¢ª , (3.47) 96 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES donde la matriz F ∗1 toma la expresión F ∗1 = F1 + 1 4σ2 s1 mX j=1 (x1j + s2A2x3j + s3A3x4j − 3τ 1 + τ 2 + τ 3)x T 2j. Actuando de la misma manera para el cálculo de la distribución a posteriori de A2 se llega a que, p(A2 | . . .) ∝ exp ⎧⎨⎩traza ⎛⎝"F2 + 1 4σ2 s2 mX j=1 (x1j + s1A1x2j + s3A3x4j + τ 1 − 3τ 2 + τ 3)x T 3j #T A2 ⎞⎠⎫⎬⎭ , por lo que la distribución a posteriori de A2 es una distribución von Mises con función de densidad p(A2 | . . .) ∝ exp © traza ¡ F ∗T2 A2 ¢ª , (3.48) donde la matriz F ∗2 toma la expresión F ∗2 = F2 + 1 4σ2 s2 mX j=1 (x1j + s1A1x2j + s3A3x4j + τ 1 − 3τ 2 + τ 3)x T 3j. Por último, se prueba que la distribución a posteriori de A3 es una distribución von Mises con función de densidad p(A3 | . . .) ∝ exp © traza ¡ F ∗T3 A3 ¢ª , (3.49) donde la matriz F ∗3 toma la expresión F ∗3 = F3 + 1 4σ2 s3 mX j=1 (x1j + s1A1x2j + s2A2x3j + τ 1 + τ 2 − 3τ 3)xT4j. Con la intención de identificar los parámetros de estas distribuciones von Mises, llamamos T (1) = à T (1) 11 T (1) 12 T (1) 21 T (1) 22 ! = s1 4σ2 mX j=1 (x1j + s2A2x3j + s3A3x4j − 3τ 1 + τ 2 + τ 3)x T 2j, 97 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES T (2) = à T (2) 11 T (2) 12 T (2) 21 T (2) 22 ! = s2 4σ2 mX j=1 (x1j + s1A1x2j + s3A3x4j + τ 1 − 3τ 2 + τ 3)x T 3j, y T (3) = à T (3) 11 T (3) 12 T (3) 21 T (3) 22 ! = s3 4σ2 mX j=1 (x1j + s1A1x2j + s2A2x3j + τ 1 + τ 2 − 3τ 3)xT4j, por lo que F ∗i = Fi + T (i) para todo i = 1, 2, 3. Entonces, las expresiones (3.47), (3.48) y (3.49) pueden escribirse como p(Ai | · · ·) ∝ exp © traza ¡ (Fi + T (i))TAi ¢ª , o también p(θi | · · ·) ∝ exp{(ki cos νi + T (i) 11 + T (i) 22 ) cos θi + (kisenνi + T (i) 21 − T (i) 12 )senθi}. Llamando ν∗i y k ∗ i > 0 a los parámetros de la distribución von Mises a posteriori de Ai y resolviendo el sistema de ecuaciones ki cos νi + T (i) 11 + T (i) 22 = k∗i cos ν ∗ i , kisenνi + T (i) 21 − T (i) 12 = k∗i senν ∗ i , se llega a que para todo i = 1, 2, 3, la distribución a posteriori de Ai es von Mises de parámetros Ai ∼M(ν∗i , k ∗ i ) donde k∗i = ∙³ ki cos νi + T (i) 11 + T (i) 22 ´2 + ³ kisenνi + T (i) 21 − T (i) 12 ´2¸1/2 , ν∗i = arco cos " ki cos νi + T (i) 11 + T (i) 22 k∗1 # . 98 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES 3.6.4. Inferencia bayesiana en el caso de emparejamientos desconocidos de M = 3 configuraciones y transforma- ciones rígidas Hasta ahora, las inferencias de los parámetros que se han planteado no involucra- ban ninguna matriz de emparejamientos ni de similitud al trabajarse en el supuesto de conocerse los emparejamientos entre las configuraciones. En este apartado vamos a estudiar el caso en el que las configuraciones siguen teniendo el mismo número de puntos m, se sabe que tienen todos sus puntos emparejados, pero se desconoce cuáles son estos emparejamientos. Esta situación la vamos a desarrollar en el caso deM = 3 configuraciones para simplificar, y vamos a utilizar transformaciones rígi- das, es decir, suponemos los parámetros de escalamiento si = 1 y mantenemos la hipótesis de normalidad sobre los errores. Así, en esta situación, los parámetros del modelo son las matrices de rotación A1, A2, los vectores de traslación τ 1, τ 2, el parámetro de precisión σ2 y la matriz de emparejamientos triples S(1,2,3). Señalamos que la matriz de afinidad M(3) es conocida, ya que sus elementos son todos cero excepto M (3) 123 = m. Comenzamos determinando la verosimilitud de los datos. A partir de (3.38) y particularizando en el caso de tres configuraciones sin parámetros de escala, esta verosimilitud tiene la forma: 99 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES p(x1,x2,x3 | A1, A2, τ 1, τ 2, σ 2, S(1,2,3)) ≈ µ 1 v ¶m Q {(i,j,k)| S (1,2,3) i,j,k =1} µ 1 σ2 √ 3 ¶d · ϕ2d à x1i −A1x2j − τ 1 σ √ 2 , √ 6 6σ (x1i +A1x2j + τ 1 − 2A2x3k − 2τ 2) ! ∝ µ 1 σ2 √ 3 ¶md exp ⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩− 1 2 X {(i,j,k)| S (1,2,3) i,j,k =1} °°°°x1i −A1x2j − τ 1 σ √ 2 , √ 6 6σ (x1i +A1x2j + τ 1 − 2A2x3k − 2τ 22 °°°°° 2 ⎫⎬⎭ ∝ µ 1 σ2 √ 3 ¶md exp ⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩− 1 σ2 ⎛⎜⎜⎜⎜⎝14 X {(i,j,k)| S (1,2,3) i,j,k =1} kx1i −A1x2j − τ 1k2+ + 1 3 X {(i,j,k)| S (1,2,3) i,j,k =1} °°°°x1i +A1x2j + τ1 2 −A2x3k − τ 2 °°°°2 ⎞⎟⎟⎟⎟⎠ ⎫⎪⎪⎪⎪⎬⎪⎪⎪⎪⎭ . (3.50) Así, el modelo conjunto tendrá la forma p(A1, A2, τ 1, τ 2, σ 2, S(1,2,3),x1,x2,x3) ∝ p(A1)p(A2)p(τ 1)p(τ 2)p(S (1,2,3)) · µ 1 σ2 √ 3 ¶md exp ⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩− 1 σ2 ⎛⎜⎜⎜⎜⎝14 X {(i,j,k)| S (1,2,3) i,j,k =1} kx1i −A1x2j − τ 1k2 + 1 3 X {(i,j,k)| S (1,2,3) i,j,k =1} °°°°x1i +A1x2j + τ 1 2 −A2x3k − τ 2 °°°°2 ⎞⎟⎟⎟⎟⎠ ⎫⎪⎪⎪⎪⎬⎪⎪⎪⎪⎭ . (3.51) 100 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Distribución a priori de la varianza σ2 y su distribución a posteriori Si partimos de que la distribución a priori de la varianza σ2 es la gamma inversa σ−2 ∼ G(α, β), a partir de (3.50) se demuestra de la misma forma que en el apartado 3.6.3, que la distribución a posteriori de σ2 es una gamma inversa σ−2 ∼ G(α∗, β∗) donde α∗ = α+md β∗ = β + ⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩ 1 4 mX {(i,j,k)| S (1,2,3) i,j,k =1} kx1i −A1x2j − τ 1k2 + 1 3 mX {(i,j,k)| S (1,2,3) i,j,k =1} kx1i +A1x2j + τ 1 − 2A2x3k − 2τ 2k2 ⎫⎪⎪⎪⎪⎬⎪⎪⎪⎪⎭ . Distribuciones a priori de los parámetros de traslación τ 1 y τ 2 y sus dis- tribuciones a posteriori Asumimos que τ i ∼ Nd(μi, σ 2 τ i Id) i = 1, 2, es decir, p(τ i) ∝ exp ½ − 1 2σ2τ i (τ i − μi) 0 (τ i − μi) ¾ . Bajo el modelo (3.50) y de la misma forma con la que se procedía en el apartado (3.6.3), las distribuciones a posteriori de τ 1 y τ 2 son, respectivamente 101 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES τ 1 | . . . ∼ Nd ⎛⎜⎜⎜⎜⎜⎜⎝ μ1 σ2τ1 + 1 3σ2 P {(i,j,k)| S (1,2,3) i,j,k =1} (x1i − 2A1x2j +A2x3k + τ 2) 1 σ2τ1 + 2m 3σ2 , 1 1 σ2τ1 + 2m 3σ2 Id ⎞⎟⎟⎟⎟⎟⎟⎠ , τ 2 | . . . ∼ Nd ⎛⎜⎜⎜⎜⎜⎜⎜⎝ μ2 σ2τ2 + 1 3σ2 mP {(i,j,k)| S (1,2,3) i,j,k =1} (x1i +A1x2j + τ 1 − 2A2x3k) 1 σ2τ2 + 2m 3σ2 , 1 1 σ2τ2 + 2m 3σ2 Id ⎞⎟⎟⎟⎟⎟⎟⎟⎠ . Distribuciones a priori de las matrices de rotación A1 y A2 y sus distribu- ciones a posteriori Asumimos de nuevo, limitándonos al caso bidimensional, que las distribuciones a priori de las matrices de rotaciónA1 yA2 son distribuciones von Mises de parámetros νi y ki > 0 con i = 1, 2, Ai ∼ M(νi,ki). Entonces, basándonos en el modelo (3.50), y procediendo como en el caso de transformaciones de similitud, la distribución a posteriori de A1 es una distribución von Mises con función de densidad p(A1 | x1,x2,x3, τ 1, τ 2, σ2, S(1,2,3)) ∝ exp © traza ¡ F ∗T1 A1 ¢ª , (3.52) donde la matriz F ∗1 toma la expresión F ∗1 = F1 + 1 3σ2 X {(i,j,k)| S (1,2,3) i,j,k =1} (x1i − 2τ 1 +A2x3k + τ 2)x T 2j. Análogamente, la distribución a posteriori de A2 es una distribución von Mises con función de densidad p(A2 | . . .) ∝ exp © traza ¡ F ∗T2 A2 ¢ª , (3.53) 102 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES donde la matriz F ∗2 es F ∗2 = F2 + 1 3σ2 X {(i,j,k)| S (1,2,3) i,j,k =1} (x1i +A1x2j + τ 1 − 2τ 2)xT3k. Para identificar los parámetros de estas distribuciones, llamamos P (1) = à P (1) 11 P (1) 12 S (1) 21 S (1) 22 ! = 1 3σ2 X {(i,j,k)| S (1,2,3) i,j,k =1} (x1i − 2τ 1 +A2x3k + τ 2)x T 2j, y P (2) = à P (2) 11 P (2) 12 P (2) 21 P (2) 22 ! = 1 3σ2 X {(i,j,k)| S (1,2,3) i,j,k =1} (x1i +A1x2j + τ 1 − 2τ 2)xT3k, por lo que F ∗i = Fi + P (i) i = 1, 2. Entonces, las expresiones (3.52) y (3.53) pueden escribirse p(Ai | . . .) ∝ exp © traza ¡ (Fi + P (i))TAi ¢ª . Así, se llega a que la distribución a posteriori de Ai, i = 1, 2 es von Mises de parámetros Ai ∼M(ν∗i ,k ∗ i ) donde k∗i = ∙³ ki cos νi + P (i) 11 + P (i) 22 ´2 + ³ kisenνi + P (i) 21 − P (i) 12 ´2¸1/2 ν∗i = arco cos " ki cos νi + P (i) 11 + P (i) 22 k∗i # . Distribución a priori de la matriz de emparejamientos S(1,2,3) y su esti- mación a posteriori mediante el algoritmo Metropolis-Hasting A partir de (3.19) es inmediato que la distribución a priori de S(1,2,3), conociendo que hay m emparejamientos triples entre las tres configuraciones, es p(S(1,2,3) |M (3) 123 = m) = 1 (m!)2 , 103 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES es decir, la distribución uniforme sobre el total de posibles matrices de empare- jamientos triples. Se puede obtener una muestra de la distribución a posteriori utilizando el algorit- mo de Metropolis-Hasting. A partir de este momento, y por simplicidad, incluimos una nueva notación para la expresión de la matriz de emparejamientos S(1,2,3). Teníamos previamente que S (1,2,3) ijk = ⎧⎨⎩ 1 si ξ1i = ξ2j = ξ3k 0 resto . es decir, el array de dimensión tres S(1,2,3) toma el valor uno en aquellas ternas (ijk) que identifican los puntos x1i, x2j y x3k que están emparejadas. Como partimos de que existen m emparejamientos, vamos a representarlos recogiéndolos en una matriz S de dimensiones m× 3, cuyas filas recogerán aquellas ternas de puntos de las configuraciones x1,x2 y x3 que forman emparejamientos triples. Así, por ejemplo, en el caso de m = 5, la matriz S = ⎛⎜⎜⎜⎜⎝ 1 1 1 2 2 3 3 4 2 4 5 5 5 3 4 ⎞⎟⎟⎟⎟⎠ está representando que los puntos de las tres configuraciones están emparejados de la siguiente manera: punto uno de la configuración x1 con el punto uno de la configura- ción x2 y con el punto uno de la configuración x3, puntos dos de las configuraciones x1 y x2 con el tercer punto de la configuración x3, el punto tres de la configuración x1 con el punto cuatro de la configuración x2 y con el punto dos de la configuración x3, el punto cuatro de la configuración x1 con el punto cinco de la configuración x2 y con el punto cinco de la configuración x3 y, por último, el punto cinco de la configuración x1 con el punto tres de la configuración x2 y con el punto cuatro de la configuración x3. 104 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Es decir, está representando la situación S (1,2,3) 111 = S (1,2,3) 223 = S (1,2,3) 342 = S (1,2,3) 455 = S (1,2,3) 534 = 1. Se puede señalar que, en general, cada columna va a corresponder a una permutación de los números 1, 2, . . . ,m y que el orden en el que aparezcan las filas, no es relevante. Desarrollo del método basado en el algoritmo Metropolis-Hasting. Las posibles transiciones permitidas en cada etapa de la cadena de Markov se han definido como sigue. Se eligen dos puntos al azar de la configuración x1, por ejemplo i1 e i2, cuyos em- parejamientos con los puntos de las configuraciones x2 y x3 los denotamos (i1, j1, k1) y (i2, j2, k2) que vendrán recogidos en la matriz S. Entonces, los posibles cambios permitidos de S a S∗ con sus probabilidades respectivas q(S, S∗) son: (i) Con probabilidad p∗1 intercambiar los emparejamientos sólo con la configu- ración x2, de manera que el cambio en la matriz S consiste en sustituir los emparejamientos (i1, j1, k1) e (i2, j2, k2) por (i1, j2, k1) e (i2, j1, k2), dando lu- gar a la matriz S∗. (ii) Con probabilidad p∗2 intercambiar los emparejamientos sólo con la configu- ración x3, de manera que el cambio en la matriz S consiste en sustituir los emparejamientos (i1, j1, k1) e (i2, j2, k2) por (i1, j1, k2) e (i2, j2, k1), dando lu- gar a una matriz S∗. (iii) Con probabilidad 1−p∗1−p∗2 intercambiar los emparejamientos con las configu- raciones x2 y x3, de manera que el cambio en la matriz S consiste en sustituir los emparejamientos (i1, j1, k1) e (i2, j2, k2) por (i1, j2, k2) e (i2, j1, k1), respec- tivamente, dando lugar a una matriz S∗. Estas probabilidades de transición de la cadena están definiendo la distribución propuesta o distribución de salto que representa el movimiento de la cadena en el 105 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES espacio de matrices de dimensiónm×3. Hay que señalar que, tal como se ha definido esta distribución propuesta, la cadena verifica la propiedad de reversibilidad, es decir, la probabilidad de que partiendo de S en una etapa k, en la etapa k + 1 nos encontremos en S∗, coincide con la probabilidad de que partiendo de S∗ en la etapa k en la etapa k + 1 nos encontremos en S, es decir, q(S, S∗) = q(S∗, S). En esta situación, y siguiendo con el desarrollo del método deMetropolis-Hasting, la probabilidad de aceptación del salto propuesto a la matriz S∗ es, mı́n ½ 1, r = p(A1, A2, τ 1, τ 2, σ 2, S∗,x1,x2,x3) p(A1, A2, τ 1, τ 2, σ2, S,x1,x2,x3) ¾ . Observamos que r es el cociente entre el modelo conjunto, definido en (3.51), con los emparejamientos formados con la distribución propuesta y el modelo conjunto con los emparejamientos del paso anterior. Así la expresión de r será: (i) Con probabilidad p∗1 r = exp ½ − 1 σ2 µ 1 4 kx1i1 −A1x2j2 − τ 1k2 + 1 3 °°°x1i1+A1x2j2+τ12 −A2x3k1 − τ 2 °°°2 exp ½ − 1 σ2 µ 1 4 kx1i1 −A1x2j1 − τ 1k2 + 1 3 °°°x1i1+A1x2j1+τ12 −A2x3k1 − τ 2 °°°2 +1 4 kx1i2 −A1x2j1 − τ 1k2 + 1 3 °°°x1i2+A1x2j1+τ12 −A2x3k2 − τ 2 °°°2¶¾ +1 4 kx1i2 −A1x2j2 − τ 1k2 + 1 3 °°°x1i2+A1x2j2+τ12 −A2x3k2 − τ 2 °°°2¶¾ . (ii) Con probabilidad p∗2 r = exp ½ − 1 σ2 µ 1 4 kx1i1 −A1x2j1 − τ 1k2 + 1 3 °°°x1i1+A1x2j1+τ12 −A2x3k2 − τ 2 °°°2 exp ½ − 1 σ2 µ 1 4 kx1i1 −A1x2j1 − τ 1k2 + 1 3 °°°x1i1+A1x2j1+τ12 −A2x3k1 − τ 2 °°°2 +1 4 kx1i2 −A1x2j2 − τ 1k2 + 1 3 °°°x1i2+A1x2j2+τ12 −A2x3k1 − τ 2 °°°2¶¾ +1 4 kx1i2 −A1x2j2 − τ 1k2 + 1 3 °°°x1i2+A1x2j2+τ12 −A2x3k2 − τ 2 °°°2¶¾ 106 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES (iii) Con probabilidad 1− p∗1 − p∗2 r = exp ½ − 1 σ2 µ 1 4 kx1i1 −A1x2j2 − τ 1k2 + 1 3 °°°x1i1+A1x2j2+τ12 −A2x3k2 − τ 2 °°°2 exp ½ − 1 σ2 µ 1 4 kx1i1 −A1x2j1 − τ 1k2 + 1 3 °°°x1i1+A1x2j1+τ12 −A2x3k1 − τ 2 °°°2 +1 4 kx1i2 −A1x2j1 − τ 1k2 + 1 3 °°°x1i2+A1x2j1+τ12 −A2x3k1 − τ 2 °°°2¶¾ +1 4 kx1i2 −A1x2j2 − τ 1k2 + 1 3 °°°x1i2+A1x2j2+τ12 −A2x3k2 − τ 2 °°°2¶¾ . En resumen, el algoritmo de Metropolis-Hasting para la estimación de la distribución a posteriori de la matriz de emparejamientos triples S, tendrá en el paso de la iteración k a la k + 1, las siguientes acciones: a. Elegir aleatoriamente dos números del 1 al m, que representarán los puntos de la configuración x1 que van a intercambiar emparejamientos. b. Elegir un valor para p∗1 y para p∗2 (tomaremos p ∗ 1 y p∗2 = 1/3) con los que proponer los emparejamientos en la etapa siguiente. c. Calcular la probabilidad de aceptación del salto propuesto r, definida como el cociente entre el modelo conjunto con los emparejamientos definidos con la matriz S en el paso k + 1, y el modelo conjunto con los emparejamientos en el paso k. Si r es mayor que 1, el salto propuesto se acepta. Si es menor, se acepta con probabilidad r. 3.7. Aplicaciones En esta sección se presentan dos tipos de aplicaciones, que ilustran los resulta- dos presentados en este capítulo. Por una parte se validan los resultados teóricos expuestos en las secciones anteriores a través de configuraciones simuladas y por otro se realiza una aplicación en el ámbito de la Bioinformática, utilizando la base 107 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES de datos de microarrays de Karaman et al (2003) basada en la plataforma Affymetrix Genechip 5.0. Para todo ello se ha utilizado principalmente MatLab para programar las simulaciones y la plataforma Bioconductor de R para obtener los datos reales, con un ordenador Pentium IV con procesador a 3.2 Ghz. 3.7.1. Datos simulados Como primer paso a la comprobación de la validez de los resultados teóricos, se han simulado datos de un proceso de Poisson espacial en un círculo en R2 (tomando un radio igual a 8) y de tasa λ = 2 siguiendo el algoritmo de Ross (1997) presentado en la sección 2.2. A partir de él, y siguiendo el modelo (3.1), se han generado por una parte M = 4 configuraciones con transformaciones rígidas, y por otra M = 3 configuraciones con transformaciones de similitud, en ambas situaciones suponiendo conocidos los emparejamientos. Los valores de los vectores de traslación, de las matrices de rotación y de la varianza de los errores utilizados para estas simulaciones se muestran en la tablas 3.1. y 3.2. En el caso primer caso, se ha aplicado un muestreador de Gibbs con 50000 itera- ciones en total, 10000 de ellas de calentamiento, para generar muestras aleatorias de la distribuciones a posteriori de los parámetros A1, A2, A3, τ 1, τ 2, τ 3 y σ2. Se han tomado como estimaciones de A1, A2 y A3, las matrices de rotación de los ángulos medios de las distribuciones a posteriori y para el resto de los parámetros las medias a posteriori. La programación de los codes se ha hecho utilizando Matlab v. 7.1. El tiempo aproximado de simulación en este primer caso ha sido de 2430 segundos (40.5 minutos). En el caso de M = 3 configuraciones con transformaciones de similitud, la ge- neración de las muestras de la distribución a posteriori de las matrices de rotación, vectores de traslación y varianza se obtuvo mediante un muestreador de Gibbs. Las muestras a posteriori de los parámetros de escala s1 y s2 se generaron mediante el método strip, que consiste básicamente en generar una muestra de la distribución 108 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES discreta definida sobre una rejilla de puntos en el dominio de la distribución a gener- ar; a cada punto se le asigna como probabilidad el cociente de la función de densidad en ese punto y la suma de los valores de las funciones de densidades en todos los puntos de la rejilla. (Para más detalles ver Devroye, 1986). El tiempo aproximado de simulación en este segundo caso ha sido de 19404 segundos (5.39 horas). En ambos casos, se tomaron como distribuciones a priori τ i ∼ N2((2, 2) T , I2) σ−2 ∼ G(1, 10) Ai ∼M(u, 2) von Mises (u un valor aleatorio de [0, 2π]) si ∼ G(1, 0,002) En las tablas 3.1 y 3.2 se comparan las estimaciones obtenidas en la simulación y los valores reales de los parámetros utilizados en la generación de las configuraciones en ambas situaciones. Se puede comprobar que, salvo algunos valores de los parámetros de traslación donde no se ajustan tan bien las estimaciones, la aproximación de las simulaciones a los valores reales es muy exacta. Valores de los parámetros Estimaciones simuladas τ 1= [2, 3] bτ 1= [1,8337, 3,2990] τ 2= [1, 1] bτ 2= [1,1295, 0,6218] τ 3= [0, 0] bτ 3= [0,0670, 0,0138] θ1= 30 o A1= µ 0,866 −0,500 0,5 0,866 ¶ bθ1= 31,3o bA1=µ 0,8535 −0,521 0,521 0,8535 ¶ θ2= 60 o A2= µ 0,5 −0,866 0,866 0,5 ¶ bθ2= 59,3o bA2=µ 0,5093 −0,8606 0,8606 0,5093 ¶ θ3= 45 o A3= µ 0,7071 −0,7071 0,7071 0,7071 ¶ bθ3= 45,8o bA3=µ 0,6964 −0,7177 0,7177 0,6964 ¶ σ = 3 bσ= 2,943 Tabla 3.1. Datos simulados en el caso de M = 4 configuraciones de puntos emparejados con transformaciones rígidas 109 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Valores de los parámetros Estimaciones simuladas τ 1= [2, 3] bτ 1= [1,9949, 2,9475] τ 2= [2, 3] bτ 2= [1,7443, 3,1233] s1= 2 bs1= 2,0303 s2= 2 bs2= 1,9900 θ1= 30 o A1= µ 0,8666 −0,5 0,5 0,8666 ¶ bθ1= 28,6o bA1=µ 0,8766 −0,4812 0,4812 0,8766 ¶ θ2= 60 o A2= µ 0,5 −0,8666 0,8666 0,5 ¶ bθ2= 62,6o bA2=µ 0,4593 −0,8883 0,8883 0,4593 ¶ σ = 2 bσ= 2,1883 Tabla 3.2. Datos simulados en el caso de M = 3 configuraciones de puntos emparejados con transformación de similitud 3.7.2. Una aplicación en Bioinformática La aplicación que aquí se presenta se basa en los datos tomados de un experimen- to con microarrays de Karaman et al. (2003) con células cultivadas de fibroblastos en tres especies genéticamente relacionadas: gorilas (Gorilla gorilla), bonobos (Pan paniscus) y humanos (Homo sapiens). Dichos datos se pueden obtener a partir del paquete fibroEset de Bioconductor. Estos datos representan los valores de las expresiones de un total de 12925 genes en 46 muestras (23 de humanos, 11 de bonobos y 12 de gorilas). Se asume que aquellos genes que se muestran más expresados serán aquellos que tienen mayor interés, de modo que se han seleccionado aquellos con una expresión mayor de 3000, lo que supone una selección de 204 genes. En el cuadro 3.1 se representa el aspecto de la base de datos con la que se va a 110 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES trabajar, donde expkij representa la expresión del gen i en la muestra j de la especie k (k ∈{Humano, Bonobo,Gorila}). Las filas representan los genes seleccionados y las columnas las 46 muestras identificando la especie de la que proceden (H: humano, G: gorila y B:bonobo). H1 . . . H23 G1 . . . G11 B1 . . . B12 Gen 1 expH1,1 . . . expH1,23 expB11 . . . expB1,11 expG11 . . . expG1,12 ... ... ... ... ... ... ... Gen 204 expH204,1 . . . expH204,23 expH204,1 . . . expH204,11 expG204,1 . . . expG204,12 Cuadro 3.1 Esquema de la base de datos de microarrays Calculando las distancias euclídeas entre los genes y aplicando la técnica multi- variante INDSCAL, se proyectan los genes de cada una de las tres especies en un espacio de dimension r = 2. Estas representaciones son las que jugarán el papel de configuraciones de puntos. Al conocerse qué punto representa cada gen y al haber se- leccionado los mismos genes en las tres especies, se tiene tres configuraciones de 204 puntos cuyos emparejamientos son conocidos, por lo que se planteará la estimación del modelo bajo el supuesto de configuraciones etiquetadas. Por último, se trabajará con la hipótesis de que no se conocen los emparejamien- tos entre genes (configuraciones no etiquetadas), por lo que se deberán realizar es- timaciones de los emparejamientos. En ambos casos se supondrán transformaciones rígidas entre configuraciones, por lo que estos problemas son aplicaciones de los apartados 3.6.3 y 3.6.4 del presente capítulo. Representación de los genes. La representación de los genes se ha llevado a cabo utilizando un análisis IND- SCAL (INdividual Differences SCALing) o escalamiento multidimensional de dife- rencias individuales (Carroll y Chang, 1970), presentado en el capítulo 2. 111 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES En nuestro caso, los genes hacen el papel de objetos y las especies hacen papel de individuos. Así, el análisis INDSCAL permite tener en cuenta las diferencias entre especies a la hora de representar los genes, de tal modo que se obtendrá una representación de los genes distinta para cada especie según las ponderaciones que ofrezca el análisis. En primer lugar, se han tomado como matrices de similitud las matrices de las distancias euclídeas entre los genes para cada especie calculadas a partir de sus expresiones, que servirán de entrada al análisis INDSCAL. El resultado del análisis proporciona, por una parte, las coordenadas de todos los genes sin diferenciar por especie en el espacio global de objetos o de estímulos, (de dimensión r = 2), y por otra, los pesos o ponderaciones que cada especie asigna a cada dimensión, representados en el espacio de sujetos. La lectura y tratamiento de las expresiones de los genes han sido realizados por el programa Bioconductor y el análisis INDSCAL de los datos se ha llevado a cabo con el procedimiento MDS de SAS v 9.1. En las figuras 3.1 y 3.2 se representan los dos espacios obtenidos con los 204 genes. Se han identificado dos genes con su etiqueta únicamente a efectos ilustrativos y comparativos. En el espacio de sujetos se observa que los gorilas dan más importancia a la dimensión 2 que los humanos y bonobos, y que las ponderaciones que aplican estos últimos son más similares que las que aplican los gorilas. Esto se refleja en las figuras 3.3, 3.4 y 3.5 donde aparecen representados las tres configuraciones de genes. 112 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Se observa que la representación más dispar es la correspondiente a los gorilas. Figura 3.1. Espacio global de objetos Figura 3.2. Espacio de sujetos Figura 3.3 Configuración de bonobos Figura 3.4. Configuración de gorilas Figura 3.5. Configuración de humanos 113 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Estimación de la transformación rígida entre especies con emparejamien- tos conocidos de los genes. Al haber seleccionado los mismos genes en las tres especies y conocer a qué gen corresponde cada punto, se tienen 204 emparejamientos triples y ninguno doble y además se conoce cuáles son los puntos que componen los emparejamientos, por lo que las matrices de afinidad y de emparejamiento son conocidas. Por lo tanto el problema se centra en encontrar las transformaciones rígidas (matrices de rotación y vectores de traslación) que relacionan las configuraciones, además de la varianza de los errores. Análogamente al caso de datos simulados y de nuevo utilizando Matlab 7.1, se han generado muestras aleatorias de las distribuciones a posteriori de los parámetros A1, A2, τ 1, τ 2 y σ2 aplicando un muestreador de Gibbs con 50000 iteraciones en total, 10000 de ellas de calentamiento. Inicialmente se considera como configuración de referencia la de los humanos obteniéndose las transformaciones entre humanos y bonobos y gorilas; en un segundo paso se ha tomado la de los gorilas como referencia para también conseguir las transformaciones entre gorilas y bonobos. Así la rotación y traslación entre las configuraciones de humanos y bonobos viene dada por: A1 = µ 0,9949 −0,1008 0,1008 0,9949 ¶ , τ 1 = µ 0,0015 0,0013 ¶ lo que indica una rotación de la configuración de bonobos a humanos de 5,78o (0,10 radianes) y ninguna traslación. La transformación entre las configuraciones de humanos y gorilas es: A2 = µ 0,9148 0,4039 −0,4039 0,9148 ¶ , τ 2 = µ 0,0014 0,0012 ¶ lo que significa una rotación de −23,82o (5,86 radianes) de la configuración de los gorilas a los humanos. De nuevo no es necesaria ninguna traslación. La rotación de gorilas a bonobos es de 29,61o (0,51 radianes) y ninguna traslación. 114 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Las estimaciones de la matriz de rotación y del vector de traslación son las siguientes: A3 = µ 0,8694 −0,4941 0,4941 0,8694 ¶ , τ 3 = µ 0,0013 0,0014 ¶ . Por último, la estimación de la varianza obtenida es σ2 = 0,0446. Descripción de las distribuciones a posteriori y análisis de las cadenas. En la tabla 3.3 se muestran algunos estadísticos básicos de las muestras generadas de las distribuciones a posteriori eliminada su fase de burning. En particular, se han calculado la media, mediana y desviación típica. También se muestran los intervalos de mayor probabilidad al 95% y se representan las densidades de las distribuciones a posteriori de todos los parámetros (figuras 3.6 hasta figura 3.15). Media Mediana Desviación típica Ext. inf. int. 95% Ext. sup. int. 95% σ2 0.04454 0.04449 0.00222 0.04025 0.04889 τ 11 0.00125 0.00133 0.02089 -0.03887 0.04259 τ 12 0.00138 0.00145 0.02106 -0.04079 0.04207 τ 21 0.00116 0.00132 0.02085 -0.04011 0.04137 τ 22 0.00141 0.00140 0.02085 -0.04072 0.04114 τ 31 0.00131 0.00119 0.02085 -0.03858 0.04314 τ 32 0.00137 0.00140 0.02089 -0.03892 0.042906 θ1 5.86734 5.86730 0.01508 5.8376 5.8966 θ2 0.10115 0.10111 0.01489 0.0713 0.1295 θ3 0.5164 0.51644 0.01519 0.4866 0.5459 Tabla 3.3 Análisis descriptivo de las cadenas 0.035 0.040 0.045 0.050 0.055 0 50 10 0 15 0 sigma D en si ty -0.05 0.00 0.05 0.10 0 5 10 15 20 tao1_1 D en si ty Fig. 3.6 Densidad de sigma Fig. 3.7 Densidad 1a coordenada de τ 1 115 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES -0.05 0.00 0.05 0 5 10 15 20 tao1_2 D en si ty -0.10 -0.05 0.00 0.05 0.10 0 5 10 15 20 tao2_1 D en si ty Fig. 3.8 Densidad 2a coordenada de τ 1 Fig. 3.9 Densidad 1a coordenada de τ 2 -0.05 0.00 0.05 0 5 10 15 20 tao2_2 D en si ty -0.05 0.00 0.05 0.10 0 5 10 15 tao3_1 D en si ty Fig. 3.10 Densidad 2a coordenada de τ 2 Fig. 3.11 Densidad 1a coordenada de τ 3 -0.10 -0.05 0.00 0.05 0.10 0 5 10 15 tao3_2 D en si ty 5.80 5.82 5.84 5.86 5.88 5.90 5.92 0 5 10 15 20 25 teta1 D en si ty Fig. 3.12 Densidad 2a coordenada de τ 3 Fig. 3.13 Densidad de θ1 116 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0 5 10 15 20 25 teta2 D en si ty 0.46 0.48 0.50 0.52 0.54 0.56 0.58 0 5 10 15 20 25 teta3 D en si ty Fig. 3.14 Densidad de θ2 Fig. 3.15 Densidad de θ3 Para estudiar la convergencia de las cadenas se han utilizado los tests de Geweke y el de Raftery y Lewis. El primero de ellos contrasta la estacionariedad de la cadena y el segundo la independencia de los valores de la misma. Los dos son tests de diagnóstico aplicados a una sola cadena y se han calculado con el paquete boa de R. El test de Geweke (1992) considera dos subconjuntos de una cadena (habitual- mente el primer 10% y el último 50%, obviando la parte de burning), y se comparan las medias muestrales de los dos grupos. Cuando se obtiene un valor no significativo, se acepta la igualdad entre ambas medias y, por lo tanto, no se tiene evidencia de que falle la convergencia. El test de Raftery y Lewis (1992), tiene como objetivo calcular la longitud del periodo de burning y el número total de iteraciones necesarias para estimar un cuantil dado de la distribución a posteriori. Frecuentemente se toma el cuantil 0.025 y se debe especificar la precisión requerida para su estimación y una probabilidad prefijada de que el cuantil estimado tenga la precisión dada. Se define el factor de dependencia como el número total de iteraciones dividido entre el número mínimo de iteraciones necesarias para la estimación del cuantil. Un valor mayor que 5 de este factor de dependencia, indica correlación entre los valores de la cadena. En la tabla 3.4 se presentan los resultados obtenidos para cada uno de los pará- metros del modelo. Los valores del estadístico de Geweke se resumen en la primera 117 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES columna acompañados de los p-valores. Se observa que no se tiene evidencia sufi- ciente de que falla la convergencia para ninguno de los parámetros. Los factores de dependencia del test de Raftery y Lewis son menores que cinco, lo que indica que no existe una correlación significa. Por último, se muestran los gráficos de las trazas de todas las cadenas (figuras 3.16 hasta figura 3.25). Test Geweke Test Raftery y Lewis Z-score p-valor Factor Dependencia σ2 -0.42427 0.6713 1.0045 τ 11 -1.1941 0.2324 1.9791 τ 12 0.4394 0.6603 2.1601 τ 21 -0.1570 0.8752 1.9845 τ 22 0.4851 0.6275 1.9071 τ 31 0.7215 0.4706 2.0768 τ 32 0.3287 0.7423 2.1062 θ1 -0.9607 0.3366 2.0411 θ2 0.3175 0.7507 2.0469 θ3 0.1989 0.8423 2.0405 Tabla 3.4 Tests de diagnóstico de convergencia 0 10000 20000 30000 40000 0. 03 8 0. 04 2 0. 04 6 0. 05 0 Iteration si gm a 0 10000 20000 30000 40000 -0 .0 4 -0 .0 2 0. 00 0. 02 0. 04 0. 06 Iteration ta o1 _1 Fig. 3.16 Traza de sigma Fig. 3.17 Traza 1a coordenada de τ 1 118 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES 0 10000 20000 30000 40000 -0 .0 8 -0 .0 6 -0 .0 4 -0 .0 2 0. 00 0. 02 0. 04 0. 06 Iteration ta o1 _2 0 10000 20000 30000 40000 -0 .0 6 -0 .0 4 -0 .0 2 0. 00 0. 02 0. 04 0. 06 Iteration ta o2 _1 Fig. 3.18 Traza 2a coordenada de τ 1 Fig. 3.19 Traza 1a coordenada de τ 2 0 10000 20000 30000 40000 -0 .0 6 -0 .0 4 -0 .0 2 0. 00 0. 02 0. 04 0. 06 Iteration ta o2 _2 0 10000 20000 30000 40000 -0 .0 4 -0 .0 2 0. 00 0. 02 0. 04 0. 06 Iteration ta o3 _1 Fig. 3.20 Traza 2a coordenada de τ 2 Fig. 3.21 Traza 1a coordenada de τ 3 0 10000 20000 30000 40000 -0 .0 6 -0 .0 4 -0 .0 2 0. 00 0. 02 0. 04 0. 06 Iteration ta o3 _2 0 10000 20000 30000 40000 5. 84 5. 86 5. 88 5. 90 Iteration te ta 1 Fig. 3.22 Traza 2a coordenada de τ 3 Fig. 3.23 Traza de θ1 119 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES 0 10000 20000 30000 40000 0. 06 0. 08 0. 10 0. 12 0. 14 0. 16 Iteration te ta 2 0 10000 20000 30000 40000 0. 46 0. 48 0. 50 0. 52 0. 54 0. 56 Iteration te ta 3 Fig. 3.24 Traza de θ2 Fig. 3.25 Traza de θ3 Como conclusión se observa que las tres especies están altamente relacionadas genéticamente, siendo mayor esta relación entre bonobos y humanos incluso que la existente entre gorilas y bonobos. Este resultado es consistente con la representación del árbol filogenético de los homínidos. Se sabe que los datos de comparación de muestras de ADN muestran una similitud del 98.5% entre el ADN humano y el chimpacé y esta semejanza es mayor que la que existe entre chimpacé y gorila o gorila y humano. Como futuras aplicaciones, se puede aplicar esta metodología sobre otros genes relevantes desde el punto de vista metabólico y encontrar relaciones existentes entre diferentes organismos. Además se pueden plantear otros tipos de distancias, ya que el análisis INDSCAL en particular, y el multidimensional scaling en general, se basa en la matriz de similitud entre puntos, pudiéndose utilizar distintas distancias. Estimación de los emparejamientos entre genes. Como segunda aplicación del desarrollo presentado en este capítulo, se va a vali- dar el procedimiento de estimación de las matrices de emparejamiento seleccionando ciertos genes de la base de datos. Para ello, aunque realmente se conocen los em- parejamientos, se va a suponer que son desconocidos de manera que utilizaremos el método Metropolis-Hasting desarrollado en la sección 3.6.4 para la estimación de dichos emparejamientos. 120 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Se considera la misma base de datos y se seleccionan aquellos genes con expre- siones entre 8000 y 10000, obteniendo un subconjunto de 23 genes. De nuevo se representan en dos dimensiones utilizando la técnica INDSCAL y se supone que se desconocen las identificaciones de los puntos, de manera que no se sabe qué gen representa cada punto y, por lo tanto, necesitamos emparejarlos para, al menos, descubrir qué puntos de las tres configuraciones identifican a los mismos genes. Para ello se emplea un método empírico Bayes (Carlin y Louis, 2000) que con- siste, básicamente, en realizar una estimación previa de las matrices de rotación con otro subconjunto de genes para los que sí se conocen los emparejamientos. Una vez estimadas, se utilizan en el proceso para estimar los emparejamientos triples del conjunto de genes de interés. Seleccionamos una muestra de genes con expresiones mayores que 10000 (en total, 38 genes). Se aplica la técnica INDSCAL, y dado que los 38 puntos están emparejados y son conocidos, se estiman las matrices de rotación de humanos a bonobos y de humanos a gorilas, aplicando el MCMC con 60000 iteraciones en total, 20000 de ellas de calentamiento. Los resultados obtenidos son, A1 = µ 0,9781 0,2081 −0,2081 0,9781 ¶ , A2 = µ 0,9906 −0,1366 0,1366 0,9906 ¶ , es decir, una rotación de -12.01o (-0.21 radianes) de humanos a bonobos y de 7.84o (0.1370 radianes) de humanos a gorilas. A continuación se aplica el método Metropolis-Hasting descrito en 3.6.4 para la estimación de los emparejamientos de los 23 genes de interés, suponiendo conocidas las matrices de rotación e iguales a las estimaciones obtenidas. La matriz de em- parejamientos S(1,2,3) se estimará seleccionando los 23 emparejamientos no repetidos más frecuentes de la muestra a posteriori obtenida. La programación de los codes se ha hecho utilizando Matlab v. 7.1. En la base de datos original, cuyo esquema se mostraba en el cuadro 3.1, cada 121 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES fila recoge las expresiones del mismo gen en las tres especies, por lo que a la hora de calcular sus coordenadas en las configuraciones, el análisis INDSCAL también identifica los puntos con el mismo orden, es decir, en la base de datos donde se tienen las coordenadas de los genes de las tres configuraciones calculadas con el análisis INDSCAL, la fila k corresponde a las coordenadas del gen k en bonobos, gorilas y humanos. Esto implica que realmente, están emparejados los puntos x1k, x2k y x3k, aunque estamos suponiendo que no se conocen. De esta manera, se comprobará la validez del método si el procedimiento identifica que los puntos k (k = 1, . . . , 23) de las tres configuraciones son los que están emparejados. Los resultados obtenidos después de 60000 iteraciones, 20000 de calentamiento, se muestran en la tabla 3.5. En ella se observa cómo el procedimiento ha identificado correctamente los genes que están emparejados. Además se recogen las frecuencias relativas de cada emparejamiento en la muestra a posteriori simulada. El empare- jamiento que más veces ha aparecido en esta muestra es el del gen 23 en las tres especies (con una frecuencia del 66% de las veces). Las estimaciones obtenidas de los vectores de traslación fueron (0.2312,0.2341)T y (0.2309, 0.2356)T y la estimación de la varianza fue 1.01. Número de los Genes emparejados Humanos 23 1 2 3 4 9 5 7 6 22 Bonobos 23 1 2 3 4 9 5 7 6 22 Gorilas 23 1 2 3 4 9 5 7 6 22 Frecuencia 0.66 0.49 0.44 0.43 0.43 0.42 0.41 0.40 0.39 0.39 Humanos 10 21 14 15 16 8 11 18 19 17 Bonobos 10 21 14 15 16 8 11 18 19 17 Gorilas 10 21 14 15 16 8 11 18 19 17 Frecuencia 0.39 0.37 0.37 0.37 0.37 0.39 0.38 0.38 0.38 0.38 Humanos 20 12 13 Bonobos 20 12 13 Gorilas 20 12 13 Frecuencia 0.38 0.38 0.38 Tabla 3.5. Lista de genes emparejados. Los genes número 23 de las tres especies forman el emparejamiento más frecuente (66%) 122 CAPÍTULO 3. EMPAREJAMIENTO DE MÁS DE DOS CONFIGURACIONES NO ETIQUETADAS MEDIANTE TRANSFORMACIONES LINEALES Los contenidos de este capítulo 3, incluida la aplicación en Bioinformática, puede encontrarse publicados en Marín y Nieto (2008a). 123 Capítulo 4 Emparejamiento de pares de configuraciones mediante transformaciones no lineales 4.1. Introducción En muchas ocasiones, debido a la complejidad de las estructuras de las configu- raciones, el problema de su emparejamiento puede ser de gran dificultad. En esta situación, la hipótesis de que la transformación existente que relaciona los empare- jamientos es lineal puede suponerse demasiado restrictiva. En este capítulo se va a presentar el análisis del emparejamiento de dos configu- raciones a través de modelos no lineales. En particular, se elige como transformación no lineal el modelo de redes neuronales que se introdujo en el capítulo 2. En una primera sección se desarrollará el modelo de Green y Mardia (2006) bajo estas hipótesis, donde las dos configuraciones son aleatorias y generadas a partir de un proceso de Poisson, con emparejamientos desconocidos, presentando los resulta- dos teóricos que se obtienen en este contexto de no linealidad entre configuraciones no etiquetadas. 125 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES En una siguiente sección se plantea un segundo modelo en el que nos centramos en configuraciones etiquetadas y se considera fija a una de las dos configuraciones, siendo la otra, una transformación no lineal de la primera más un error aleatorio. Para finalizar, se presenta una aplicación de ambos modelos en el ámbito de la Bioinformática, utilizando la base de datos ALL (Acute Lymphoblastic Leukemia) de Chiaretti el al. (2004), que recoge las características y expresiones de genes de 128 pacientes enfermos de leucemia. 4.2. Emparejamiento de configuraciones no eti- quetadas bajo modelo de redes neuronales basado en un Proceso de Poisson La situación de la que partimos es la descrita en la sección 3.2, pero limitada a dos configuraciones y con transformaciones no lineales entre los espacios donde se representan. Al centrarnos en dos configuraciones, el modelo que se desarrolla coincide parcialmente con el de Green y Mardia (2006), presentado en la sección 2.4, pero con la suposición de que la transformación geométrica es no lineal. 4.2.1. Modelización del problema Sean las configuraciones x e y situadas en el espacio Rd, donde d = 2, con n y m puntos cada una respectivamente, es decir, x = {xi „ i = 1, . . . , n} y = {yj „ j = 1, . . . ,m}. Las configuraciones son perturbaciones aleatorias de un conjunto de puntos fijos y desconocidos {μl} ∈ Rd l = 1, . . . , N, la configuración de referencia, y cada μl sólo puede generar o un punto de x, o un punto de y, o un punto de cada una de ellas o ningún punto. Se desconoce qué puntos de cada configuración se corresponden con cada uno de estos μl, y se tiene que aquellos puntos de x e y que son perturbaciones 126 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES aleatorias de un mismo punto μl están emparejados. En la figura 4.1 se representa la situación entre configuraciones. Figura 4.1 Esquema modelo con Proceso Poisson La correspondencia entre los puntos μl y los puntos de las configuraciones, se representa mediante los vectores ξ1i, i = 1, . . . , n y ξ2j, j = 1, . . . ,m. Así, ξ1i repre- senta el subíndice de μl que genera el punto i de la configuración x y, análogamente, ξ2j representa el subíndice de μl que genera el punto j de la configuración y. Además, existe una transformación no lineal desconocida entre los sistemas de referencia donde se representan las dos configuraciones, cuyos parámetros también formarán parte del modelo. De nuevo, y sin pérdida de generalidad, consideramos la configuración x en el sistema de referencia donde se encuentra {μl}. Así, los puntos de x se generan a partir de los {μl} más un error aleatorio. Bajo estos supuestos, el modelo matemático es un caso particular de (3.1) y queda de la forma, xi = μξ1i + εi i = 1, . . . , n φ(yj) = μξ2j + j j = 1, . . . ,m, donde εi ∼ f1 ∈ Rd y j ∼ f2 ∈ Rd, i = 1, . . . , n j = 1, . . . ,m independientes, y 127 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES φ(yj) = ⎛⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎝ β10 + MX k=1 β1kΨ(γk0 + yTj γk) ... βr0 + MX k=1 βrkΨ(γk0 + yTj γk) ... βd0 + MX k=1 βdkΨ(γk0 + yTj γk) ⎞⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎠ , siendo los parámetros del modelo βj0 ∈ R, βjk ∈ R, γk0 ∈ R y γk ∈ Rd para todo j = 1, . . . , d y k = 1, . . . ,M , y Ψ(z) = exp(z) 1+exp(z) la función logística. El valor de M representa el número de nodos de la red neuronal y, en principio, lo consideraremos fijo y conocido, aunque en la aplicación con datos reales, se llevará a cabo un análisis de los modelos con distintos valores de M basado en criterios de información. Entonces, el modelo se puede expresar como: xi = μξ1i + εi i = 1, . . . , n εi ∼ f1 ∈ Rd⎛⎜⎜⎜⎜⎜⎜⎜⎝ β10 + MX k=1 β1kΨ(γk0 + yTj γk) ... βd0 + MX k=1 βdkΨ(γk0 + yTj γk) ⎞⎟⎟⎟⎟⎟⎟⎟⎠ = μξ2j + j j = 1, . . . ,m j ∼ f2 ∈ Rd. Se observa que cada yj se transforma en otro punto φ(yj) cuyas coordenadas son una expresión no lineal expresada en términos de una combinación lineal de funciones logísticas. Estas funciones logísticas que se utilizan en el modelo son las mismas en todas las coordenadas, cambiando, sin embargo, los coeficientes que las acompañan en cada coordenada. Esta suposición deberá modificarse en el caso de M = 1 nodo por la existencia de problemas de invertibilidad y será tratado en la sección 4.3. 128 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES En forma matricial el modelo tiene la expresión, xi = μξ1i + εi i = 1, . . . , n εi ∼ f1 ∈ Rd (4.1) β0 +BΨ(γ0 + yTj γ) = μξ2j + j i = 1, . . . ,m j ∼ f2 ∈ Rd, donde β0 d×1 = ⎛⎜⎝ β10 ... βd0 ⎞⎟⎠ B d×M = ⎛⎜⎝ β11 · · · β1M ... ... βd1 · · · βdM ⎞⎟⎠ Ψ(γ0 + yTj γ) M×1 = ⎛⎜⎝ Ψ(γ10 + yTj γ1) ... Ψ(γM0 + yTj γM) ⎞⎟⎠ . (4.2) La definición y desarrollo del Proceso de Poisson de tasa λ, {μl} l = 1, . . . , N, que genera las configuraciones y que está definido sobre una región V ⊂ Rd de volumen v, se puede encontrar en la sección 3.3. Con respecto a la matriz con la que se definen los emparejamientos, recordamos que en el caso de dos configuraciones viene dada por Mjk = ½ 1 si ξ1j = ξ2k 0 si ξ1j 6= ξ2k , j = 1, . . . , n, k = 1, . . . ,m, (4.3) es decir, Mjk indica si xj e yk provienen del mismo punto μl y, por lo tanto, están emparejados. Asumiendo que, conocido el número de emparejamientos entre las dos configura- ciones L la distribución deM es la uniforme, se obtiene que la distribución a priori de esta matriz de emparejamientos viene dada por p(M) ∝ (ρ/λv)L , donde ρ es la medida de la tendencia a priori de los puntos a estar emparejados (sección 2.4.3). 4.2.2. Construcción de la verosimilitud de los datos De la misma manera que hicimos en 3.5.1, vamos a construir la expresión de la verosimilitud de los datos asumiendo conocida la matriz de emparejamientos, 129 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES diferenciando entre los puntos que están emparejados y los que no. Así, de (4.1) se tiene que f(xi) = f1(xi − μξ1i) i = 1, . . . , n β0 +BΨ(γ0 + yTj γ)− μξ2j ∼ f2 j = 1, . . . ,m. Vamos a calcular la función de densidad de cada punto yj j = 1, . . . ,m de la configuración y. f(yj) = f2(β0 +BΨ(γ0 + yTj γ)− μξ2j) |Jj| , donde Jj = ∂ ∂yj ³ β0 +BΨ(γ0 + yTj γ)− μξ2j ´ = B ∂ ∂yj ¡ Ψ(γ0 + yTj γ) ¢ = B µ ∂ ∂yjs Ψ(γk0 + yTj γk) ¶ k=1,...,M s=1,...,d = B ⎛⎜⎝ ∂ ∂yj1 Ψ(γ10 + yTj γ1) · · · ∂ ∂yjd Ψ(γ10 + yTj γ1) ... ... ∂ ∂yj1 Ψ(γM0 + yTj γM) · · · ∂ ∂yjd Ψ(γM0 + yTj γM) ⎞⎟⎠ . Calculamos, fijado j = 1, . . . ,m, y para todo k = 1, . . . ,M y s = 1, . . . , d, ∂ ∂yjs Ψ(γk0 + yTj γk) = ∂ ∂yjs ⎡⎣ exp n γk0 + Pd l=1 yjlγkl o 1 + exp n γk0 + Pd l=1 yjlγkl o ⎤⎦ = exp n γk0 + Pd l=1 yjlγkl o γks³ 1 + exp n γk0 + Pd l=1 yjlγkl o´2 = Ψ(γk0 + Pd l=1 yjlγkl)γks³ 1 + exp n γk0 + Pd l=1 yjlγkl o´ = Ψ(γk0 + yTj γk)γks¡ 1 + exp © γk0 + yTj γk ª¢ . 130 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Por lo tanto, ∂ ∂yj ¡ Ψ(γ0 + yTj γ) ¢ = ⎛⎜⎜⎜⎝ Ψ(γ10+y T j γ1) (1+exp{γ10+yTj γ1})γ T 1 ... Ψ(γM0+y T j γM ) (1+exp{γM0+y T j γM})γ T M ⎞⎟⎟⎟⎠ M×d = ⎛⎜⎜⎜⎝ Ψ(γ10+y T j γ1) (1+exp{γ10+yTj γ1}) · · · 0 ... ... 0 · · · Ψ(γM0+y T j γM ) (1+exp{γM0+y T j γM}) ⎞⎟⎟⎟⎠ ⎛⎜⎝ γT1 ... γTM ⎞⎟⎠ . Entonces, denotando por γ = ⎛⎜⎝ γT1 ... γTM ⎞⎟⎠ = ⎛⎜⎝ γ11 · · · γ1d ... ... γM1 · · · γMd ⎞⎟⎠ , (4.4) la expresión del jacobiano será |Jj| = |Bγ| MQ k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢ , donde |Bγ| es el valor absoluto del determinante de la matriz Bγ de dimensión d× d. Con este desarrollo hemos calculado las expresiones de las funciones de densidad de los puntos de las dos configuraciones en las que nos apoyaremos para calcular la verosimilitud de los datos y que son: f(xi) = f1(xi − μξ1i), i = 1, . . . , n f(yj) = f2(β0 +BΨ(γ0 + yTj γ)− μξ2j) |Bγ| MQ k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢ , para j = 1, . . . ,m. (4.5) A partir de (4.5), se va diferenciando si los puntos están o no emparejados para calcular la aportación de cada subgrupo de puntos a la verosimilitud total. Al mismo tiempo, se considera la región V ⊂ Rd suficientemente grande con respecto al soporte de f1 y f2 para aproximar V por Rd, simplificándose así las expresiones. 131 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Aportación a la verosimilitud de los puntos no emparejados de x De la misma manera que en el caso lineal (sección 3.5.1) se obtiene que para todo xi, punto no emparejado de x, f(xi) = 1 v Z V f1(xi − μ)dμ, por lo que la contribución conjunta de todos ellos seráµ 1 v ¶n−L Q {i:Mij=0 ∀j} Z V f1(xi − μ)dμ. Esta expresión puede aproximarse, sustituyendo V por Rd, aµ 1 v ¶n−L . (4.6) Aportación a la verosimilitud de los puntos no emparejados de y Análogamente, y para todo yj punto no emparejado de y, nos basamos en la expresión (4.5). Así, f(yj) = 1 v Z V f(yj | μ)dμ = 1 v |Bγ| Z V f2(β0 +BΨ(γ0 + yTj γ)− μ)dμ MQ k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢ , por lo que la contribución conjunta de todos ellos se puede expresar comoµ 1 v ¶m−L |Bγ|m−L Q {j:Mij=0 ∀i} ∙Z V f2(β0 +BΨ(γ0 + yTj γ)− μ)dμ · MQ k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢# . De nuevo, esta expresión queda simplificada con la aproximación de V por Rd ya que R Rd f2(β0 +BΨ(γ0 + yTj γ)− μ)dμ = 1. 132 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Así, la aportación aproximada a la verosimilitud de los puntos no emparejados de y, tiene la forma,µ 1 v ¶m−L |Bγ|m−L Q {j:Mij=0 ∀i} MQ k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢ . (4.7) Aportación a la verosimilitud de los puntos (xi, yj) emparejados Por último, nos centramos en aquellos puntos xi e yj tales que Mij = 1. De la misma manera que en 3.5.1 procedemos al cálculo de la expresión de f(xi, yj) con Mij = 1, basándonos de nuevo en las expresiones de (4.5). Así, f(xi, yj) = 1 v Z V f(xi, yj)dμ = 1 v Z V f(xi)f(yj)dμ = 1 v |Bγ| Z V f1(xi − μ)f2(β0 +BΨ(γ0 + yTj γ)− μ)dμ · MQ k=1 Ψ(γk0 + yTi γk) (1 + exp {γk0 + yTi γk}) , por lo que la contribución conjunta de todos ellos se puede expresar comoµ 1 v |Bγ| ¶L Q {(i,j):Mij=1} ∙Z V f1(xi − μ)f2(β0 +BΨ(γ0 + yTj γ)− μ)dμ · MQ k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢# . De nuevo, construimos su expresión aproximada. Utilizando que la función de densidad de la variable Z = εi − j , donde εi ∼ f1 y j ∼ f2, viene dada en (3.13) por la expresión gi.j(z) = g(z) = R Rd f1(w)f2(w − z)dw, e identificando en nuestro caso xi − μ = w y β0 +BΨ(γ0 + yTj γ)− μ = w − z, se tiene queZ Rd f1(xi − μ)f2(β0 +BΨ(γ0 + yTj γ)− μ)dμ = g(xi − β0 −BΨ(γ0 + yTj γ)). Por tanto, la aportación aproximada a la verosimilitud de los puntos emparejados 133 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES toma la expresión, µ 1 v |Bγ| ¶L Y {(i,j):Mij=1} " g(xi − β0 −BΨ(γ0 + yTj γ)) MY k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢# . (4.8) En conclusión, el producto de (4.6), (4.7) y (4.8) da lugar a la expresión aproxi- mada de la verosimilitud de los datos p(x,y | M,β0, B, γ0,γ) ≈ µ 1 v ¶n+m−L |Bγ|m · Y {j:Mij=0 ∀i} MY k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢ · (4.9) Y {(i,j):Mij=1} " g(xi − β0 −BΨ(γ0 + yTj γ)) MY k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢# , donde g(z) es la densidad de la diferencia de los errores εi − j. Verosimilitud suponiendo errores normales Si se asume que los errores se distribuyen como una normal, (4.1) se expresa como: xi = μξ1i + εi i = 1, . . . , n εi ∼ Nd(0, σ 2Id) β0 +BΨ(γ0 + yTj γ) = μξ2j + j j = 1, . . . ,m j ∼ Nd(0, σ 2Id). Para calcular qué expresión tiene la verosimlitud (4.9) bajo esta hipótesis, uti- lizamos el resultado (i) de la Proposición 5, donde se demuestra que g(z) = µ 1 σ √ 2 ¶d ϕd( z σ √ 2 ), 134 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES siendo ϕd(.) la función de densidad de la distribución Nd(0, Id). Entonces, p(x,y | M, β0, B, γ0,γ,σ 2) ≈ µ 1 v ¶n+m−L |Bγ|m · Y {j:Mij=0 ∀i} MY k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢ · Y {(i,j):Mij=1} "µ 1 σ √ 2 ¶d ϕd( xi − β0 −BΨ(γ0 + yTj γ) σ √ 2 )· MY k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢# . (4.10) Desarrollamos la expresión de ϕd( xi−β0−BΨ(γ0+yTj γ) σ √ 2 ) para sustituirla en (4.10). ϕd( xi − β0 −BΨ(γ0 + yTj γ) σ √ 2 ) = = 1¡√ 2π ¢d exp{−12 °°°°°xi − β0 −BΨ(γ0 + yTj γ) σ √ 2 °°°°° 2 } = 1¡√ 2π ¢d exp{− 1 4σ2 °°xi − β0 −BΨ(γ0 + yTj γ) °°2} = 1¡√ 2π ¢d exp{ 14σ2 dX l=1 µ xil − βl0 − MP k=1 βlkΨ(γk0 + yTj γk) ¶2 }. Por lo tanto, la verosimilitud aproximada de los datos suponiendo que los errores se distribuyen según una normal es, p(x,y | M, β0, B, γ0,γ,σ 2) ≈ µ 1 v ¶n+m−L |Bγ|m · µ 1 σ √ 2 ¶dL 1¡√ 2π ¢Ld Y {j:Mij=0 ∀i} MY k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢ · Y {(i,j):Mij=1} " exp ( − 1 4σ2 dX l=1 µ xil − βl0 − MP k=1 βlkΨ(γk0 + yTj γk) ¶2) · MY k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢# . (4.11) 135 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES 4.2.3. Inferencia bayesiana en el caso de configuraciones eti- quetadas Una vez que hemos desarrollado los resultados en la situación general con empare- jamientos desconocidos entre las configuraciones, vamos a realizar inferencias sobre los parámetros suponiendo que las dos configuraciones tienen el mismo número de puntos (n), y que además se sabe que están todos emparejados, es decir, L = n. Sin pérdida de generalidad, supongamos que ∀i = 1, . . . , n los puntos xi e yi forman los n emparejamientos, es decir, ξ1i = ξ2i. Así, Mjk = ½ 1 j = k 0 resto . Bajo estas hipótesis el problema se centra en la estimación de los parámetros que definen la red neuronal, además de la varianza. Siguiendo bajo la hipótesis de normalidad y prescindiendo de las constantes, (4.11) particularizada en configuraciones etiquetadas, tiene la forma p(x,y | β0, B, γ0,γ,σ2) ∝ |Bγ|n µ 1 σ ¶dn · nY i=1 " exp ( − 1 4σ2 dX l=1 µ xil − βl0 − MP k=1 βlkΨ(γk0 + yTi γk) ¶2) · MY k=1 Ψ(γk0 + yTi γk) (1 + exp {γk0 + yTi γk}) # ∝ |Bγ|n µ 1 σ ¶dn exp ( − 1 4σ2 nX i=1 dX l=1 µ xil − βl0 − MP k=1 βlkΨ(γk0 + yTi γk) ¶2) · nY i=1 MY k=1 Ψ(γk0 + yTi γk) (1 + exp {γk0 + yTi γk}) . Si nos centramos en R2, la verosimilitud en el caso de dos configuraciones eti- 136 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES quetadas de n puntos, con todos ellos emparejados, puede reescribirse como p(x,y | β0, B, γ0,γ,σ 2) ∝ |Bγ|n µ 1 σ ¶2n · exp ( − 1 4σ2 " nX i=1 µ xi1 − β10 − MP k=1 β1kΨ(γk0 + yTi γk) ¶2 + nX i=1 µ xi2 − β20 − MP k=1 β2kΨ(γk0 + yTi γk) ¶2#) · nY i=1 MY k=1 Ψ(γk0 + yTi γk) (1 + exp {γk0 + yTi γk}) . (4.12) A continuación se realizan inferencias sobre los parámetros del modelo, calculan- do las expresiones de las distribuciones a posteriori. Pero antes, dado que la verosi- militud depende de |Bγ|, va a ser necesario desarrollar este determinante en función de los distintos parámetros para luego encontrar la expresión de las distribuciones a posteriori. Bγ = µ β11 · · · β1M β21 · · · β2M ¶⎛⎜⎝ γ11 γ12 ... ... γM1 γM2 ⎞⎟⎠ = ⎛⎜⎜⎝ MP k=1 β1kγk1 MP k=1 β1kγk2 MP k=1 β2kγk1 MP k=1 β2kγk2 ⎞⎟⎟⎠ = µ βT1 γ·1 βT1 γ·2 βT2 γ·1 βT2 γ·2 ¶ , donde βTr = (βr1, . . . , βrM) y γ·r = (γ1r, . . . , γMr) T con r = 1, 2. Por lo tanto, |Bγ| = ¯̄ βT1 γ·1β T 2 γ·2 − βT2 γ·1β T 1 γ·2 ¯̄ , (4.13) expresión que se desarrollará en términos de aquel parámetro del que estemos ha- ciendo inferencias. 137 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Distribución a posteriori de la varianza σ2 De nuevo, asumimos como distribución a priori de la varianza σ2 una gamma inversa σ−2 ∼ G(α, β), α, β > 0, cuya función de densidad es, p(σ2) = βα Γ(α) (σ2)−(α+1) exp{−β/σ2}. Entonces a partir de (4.12), e incluyendo en la constante de proporcionalidad todo aquello que no depende de σ2, la distribución a posteriori tendrá la forma: p(σ2 | x,y, β0, B, γ0,γ) ∝ (σ2)−(α+1)−n exp{−β/σ2} · exp ( − 1 4σ2 " nX i=1 µ xi1 − β10 − MP k=1 β1kΨ(γk0 + yTi γ) ¶2 + nX i=1 µ xi2 − β20 − MP k=1 β2kΨ(γk0 + yTi γ) ¶2#) . Entonces, llamando A = 1 4 nX i=1 ⎛⎝"xi1 − β10 − MX k=1 β1kΨ(γk0 + yTi γk) #2 + " xi2 − β20 − MX k=1 β2kΨ(γk0 + yTi γk) #2⎞⎠ , se llega a que la distribución a posteriori es σ−2 ∼ G(α+n, β+A), ya que su función de densidad tiene la forma p(σ2 | x,y, β0, B, γ0,γ) ∝ (σ2)−(α+1)−n exp{− 1 σ2 (β +A)}. Distribución a posteriori de βr0, r = 1, 2. Asumimos que la distribución a priori para βr0 ∼ N(μβr0, σ 2 βr0 ). Con el objetivo de clarificar los cálculos, nos centramos en β10. 138 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Basándonos de nuevo en la verosimilitud (4.12), la distribución a posteriori de β10 tendrá la forma, p(β10 | x,y, β20, B, γ0,γ, σ2) ∝ exp ( − 1 2σ2β10 (β210 − 2μβ10β10) ) · exp ( − 1 4σ2 nX i=1 (xi1 − β10 − MX k=1 β1kΨ(γk0 + yTi γk)) 2 ) . (4.14) Identificando en la expresión lo que es independiente de β10, para todo i = 1, . . . , n se define Ri10 = xi1 − MX k=1 β1kΨ(γk0 + yTi γk), (4.15) por lo que (4.14) se puede escribir de la forma p(β10 | x,y, β20, B, γ0,γ, σ2) ∝ exp ( − 1 2σ2β10 (β210 − 2μβ10β10)− 1 4σ2 nX i=1 (Ri10 − β10) 2 ) . Desarrollando el cuadrado e incluyendo en la constante de proporcionalidad aque- llo que no depende de β10, se llega a que p(β10 | x,y, β20, B, γ0,γ, σ2) ∝ exp ( − 1 2σ2β10 (β210 − 2μβ10β10) − 1 4σ2 (nβ210 − 2β10 nX i=1 Ri10) ) = exp ⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩− 1 2 ⎡⎢⎢⎢⎢⎣β210( 1σ2β10 + n 2σ2 )− β10( 2μβ10 σ2β10 + nX i=1 Ri10 σ2 ) ⎤⎥⎥⎥⎥⎦ ⎫⎪⎪⎪⎪⎬⎪⎪⎪⎪⎭ = exp ½ −1 2 £ β210C10 − β10D10 ¤¾ , donde C10 y D10 son las expresiones independientes de β10, C10 = 1 σ2β10 + n 2σ2 D10 = 2μβ10 σ2β10 + nX i=1 Ri10 σ2 . (4.16) 139 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Completando cuadrados, se llega a que la expresión de la distribución a posteriori de β10 tiene la forma p(β10 | x,y, β20, B, γ0,γ, σ2) ∝ exp ( − 1 2C−110 µ β10 − D10 2C10 ¶2) , que identifica a la distribución normal β10 | x,y, β20, B, γ0,γ, σ2 ∼ N( D10 2C10 , C−110 ), donde C10 y D10 vienen definidas en (4.16). Un resultado totalmente análogo se obtiene para β20 por lo que, para r = 1, 2, y denotando por β0(r) el vector β0 sin la coordenada r, la distribución a posteriori de βr0 es βr0 | x,y, β0(r), B, γ0,γ, σ2 ∼ N( Dr0 2Cr0 , C−1r0 ), donde Cr0 = 1 σ2βr0 + n 2σ2 , Dr0 = 2μβr0 σ2βr0 + nX i=1 Rir0 σ2 , siendo para todo i = 1, . . . , n, Rir0 = xir − MX k=1 βjkΨ(γk0 + yTi γk). Distribución a posteriori de βrs r = 1, 2, s = 1, . . . ,M Los parámetros βrs representan los coeficientes de las combinaciones lineales de las funciones logísticas para cada una de las dos coordenadas. No habiendo inicial- mente ninguna restricción sobre ellos, asumimos que a priori siguen una distribución 140 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES N(μβrs, σ 2 βrs ). Denotamos por B(rs) la matriz B, que recoge todos los parámetros be- tas, menos el βrs. Así, p(βrs | x,y, β0, B(rs), γ0,γ,σ2) ∝ |Bγ|n exp{− 1 2σ2βrs (β2rs − 2μβrsβrs)} · exp ( − 1 4σ2 " nX i=1 µ xi1 − β10 − MP k=1 β1kΨ(γk0 + yTi γ) ¶2 + nX i=1 µ xi2 − β20 − MP k=1 β2kΨ(γk0 + yTi γ) ¶2#) . De nuevo y sin pérdida de generalidad, nos centramos en el caso r = 1. Identifi- cando con Ri1s al sumando i de la exponencial que es independiente de β1s, Ri1s = xi1 − β10 − MX k=1 k 6=s β1kΨ(γk0 + yTi γk), la distribución a posteriori de β1s se podrá expresar como, p(β1s | x,y, β0, B(1s), γ0,γ,σ2) ∝ |Bγ|n · exp ( − 1 2σ2β1s (β21s − 2μβ1sβ1s)− 1 4σ2 nX i=1 (Ri1s − β1sΨ(γs0 + yTi γs)) 2 ) . En primer lugar, desarrollamos el determinante |Bγ| para ver cómo se puede expre- sar en términos de β1s. Operando sobre (4.13), |Bγ| = ¯̄ βT1 γ·1β T 2 γ·2 − βT2 γ·1β T 1 γ·2 ¯̄ = ¯̄ γT·2β2γ T ·1β1 − βT2 γ·1γ T ·2β1 ¯̄ = ¯̄ (γT·2β2γ T ·1 − βT2 γ·1γ T ·2)β1 ¯̄ . Denotamos por QT 1 = γT·2β2γ T ·1 − βT2 γ·1γ T ·2 que es un vector M-dimensional. En- tonces, |Bγ| = ¯̄̄̄ MP k=1 Q1kβ1k ¯̄̄̄ = ¯̄̄̄ ¯Q1sβ1s + MP k=1 k 6=s Q1kβ1k ¯̄̄̄ ¯ = |Q1sβ1s + k1s| , (4.17) 141 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES donde k1s recoge la expresión que queda independiente de β1s. En segundo lugar, se desarrolla el cuadrado del exponente y se completa cuadra- dos, de la misma manera que se hacía para el parámetro βr0. De esta manera, se llega a que p(β1s | x,y, β0, B(1s), γ0,γ,σ2) ∝ |Q1sβ1s + k1s|n exp{− 1 2C−11s (β1s − D1s 2C1s )2}, donde C1s = nX i=1 Ψ2(γs0 + yTi γs) 2σ2 + 1 σ2β1s , D1s = nX i=1 Ri1sΨ(γs0 + xTi γs) σ2 + 2μβ1s σ2β1s , y para todo i = 1, . . . , n, Ri1s = xi1 − β10 − MX k=1 k 6=s β1kΨ(γk0 + yTi γk). Un resultado totalmente análogo se obtiene para β2s cambiando únicamente la expresión (4.17) de |Bγ| como función de β2s. Así, |Bγ| = ¯̄̄̄ MP k=1 Q2kβ1k ¯̄̄̄ = ¯̄̄̄ ¯Q2sβ2s + MP k=1 k 6=s Q2kβ2k ¯̄̄̄ ¯ = |Q2sβ2s + k2s| , donde, en este caso, QT 2 = βT1 γ·1γ T ·2 − γT·2β1γ T ·1. En conclusión, la distribución a posteriori para βrs, r = 1, 2 s = 1, . . . ,M es p(βrs | x,y, β0, B(rs), γ0,γ,σ2) ∝ |Qrsβrs + krs|n exp{− Crs 2 (βrs − Drs 2Crs )2}, 142 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES donde QT 1 = γT·2β2γ T ·1 − βT2 γ·1γ T ·2 QT 2 = βT1 γ·1γ T ·2 − γT·2β1γ T ·1 krs = MX k=1 k 6=s Qrkβrk, Crs = nX i=1 Ψ2(γs0 + yTi γs) 2σ2 + 1 σ2βrs , Drs = nX i=1 RirsΨ(γs0 + yTi γs) σ2 + 2μβrs σ2βrs , y y para todo i = 1, . . . , n, Rirs = xir − βr0 − MX k=1 k 6=s βrsΨ(γk0 + yTi γk). (4.18) Distribución a posteriori de γr0, r = 1, . . . ,M Para los parámetros γr0 también asumimos distribuciones normales a priori, es decir, γr0 ∼ N(μγr0 , σ 2 γr0 ). Entonces basándonos en la verosimilitud (4.12), y deno- tando por γ0(r) el vector γ0 sin la coordenada r, p(γr0 | x,y, β0, B,γ,γ0(r), σ2) ∝ exp ( − 1 2σ2γr0 (γ2r0 − 2μγr0γr0) ) · exp ( − 1 4σ2 " nX i=1 µ xi1 − β10 − MP k=1 β1kΨ(γk0 + yTi γk) ¶2 + nX i=1 µ xi2 − β20 − MP k=1 β2kΨ(γk0 + yTi γk) ¶2#) · nY i=1 MY k=1 Ψ(γk0 + yTi γk) (1 + exp {γk0 + yTi γk}) . (4.19) 143 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES La forma de operar sobre ella, para simplificarla y expresarla como función de γr0, no es única. En este caso, se ha procedido a buscar una función en términos de una exponencial, por lo que comenzamos operando sobre el último factor. nY i=1 MY k=1 Ψ(γk0 + yTi γk) (1 + exp {γk0 + yTi γk}) = = nQ i=1 MQ k=1 © exp © γk0 + yTi γk ª / ¡ 1 + exp © γk0 + yTi γk ª¢ª nQ i=1 MQ k=1 (1 + exp {γk0 + yTi γk}) = exp ½ nP i=1 MP k=1 ¡ γk0 + yTi γk ¢¾ exp ½ Ln µ nQ i=1 MQ k=1 (1 + exp {γk0 + yTi γk}) 2 ¶¾ = exp ( nX i=1 MX k=1 ¡ γk0 + yTi γk ¢ − 2 nX i=1 MX k=1 Ln(1 + exp © γk0 + yTi γk ª ) ) .(4.20) Entonces, identificando aquellos términos que no dependen de γr0 y operando en (4.19), p(γr0 | x,y, β0, B,γ,γ0(r), σ2) ∝ exp ( − 1 2σ2γr0 (γ2r0 − 2μγr0γr0) ) · exp ⎧⎨⎩− 1 4σ2 ⎡⎣ nX i=1 ⎛⎝xi1 − β10 − β1rΨ(γr0 + yTi γr)− MP k=1 k 6=r β1kΨ(γk0 + yTi γk) ⎞⎠2 + nX i=1 ⎛⎝xi2 − β20 − β2rΨ(γr0 + yTi γr)− MP k=1 k 6=r β2kΨ(γk0 + yTi γk) ⎞⎠2⎤⎦⎫⎬⎭ · exp ⎧⎨⎩nγr0 + nP i=1 yTi γr + nP i=1 MP k=1 k 6=r ¡ γk0 + yTi γk ¢ −2 nP i=1 Ln(1 + exp © γr0 + yTi γr ª )− 2 nP i=1 MP k=1 k 6=r Ln(1 + exp © γk0 + yTi γk ª ) ⎫⎬⎭ . De nuevo, recurriendo a las definiciones de Rirs dadas en (4.18), desarrollando los cuadrados e introduciendo en la constante de proporcionalidad los términos que 144 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES no dependen de γr0, p(γr0 | x,y, β0, B,γ,σ2) ∝ exp ( − 1 2σ2γr0 (γ2r0 − 2μγr0γr0) ) · exp ( − 1 4σ2 " β21r nX i=1 Ψ2(γr0 + yTi γr)− 2β1r nX i=1 Ri1rΨ(γr0 + yTi γr) + β22r nX i=1 Ψ2(γr0 + yTi γr)− 2β2r nX i=1 Ri2rΨ(γr0 + yTi γr) #) · exp à nγr0 − 2 nX i=1 Ln(1 + exp © γr0 + yTi γr ª! ∝ exp ( − 1 2σ2γr0 (γ2r0 − 2μγr0γr0) − 1 4σ2 " (β21r + β22r) nX i=1 Ψ2(γr0 + yTi γr)− 2β1r nX i=1 Ri1rΨ(γr0 + yTi γr) −2β2r nX i=1 Ri2rΨ(γr0 + yTi γr) # + nγr0 − 2 nX i=1 Ln(1 + exp © γr0 + yTi γr ª) . Por lo tanto la expresión de la distribución a posteriori de γr0 r = 1, 2 es p(γr0 | x,y, β0, B,γ,γ0(r), σ2) ∝ exp ( − 1 2σ2γr0 (γ2r0 − 2μγr0γr0) − 1 4σ2 " 2X s=1 nX i=1 β2srΨ 2(γr0 + yTi γr)− 2 2X s=1 nX i=1 βsrRisrΨ(γr0 + yTi γr) # +nγr0 − 2 nX i=1 Ln(1 + exp © γr0 + yTi γr ª) , donde para todo i = 1, . . . , n y s, r = 1, 2 Risr tiene la expresión dada en (4.18). Distribución a posteriori de γrs r = 1, . . . ,M y s = 1, 2 Para los parámetros gamma, también se van a suponer distribuciones a priori normales, es decir γrs ∼ N(μγrs , σ 2 γrs ). Recordamos que estos parámetros son los que forman parte de las funciones logísticas en el modelo. 145 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Volvemos a utilizar la notación γ(rs) representando a la matriz γ definida en (4.4) salvo el parámetro γrs. Entonces, utilizando la verosimilitud (4.12), la distribución a posteriori tendrá la forma, p(γrs | x,y, β0, B, γ0,γ(rs),σ2) ∝ |Bγ|n exp ( − 1 2σ2γrs (γ2rs − 2μγrsγrs) ) · exp ⎧⎪⎨⎪⎩− 1 4σ2 ⎡⎢⎣ nX i=1 (xi1 − β10 − MX k=1 k 6=r β1kΨ(γk0 + yTi γk)− β1rΨ(γr0 + yTi γr)) 2 + nX i=1 (xi2 − β20 − MX k=1 k 6=r β2kΨ(γk0 + yTi γk)− β2rΨ(γr0 + yTi γr)) 2 ⎤⎥⎦ ⎫⎪⎬⎪⎭ · exp ( nX i=1 MX k=1 ¡ γk0 + yTi γk ¢ − 2 nX i=1 MX k=1 Ln(1 + exp © γk0 + yTi γk ª ) ) ∝ |Bγ|n exp ( − 1 2σ2γrs (γ2rs − 2μγrsγrs) ) · exp ( − 1 4σ2 " nX i=1 (Ri1r − β1rΨ(γr0 + yTi γr)) 2 + nX i=1 (Ri2r − β2rΨ(γr0 + yTi γr)) 2 #) · exp ( nX i=1 MX k=1 ¡ γk0 + yTi γk ¢ − 2 nX i=1 MX k=1 Ln(1 + exp © γk0 + yTi γk ª ) ) , (4.21) donde Rirs vienen definidos en (4.18). Como en (4.17), desarrollamos el determinante |Bγ| a partir de (4.13) para expresarlo en términos de γrs. A esta expresión la denotamos con hrs. Nos centramos primero en el caso s = 1, es decir, en el parámetro γr1. Como βT1 γ·1 = γT·1β1 y β T 2 γ·1 = γT·1β2, hr1 = |Bγ| = ¯̄ γT·1β1β T 2 γ·2 − γT·1β2β T 1 γ·2 ¯̄ = ¯̄ γT·1(β1β T 2 γ·2 − β2β T 1 γ·2) ¯̄ = ¯̄̄̄ ¯ à γr1β1r + MP k=1 k 6=r γk1β1k ! βT2 γ·2 − à γr1β2r + MP k=1 k 6=r γk1β2k ! βT1 γ·2 ¯̄̄̄ ¯ = ¯̄ γr1β1rβ T 2 γ·2 − γr1β2rβ T 1 γ·2 + kkr1 ¯̄ , (4.22) 146 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES donde kkr1 = MP k=1 k 6=r γk1β1kβ T 2 γ·2 − MP k=1 k 6=r γk1β2kβ T 1 γ·2, es el término que no depende de γr1. Análogamente, en el caso de γr2, se llega a que hr2 = |Bγ| = ¯̄ γr2β2rβ T 1 γ·1 − γr2β1rβ T 2 γ·1 + kkr2 ¯̄ , (4.23) con kkr2 = MP k=1 k 6=r γk2β2kβ T 1 γ·1 − MP k=1 k 6=r γk2β1kβ T 2 γ·1. Por otra parte, desarrollando cada una de las sumas de cuadrados de la expo- nencial en (4.21) y realizando operaciones de la misma manera que en el cálculo de la distribución a posteriori de γr0, se tiene que la expresión de la distribución a posteriori de γrs con r = 1, . . . ,M y s = 1, 2 es, p(γrs | x,y, β0, B, γ0,γ(rs),σ2) ∝ |hrs|n exp ( − 1 4σ2 2X s=1 nX i=1 β2srΨ 2(γr0 + yTi γr) + 1 2σ2 2X s=1 nX i=1 βsrRisrΨ(γr0 + yTi γr) + γrs nP i=1 yis −2 nX i=1 Ln(1 + exp © γr0 + yTi γr ª − 1 2σ2γrs (γ2rs − 2μγrsγrs) ) , donde hrs viene definido en (4.22) y en (4.23), y Risr en (4.18), i = 1, . . . , n. 4.3. El modelo con M = 1 nodo, en el caso de R2 El modelo (4.1) con M = 1, y considerando las configuraciones representadas en dos dimensiones, tiene la expresión, xi = μξ1i + εi i = 1, . . . , n εi ∼ f1 ∈ R2⎛⎝ β10 + β1Ψ(γ0 + yTj γ) β20 + β2Ψ(γ0 + yTj γ) ⎞⎠ = μξ2j + j i = 1, . . . ,m j ∼ f2 ∈ R2, 147 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES con εi y j i = 1, . . . n, j = 1, . . . ,m independientes, y donde Ψ(γ0 + yjγ) = 1 exp{−(γ0 + γ1yj1 + γ2yj2)} . El problema que plantea este modelo es que la función no lineal φ : R2 −→ R2, φ(yj) = ⎛⎝ β10 + β1Ψ(γ0 + yTj γ) β20 + β2Ψ(γ0 + yTj γ) ⎞⎠ no es inyectiva, ya que existen yj 6= yk tales que φ(yj) = φ(yk) y, por lo tanto, no define una transformación invertible. Siguiendo la notación matricial utilizada en (4.1), el modelo se puede expresar, xi = μξ1i + εi i = 1, . . . , n εi ∼ f1 ∈ R2 β0 +BΨ(γ0 + yTj γ) = μξ2j + j j = 1, . . . ,m j ∼ f2 ∈ R2, donde β0 = µ β10 β20 ¶ B = µ β1 β2 ¶ . Al calcular la función de densidad de los puntos yj, j = 1, . . . ,m, se llega a que el jacobiano es igual a cero, por lo que no es posible calcular la verosimilitud de los puntos yj. |Jj| = ¯̄̄̄ ∂ ∂yj ³ β0 +BΨ(γ0 + yTj γ)− μξ2j ´¯̄̄̄ = ¯̄̄̄ B ∂ ∂yj ¡ Ψ(γ0 + yTj γ) ¢¯̄̄̄ = ¯̄̄̄µ β1 β2 ¶µ ∂ ∂yj1 Ψ(γ0 + yTj γ), ∂ ∂yj2 Ψ(γ0 + yTj γ) ¶¯̄̄̄ = ¯̄̄̄ β1γ1Cj β1γ2Cj β2γ1Cj β2γ2Cj ¯̄̄̄ = C2 j (β1γ1β2γ2 − β2γ1β1γ2) = 0, con Cj = Ψ(γ0 + yTj γ) exp(γ0 + yTj γ) . Una alternativa que garantiza que la función no lineal sea biyectiva, es asumir que las combinaciones lineales que definen las funciones logísticas son distintas para 148 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES las dos coordenadas, viniendo definidas por los vectores γ0 = (γ10, γ20) T , γ1 = (γ11, γ12) T y γ2 = (γ21, γ22) T . Así, un modelo alternativo es: xi = μξ1i + εi i = 1, . . . , n εi ∼ f1 ∈ R2⎛⎝ β10 + β1Ψ(γ10 + yTj γ1) β20 + β2Ψ(γ20 + yTj γ2) ⎞⎠ = μξ2j + j j = 1, . . . ,m j ∼ f2 ∈ R2. Matricialmente, xi = μξ1i + εi i = 1, . . . , n εi ∼ f1 ∈ R2 β0 +BΨ(γ0 + yTj γ) = μξ2j + j j = 1, . . . ,m j ∼ f2 ∈ R2, donde β0 = µ β10 β20 ¶ , B = µ β1 0 0 β2 ¶ y Ψ(γ0 + yTj γ) = ⎛⎝ Ψ(γ10 + yTj γ1) Ψ(γ20 + yTj γ2) ⎞⎠ . Análogamente a como se procedió en la sección 4.2.2, se llega a que la función de densidad de cada punto toma la expresión f(xi) = f1(xi − μξ1i) i = 1, . . . , n f(yj) = f2(β0 +BΨ(γ0 + yTj γ)− μξ2j) |Jj| = f2(β0 +BΨ(γ0 + yTj γ)− μξ2j) |γ| 2Y l=1 βl Ψ(γl0 + yTj γl) 1 + exp(γl0 + yTj γl) j = 1, . . . ,m, (4.24) donde γ = µ γT1 γT2 ¶ = µ γ11 γ12 γ21 γ22 ¶ (4.25) y Jj = ∂ ∂yj ³ β0 +BΨ(γ0 + yTj γ)− μξ2j ´ = B ∂ ∂yj ¡ Ψ(γ0 + yTj γ) ¢ = B ⎛⎝ Ψ(γ10+y T j γ1) 1+exp(γ10+y T j γ1) 0 0 Ψ(γ20+y T j γ2) 1+exp(γ20+y T j γ2) ⎞⎠γ. 149 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES La verosimilitud de los datos se calcula de la misma forma que en 4.2.2, y a partir de (4.24). Se va diferenciando si los puntos están o no emparejados para calcular la aportación de cada subgrupo de puntos a la verosimilitud total. Así, se calculan las expresiones aproximadas de estas aportaciones, considerando la región V ⊂ Rd suficientemente grande con respecto al soporte de f1 y f2. Asumiendo que los errores siguen una distribución normal y operando como en la sección 4.2.2, la expresión de la verosimilitud de los datos tiene la expresión, p(x,y |M, β0, B, γ0,γ,σ 2) ≈ |γ|m 2Y l=1 βml µ 1 σ √ 2 ¶2L 1¡√ 2π ¢L Y {j:Mij=0 ∀i} 2Y k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢ · Y {(i,j):Mij=1} " exp ( − 1 4σ2 2X l=1 ¡ xil − βl0 − βlΨ(γl0 + yTj γl) ¢2) · 2Y k=1 Ψ(γk0 + yTj γk)¡ 1 + exp © γk0 + yTj γk ª¢# , (4.26) donde L es el número de emparejamientos entre ambas configuraciones yMij repre- senta la matriz de emparejamientos definida en (4.3). 4.3.1. Inferencia bayesiana en el caso de configuraciones eti- quetadas Para realizar inferencias sobre los parámetros, nos centramos en el caso en el que las dos configuraciones tienen el mismo número de puntos (n) y que están emparejados, es decir, L = n y, por tanto, se trata de configuraciones etiquetadas. Sin pérdida de generalidad, supongamos que ∀i = 1, . . . , n los puntos xi e yi forman los n emparejamientos, es decir, ξ1i = ξ2i. Así, Mjk = ½ 1 j = k 0 resto . 150 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES A partir de (4.26), prescindiendo de las constantes, la verosimilitud de los datos en el caso de M = 1, con errores normales y configuraciones etiquetadas, tiene la expresión, p(x,y | β0, B, γ0,γ,σ2) ≈ |γ|n βn1βn2 µ 1 σ2 ¶n exp ( − 1 4σ2 nX i=1 h¡ xi1 − β10 − β1Ψ(γ10 + yTi γ1) ¢2 + ¡ xi2 − β20 − β2Ψ(γ20 + yTi γ2) ¢2io nY i=1 Ψ(γ10 + yTi γ1) (1 + exp {γ10 + yTi γ1}) Ψ(γ20 + yTi γ2) (1 + exp {γ20 + yTi γ2}) . (4.27) A partir de esta verosimilitud y asumiendo distintas distribuciones a priori, se procede al cálculo de las distribuciones a posteriori de los parámetros, cuyas demostraciones no se presentan por ser análogas a las realizadas en la sección 4.2.3. Distribución a posteriori de σ2 Asumimos como distribución a priori de la varianza σ2 una gamma inversa σ−2 ∼ G(α, β), α, β > 0. Entonces utilizando (4.27), e incluyendo en la constante de proporcionalidad todo aquello que no depende de σ2, p(σ2 | x,y, β0, B, γ0,γ) ∝ (σ2)−(α+1)−n exp ( − 1 σ2 " β + 1 4 à nX i=1 (xi1 − β10 − β1Ψ(γ10 + yTi γ1)) 2 + nX i=1 (xi2 − β20 − β2Ψ(γ20 + yTi γ2)) 2 !#) , por lo que se llega a que la distribución a posteriori es σ−2 ∼ G(α+n, β+A), donde A = 1 4 ( nX i=1 ¡ xi1 − β10 − β1Ψ(γ10 + yTi γ1) 2 ¢ + nX i=1 ¡ xi2 − β20 − β2Ψ(γ20 + yTi γ2) ¢2) . 151 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Distribución a posteriori de β10 y β20 Asumiendo que la distribución a priori para βr0 ∼ N(μβr0, σ 2 βr0 ), r = 1, 2, se obtiene que la distribución a posteriori de βr0 es βr0 | x,y, β0(r), B, γ0,γ, σ2 ∼ N µ Dr0 2Cr0 , C−1r0 ¶ , donde Cr0 = 1 σ2βr0 + n 2σ2 , Dr0 = 2μβr0 σ2βr0 + nX i=1 Rir0 σ2 , siendo, en este caso, Rir0 = xir − βrΨ(γr0 + yTi γr) i = 1, . . . , n, expresión independiente de βr0 y denotando por β0(r) el vector β0 sin la coordenada βr0. Distribución a posteriori de β1 y β2 Asumiendo que la distribución a priori para βr ∼ N(μβr , σ 2 βr ), r = 1, 2, se obtiene que la distribución a posteriori de βr tiene la expresión p(βr | x,y, β0, B(r), γ0,γ,σ2) ∝ βnr exp ½ − 1 2C−1r (βr − Dr 2Cr )2 ¾ donde Cr = 1 σ2βr + nP i=1 Ψ2(γr0 + yTi γr) 2σ2 Dr = μβr σ2βr + nX i=1 Rir 2σ2 152 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES donde Rir = (xir − βr0)Ψ(γr0 + yTi γr) i = 1, . . . , n, y B(r) denota la matriz B sin βr. Distribución a posteriori de γ10 y γ20 Para los parámetros γr0 r = 1, 2, también asumimos distribuciones normales a priori, es decir, γr0 ∼ N(μγr0 , σ 2 γr0 ). De forma análoga a la situación de la sección 4.2.3, se llega a que la expresión de la distribución a posteriori de γr0 es p(γr0 | x,y, β0, B, γ(r)0,γ,σ2) ∝ exp ( − 1 2σ2γr0 (γ2r0 − 2μγr0γr0) − 1 4σ2 β2r nX i=1 Ψ2(γr0 + yTi γr) + 1 2σ2 βr nX i=1 Sir0Ψ(γr0 + yTi γr) +nγr0 − 2 nP i=1 Ln(1 + exp © γr0 + yTi γr ª¾ , donde para todo i = 1, . . . , n y r = 1, 2 Sir0 = xir − βr0, (4.28) y γ(r)0 representa γ10, si r = 2, y γ20, si r = 1. Distribución a posteriori de γrs, r = 1, 2 y s = 1, 2 Para los parámetros gamma, también se van a suponer distribuciones a priori normales, es decir γrs ∼ N(μγrs , σ 2 γrs ). Recordamos que corresponden a las coorde- nadas de dos vectores bidimensionales y son los coeficientes de la combinación lineal de las funciones logísticas. 153 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Basándose en la verosimilitud (4.27) la expresión de la distribución a posteriori de γrs es p(γrs | x,y, β0, B, γ0,γ(rs),σ2) ∝ |γ11γ22 − γ21γ12|n exp ( − 1 4σ2 β2r nX i=1 Ψ2(γr0 + yTi γr) + 1 2σ2 βr nX i=1 Sir0Ψ(γr0 + yTi γr) + γrs nP i=1 yis −2 nP i=1 Ln(1 + exp © γr0 + yTi γr ª )− 1 2σ2γrs (γ2rs − 2μγrsγrs), donde Sir0 viene definida en (4.28) y γ(rs) representa a la matriz γ definida en (4.25) salvo el parámetro γrs. 4.4. Emparejamiento de configuraciones etique- tadas bajo modelo de redes neuronales con una configuración fija En esta sección y siguiendo parcialmente la idea de Dryden, et al. (2007), vamos a considerar un modelo en el que, a diferencia del desarrollado en la sección 4.2, una de la dos configuraciones es considerada de referencia, (por lo tanto fija), siendo la otra una transformación no lineal de la primera en la que se le incluye también una parte lineal, más un error aleatorio. Esto permite que la transformación lineal entre configuraciones esté incluida en el modelo como un caso particular. En la figura 4.2 se representa la situación de las configuraciones en este modelo. Figura 4.2 Esquema del modelo con una configuración fija 154 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Nos centraremos en el caso de dos configuraciones etiquetadas en R2 con em- parejamientos conocidos, por lo que el problema se centra en la búsqueda de la red neuronal que mejor relaciona ambas configuraciones. En primer lugar, se plantea el modelo no lineal de redes neuronales. Después se calcula la función de verosimilitud y se obtienen las expresiones de las distribuciones a posteriori de los parámetros. 4.4.1. Modelización del problema Inicialmente se consideran las configuraciones de n puntos en Rd, x = {xi „ i = 1, . . . , n} e y = {yi „ i = 1, . . . , n}. Se supone que para todo i = 1, . . . n, los puntos (xi, yi) están emparejados y se considera la configuración x fija e y aleatoria cuya distribución depende de la primera mediante el modelo no lineal, yij = βj0 + λTj xi + MX k=1 βjkΨ(γk0 + xTi γk) + εij , (4.29) donde para todo i = 1, , . . . n, j = 1, . . . , d y k = 1, . . . ,M , los parámetros son βj0 ∈ R, λj ∈ Rd, βjk ∈ R, γk0 ∈ R y γk ∈ Rd, los errores εij siguen distribución fi y la función Ψ(z) representa la función logística. Con este modelo se expresa cada coordenada j = 1, . . . d del punto i-ésimo de la configuración y, yij, como la suma de un término lineal de xi, (con coeficientes el vector λj), y de una combinación lineal de M términos, que son funciones logísticas de combinaciones lineales de las coordenadas del punto xi, más un error aleatorio. Los coeficientes que definen esta combinación lineal de funciones logísticas se recogen en el vector βTj = (βj1, βj2, . . . , βjM). Se asume en este modelo que el número de nodos M es conocido, aunque pos- teriormente, en la aplicación con datos reales, se llevará a cabo un análisis de los modelos con distintos valores de M basado en criterios de información. 155 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES El modelo (4.29) se puede expresar matricialmente, yi = β00 + ΛxTi +BΨ(γ0 + xTi γ) + εi, donde i = 1, . . . , n, εi ∼ fi ∈ Rd independientes, y B yΨ(γ0+xTi γ) vienen definidas en (4.2) y β00 d×1 = ⎛⎜⎝ β10 ... βd0 ⎞⎟⎠ Λ d×d = ⎛⎜⎝ λT1 ... λTd ⎞⎟⎠ = ⎛⎜⎝ λ11 · · · λ1d ... ... λd1 · · · λdd ⎞⎟⎠ . Asumiendo normalidad de los errores, el modelo se puede expresar como, yi = β00 + ΛxTi +BΨ(γ0 + xTi γ) + εi i = 1, . . . , n εi ∼ Nd(0, σ 2Id). (4.30) 4.4.2. Construcción de la verosimilitud de los datos Basándonos en la normalidad de los errores se tiene que para todo i = 1, . . . , n, f(yi) = fi(yi − β00Λx T i +BΨ(γ0 + xTi γ)) = 1 ( √ 2π)d(σ2)d/2 exp{− 1 2σ2 (yi − β00Λx T i +BΨ(γ0 + xTi γ)) T (yi − β00Λx T i +BΨ(γ0 + xTi γ)}, de modo que la verosimilitud es, p(y | β00, B,Λ, γ0,γ, σ2) ∝ 1 (σ2) nd 2 exp{− 1 2σ2 nP i= dP j=1 (yij−βj0−λTj xi− MP k=1 βjkΨ(γk0+x T i γk)) 2}. En el caso particular donde d = 2 , la expresión de la función de verosimilitud toma la forma: p(y | β00, B,Λ, γ0,γ, σ2) ∝ 1 σ2n · exp ( − 1 2σ2 " nX i=1 (yi1 − β10 − λT1 xi − MX k=1 β1kΨ(γk0 + xTi γk)) 2 + nX i=1 (yi2 − β20 − λT2 xi − MX k=1 β2kΨ(γk0 + xTi γk)) 2 #) . (4.31) 156 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES 4.4.3. Expresiones de las distribuciones a posteriori de los parámetros Distribución a posteriori de σ2 Asumimos que la distribución a priori de σ2 es una gamma inversa, es decir, σ−2 ∼ G(α, β). A partir de (4.31) la distribución a posteriori de σ2 será de la forma, p(σ2 | y, β00, B,Λ, γ0,γ) = p(σ2 | y) ∝ (σ2)−(α+1) exp ½ − β σ2 ¾ · ( 1 σ2 )n exp ( − 1 2σ2 " nX i=1 (yi1 − β10 − λT1 xi − MX k=1 β1kΨ(γk0 + xTi γk)) 2 + nX i=1 (yi2 − β20 − λT2 xi − MX k=1 β2kΨ(γk0 + xTi γk)) 2 #) = (σ2)−(α+1+n) exp ½ − 1 σ2 (β +A) ¾ , donde A = 1 2 " nX i=1 (yi1 − β10 − λT1 xi − MX k=1 β1kΨ(γk0 + xTi γk)) 2 + nX i=1 (yi2 − β20 − λT2 xi − MX k=1 β2kΨ(γk0 + xTi γk)) 2 # . Por lo tanto, la distribución a posteriori de σ2 es una gamma inversa de parámetros, σ−2 | y,β00, B,Λ, γ0,γ ∼ G(α+ n, β +A) Distribución a posteriori de βr0 r = 1, 2. Asumimos que la distribución a priori para βr0 ∼ N(μβr0 , σ 2 βr0 ). Entonces, basán- donos en la función de verosimilitud (4.31) la distribución a posteriori tendrá la 157 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES forma, p(βr0 | y,β00(r), B,Λ, γ0,γ, σ2) ∝ exp ( − 1 2σ2βr0 (β2r0 − 2μβr0βr0) ) · exp ( − 1 2σ2 nX i=1 (yir − βr0 − λT1 xi − MX k=1 βrkΨ(γk0 + xTi γk)) 2 ) , (4.32) donde β00(r) denota β10 si r = 2 y β20 si r = 1. Identificando en la expresión lo que es independiente de βr0, para todo i = 1, . . . , n se define Rir0 = yir − λTr xi − MX k=1 βrkΨ(γk0 + xTi γk). (4.33) Operando de la misma manera que en la sección 4.2.3 se llega a que la distribución a posteriori de βr0 es normal βr0 | y,β00(r), B,Λ, γ0,γ, σ2 ∼ N( Dr0 2Cr0 , C−1r0 ), donde Cr0 = 1 σ2βr0 + n σ2 y Dr0 = 2μβr0 σ2βr0 + 2 nX i=1 Rir0 σ2 , siendo para todo i = 1, . . . , n, Rir0 = yir − λTr xi − MX k=1 βrkΨ(γk0 + xTi γk). 158 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Distribución a posteriori de λrs r, s = 1, 2. Asumimos que la distribución a priori de λrs es λrs ∼ N(μλrs , σ 2 λrs ). Entonces, para todo r = 1, 2 y s = 1, 2, y denotando por Λ(rs) la matriz Λ sin λrs, p(λrs | y,β00, B,Λ(rs), γ0,γ, σ2) ∝ exp ½ − 1 2σ2λrs (λ2rs − 2μλrsλrs) ¾ · exp ( − 1 2σ2 nX i=1 (yir − βr0 − λr1xi1 − λr2xi2 − MX k=1 β1kΨ(γk0 + xTi γk)) 2 ) . (4.34) Si denominamos para todo i = 1, . . . , n Mir1 = yir − βr0 − λr2xi2 − MX k=1 βrkΨ(γk0 + xTi γk), y Mir2 = yir − βr0 − λr1xi1 − MX k=1 βrkΨ(γk0 + xTi γk), expresiones independientes de λr1 y λr2, respectivamente, (4.34) se puede escribir, p(λrs | y,β00, B,Λ(rs), γ0,γ, σ2) ∝ exp ½ − 1 2σ2λrs (λ2rs − 2μλrsλrs) ¾ · exp ( − 1 2σ2 nX i=1 (Mirs − λrsxis) 2 ) . Desarrollando el cuadrado y simplificando se obtiene p(λrs | y,β00, B,Λ(rs), γ0,γ, σ2) ∝ exp ½ −1 2 ∙ λ2rs µPn i=1 x 2 is σ2 + 1 σ2λrs ¶ −2λrs µPn i=1Mirsxis σ2 + μλrs σ2λrs ¶¸¾ . Llamando Crs = nX i=1 x2is σ2 + 1 σ2λrs y (4.35) Drs = nX i=1 Mirsxis σ2 + μλrs σ2λrs , (4.36) 159 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES y completando cuadrados, se obtiene que la expresión de la distribución a posteriori de λrs es p(λrs | y,β00, B,Λ(rs), γ0,γ, σ2) ∝ exp ½ − 1 2C−1rs (λrs − Drs Crs )2 ¾ , que corresponde a una distribución normal, λrs | y,β00, B,Λ(rs), γ0,γ, σ2 ∼ N( Drs Crs , C−1rs ), donde Crs y Drs vienen definidos en (4.35) y (4.36), respectivamente. Distribución a posteriori de βrs r = 1, 2, s = 1, . . . ,M Se asume para βrs una distribución a priori normal βrs ∼ N(μβrs , σ 2 βrs ), donde r = 1, 2 y s = 1, . . . ,M . Entonces, dada la función de verosimilitud (4.31) la dis- tribución a posteriori tendrá la forma, p(βrs | y,β00, B(rs),Λ, γ0,γ, σ2) ∝ exp ( − 1 2σ2βrs (β2rs − 2μβrsβrs) ) · exp ( − 1 2σ2 nX i=1 (yir − βr0 − λTr xi− − MX k=1 k 6=s βrkΨ(γk0 + xTi γk)− βrsΨ(γs0 + xTi γs)) 2 ⎫⎪⎬⎪⎭ . Si identificamos como Rirs el sumando i de la exponencial Rirs = yir − βr0 − λTr xi − MX k=1 k 6=s βrkΨ(γk0 + xTi γk), (4.37) y operando de la misma forma que se hacía en la sección 4.2.3, se llega a que la distribución a posteriori de βrs es normal, βrs | y,β00, B(rs),Λ, γ0,γ, σ2 ∼ N µ Drs Crs , C−1rs ¶ , 160 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES donde, en este caso, Crs = nX i=1 Ψ2(γs0 + xTi γs) σ2 + 1 σ2βrs , Drs = nX i=1 RirsΨ(γs0 + xTi γs) σ2 + μβrs σ2βrs y Rirs = yir − βr0 − λTr xi − MX k=1 k 6=s βrkΨ(γk0 + xTi γk). Distribución a posteriori de γrs r = 1, . . . ,M y s = 0, 1, 2 Se asume para γrs distribuciones a priori normales γrs ∼ N(μγrs , σ 2 γrs ). Procedi- endo al cálculo de la distribución a posteriori de forma análoga a la sección 4.2.3 se llega a que su expresión es de la forma p(γrs | y,β00, B,Λ, γ0,γ(rs), σ2) ∝ exp{− 1 2σ2 2X s=1 nX i=1 β2srΨ 2(γr0 + xTi γr) + 1 σ2 2X s=1 nX i=1 βsrRisrΨ(γr0 + xTi γr)− 1 2σ2γrs (γ2rs − 2μγrsγrs), (4.38) donde Rirs está definida en (4.37) y γ(rs) denota todos los elementos γ excepto γrs. Por último, la expresión (4.38) debe considerarse, en el caso s = 0, como función de γr0, en el caso s = 1, como función de γr1, y en el caso de s = 2, como función de γr2. A partir de las distribuciones a posteriori de los parámetros, podremos aplicar el muestreador de Gibbs para simular una muestra de la distribución a posteriori conjunta de los mismos. Todas las distribuciones a posteriori son normales o gamma inversa, excepto las distribuciones de los parámetros gamma. En este caso, se utiliza un paso Metropolis-Hasting tomando como distribución propuesta la distribución normal con varianza adaptativa. 161 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES 4.5. Una aplicación en Bioinformática Una vez presentados los resultados teóricos obtenidos con dos planteamientos diferentes para el estudio de emparejamientos entre configuraciones con transforma- ciones no lineales, en esta sección consideramos una aplicación de ambos modelos, al análisis de las expresiones de una serie de genes recogidos en microarrays. En concreto, nos centraremos en la estimación de los parámetros del modelo, en am- bos planteamientos, pues partiremos de dos configuraciones etiquetadas con puntos emparejados que representarán los genes en estudio. Para ello se va a utilizar la base de datos de microarrays ALL (Acute Lym- phoblastic Leukemia) de Chiaretti et al. (2004) de pacientes con leucemia linfoblás- tica aguda, disponible en el paquete ALL de Bioconductor. Se dispone de los valores de las expresiones de un total de 12625 genes en 128 muestras, cada una correspon- diente a un paciente. La puntuaciones de las expresiones de cada gen en cada una de las muestras se generaron usando la tecnología de Affymetrix Genechip 5.0. Siguiendo a Gentleman et al. (2005), consideramos un subconjunto de 79 pa- cientes con leucemia linfoblástica aguda tipo B, 42 de ellos citogenéticamente nor- males y los 37 restantes con una cierta alteración genética denominada fusión genéti- ca BCR/ABL. En parte de los cromosomas 9 y 22 se producen intercambios, de manera que parte del gen de región de fractura (BCR, Breakpoint Cluster Region) del cromosoma 22 se fusiona con parte del gen ABL del cromosoma 9. Por otra parte, siguiendo a Gentleman et al. (2005) descartamos aquellos genes que presentan baja variabilidad entre las muestras. En concreto, se filtran genes con una expresión mayor que 100 en al menos el 25% de las muestras y un rango intercuartílico de al menos 0.5. Además, se realizan comparaciones múltiples de las expresiones medias de todos los genes, basándose en el criterio FDR (False Discovery Rate) a un nivel de 0.05 de modo que se fija la proporción esperada de falsos positivos (o falsas significaciones) 162 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES entre los genes que son significativamente diferentes (véase Benjamini y Hochberg, 1995). Así, seleccionamos aquellos genes que muestran diferencias significativas entre los dos grupos, quedándonos con un número final de 102 genes. En cuanto a cuestiones computacionales para el tratamiento de la base de datos ALL y la selección de genes, se utilizaron los paquetes genefilter y multtest de Bioconductor. 4.5.1. Representación de los genes De la misma manera que se procedió en la sección 3.7.2 se ha realizado un análisis INDSCAL, utilizando SAS v. 9.1, usando las distancias euclídeas entre genes para cada uno de los dos grupos de pacientes con leucemia. Así, se obtienen las coordenadas de los 102 genes en un espacio de dos dimensiones y los pesos que cada grupo asigna a cada dimensión. Se obtienen pues, dos configuraciones de 102 puntos, una correspondiente a los pacientes citogenéticamente normales y otra a los que presentan la fusión genética BCR/ABL, donde cada punto identifica a un gen. Los emparejamientos de los puntos en ambas configuraciones son conocidos, correspondiendo al mismo gen. En las figuras 4.3 y 4.4 se representan, respectivamente, el espacio global de objetos y el espacio de sujetos. Se observa cómo el grupo BCR/ABL da más peso a la dimensión uno que el grupo de los pacientes citogenéticamente normales. Las figuras 4.5 y 4.6 representan individualmente las configuraciones de los 102 genes en cada grupo. De nuevo, se han identificado dos genes únicamente a efectos ilustrativos. 163 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Figura 4.3 Espacio global de objetos Figura 4.4 Espacio de sujetos Figura 4.5 Mapa de genes en el grupo Figura 4.6. Mapa de genes en el grupo citogenéticamente normal con fusión genética BCR/ABL 4.5.2. Elección del número de nodos del modelo En cualquiera de los dos modelos de redes neuronales presentados en las secciones 4.2 y 4.4, se puede introducir como un parámetro más del mismo, al número de nodos M . Algunos autores (véanse, e.g. Ríos-Insua, (1998) y Andrieu et al. (2001)), propo- nen modelos de salto reversible para explorar entre espacios paramétricos de distin- tas dimensiones. Sin embargo, en modelos complejos como los de redes neuronales, pueden aparecer problemas de identificabilidad lo cual complica la utilización de los 164 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES métodos de salto reversible. En esta aplicación hemos optado por resolver este problema eligiendo, en cada situación, aquel modelo con el que mejor medida de parsimonia tenga, según el criterio DIC (Desviance Information Criterium). Nos hemos basado en una versión alternativa de esta medida propuesta por Richardson (2002) y que Celeux et al. (2006) denotaron por DIC3 que se adapta bien a la estructura de los modelos de redes neuronales y que viene definida por: \DIC3 = −4Eθ|y[log f(y | θ)] + 2 log f̂(y), donde f̂(y) = nY i=1 f̂(yi), y f̂(yi) = Eθ|y[f(yi | θ)]. Utilizaremos esta medida DIC3 como criterio de comparación de modelos con distintos valores de M , procediendo a la elección del modelo con menor valor de DIC3. Aplicaremos un pasoMetropolis-Hasting para simular una muestra de la distribu- ción a posteriori conjunta de los parámetros. Se ha utilizado el programaWinBUGS 1.4.3 para programar el modelo y se ha ejecutado desde R utilizando el packete R2WinBUGS. A continuación se presentan las inferencias sobre los parámetros de los dos mo- delos estudiados en las secciones 4.2 y 4.4, particularizados en el caso de las dos configuraciones de genes. 4.5.3. Aplicación del modelo de redes neuronales basado en un Proceso de Poisson Como aplicación del modelo (4.1), desarrollado en el caso de configuraciones con puntos emparejados y bajo normalidad (sección 4.2.3), tomamos como configuración x la correspondiente a los genes de los pacientes citogenéticamente normales siendo y la configuracion de los genes de los pacientes con alteración genética. 165 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Se asumen distribuciones a priori de los parámetros N(0, 1), (no se espera unos valores muy elevados de los parámeros al tener estandarizadas las observaciones), excepto para σ−2 que se asume una G(0.1, 0.1), y se elige como modelo aquel con el valor del DIC3 más pequeño. En la tabla 4.1 se representan los valores de losDIC3 en los modelos con distintos valores deM. En el caso deM = 1, se ha estimado el modelo presentado en la sección 4.3. El menor valor del DIC3 se obtiene en el caso M = 2 nodos con un valor de 76,83. M 1 2 3 4 DIC3 2368,43 76,83 436,64 816,54 M 5 6 7 8 DIC3 1182,409 1561,37 1966,03 2360,15 M 9 10 DIC3 2767,181 3193,18 Tabla 4.1 Tabla de los DIC3 en función de M Por lo tanto se elige como modelo para representar la relación entre las dos configuraciones de genes, xi = μi + eià β10 + β11 1 1+exp{−(γ10+γT1 yi)} + β12 1 1+exp{−(γ20+γT2 yi)} β20 + β21 1 1+exp{−(γ10+γT1 yi)} + β22 1 1+exp{−(γ20+γT2 yi)} ! = μi + εi i = 1, . . . , n donde ei y εi siguen distribución normal y son independientes. La simulación de la muestra de la distribución a posteriori conjunta de los pa- rámetros, se ha llevado a cabo con 50000 iteraciones en total, 25000 iteraciones de calentamiento. Como estimaciones se toman las medias de las distribuciones a pos- teriori, cuyos valores se recogen en la tabla 4.2 junto a los intervalos de probabilidad al 95%. 166 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Parámetro Estimación Intervalo al 95% β10 -1.755 (-2.403 , -1.022) β20 -1.298 (-2.258 , -0.416) β11 4.259 (3.519 , 5.081) β12 -0.159 (-1.605 , 1.063) β21 -1.425 (-2.769 , -0.125) β22 4.049 (3.171 , 5.030) γ10 -0.324 (-0.653 , 0.087) γ20 -0.148 (-0.469 , 0.181) γ11 1.079 (0.811 , 1.423) γ12 0.368 (0.030, 0.723) γ21 0.048 (-0.301 , 0.448) γ22 1.135 (0.8816 , 1.456) σ2 0.08 (0.028 , 0.360) Tabla 4.2 Estimación de los parámetros Con respecto a la convergencia de las cadenas, en las figuras 4.7 hasta 4.15 se muestran los gráficos de las trazas de las cadenas, observándose la estabilidad de las mismas. Figura 4.7 Traza de β10 Figura 4.8 Traza de β20 167 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Figura 4.9 Traza de β11 Figura 4.10 Traza de β12 Figura 4.11 Traza de β21 Figura 4.12 Traza de β22 168 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Figura 4.13 Traza de γ10 Figura 4.14 Traza de γ20 Figura 4.15 Traza de γ11 Figura 4.16 Traza de γ12 169 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Figura 4.17 Traza de γ21 Figura 4.18 Traza de γ22 Figura 4.19 Traza de σ2 Además usamos el método de diagnóstico de Geweke (1992) que se aplica a una sola cadena. Consiste básicamente en comparar el valor medio de los primeros valores de la cadena (por ejemplo, el 10%), con el valor medio de los últimos (por ejemplo, 50%). Si los dos tramos de la cadena provienen de la misma distribución estacionaria, el estadístico de Geweke tiene como distribución límite una normal estándar. Un valor no significativo del test implica estabilidad de la cadena. Los valores de los p-valores asociados a los estadísticos de Geweke de cada parámetro del modelo se muestran en la tabla 4.3, obteniéndose no significación en todos ellos, y por tanto, demostrando la estacionariedad de todas las cadenas. 170 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Parámetro Z-valor de Geweke p-valor β10 1.244 0.215 β20 -1.948 0.052 β11 0.418 0.682 β12 -0.934 0.352 β21 0.405 0.689 β22 -0.042 0.968 γ10 1.250 0.211 γ20 1 0.317 γ11 -0.250 0.802 γ12 1.063 0.289 γ21 -1.21 0.226 γ22 0.490 0.624 σ2 -0.231 0.818 Tabla 4.2 Estimación de los parámetros 4.5.4. Aplicación del modelo de redes neuronales con una configuración de referencia En este caso, aplicamos el modelo (4.30) tomando como configuración fija y de referencia la correspondiente a los enfermos de leucemia citogenéticamente normales. En la figura 4.20 se representan los valores obtenidos del DIC3 en modelos con distintos valores de M . El menor valor del DIC3 se obtiene en el caso de M = 1 nodo con un valor del DIC3 = −1494,56, por lo que se elegirá el modelo con un único nodo. También se calculó el DIC3 para el modelo lineal, es decirM = 0 nodos, obteniéndose un valor del DIC3 = −1024, 46, valor mayor que con M = 1, . . . , 10. 171 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Figura 4.20 Representación de los DIC3 en función de M Por lo tanto, el modelo con el que se realizarán las estimaciones de los parámetros será, ∀i = 1, . . . n, yi1 = β10 + λ11xi1 + λ12xi2 + β1 1 1 + e−(γ10+γ1xi1+γ2xi2) + εi1, yi2 = β20 + λ21xi1 + λ22xi2 + β2 1 1 + e−(γ20+γ1xi1+γ2xi2) + εi2 εij ∼ N(0, σ2). Estimación, validación del modelo y análisis de convergencia Para comprobar la validez de los resultados se optó por dividir la muestra de los 102 genes en dos submuestras, una para realizar la estimación de los parámetros y otra para realizar la validación. Se seleccionó una muestra aleatoria del 20% de los puntos (un total de 20 genes) para construir la muestra de validación y se procedió a la estimación de los parámetros del modelo con el 80% de los genes restantes. De nuevo, aplicamos el MCMC usando Winbugs, simulando tres cadenas con 300000 iteraciones, 150000 de calentamiento, para cada parámetro. Como estima- ciones de las predicciones se toman las medianas a posteriori, porque resultó ser una medida más robusta como valor central. 172 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Las distribuciones a priori que se tomaron para los parámetros fueron N(0, 10), excepto para σ−2 donde se tomó una G(10, 10), lo que implica que asumimos que, a priori, no se espera gran variabilidad aleatoria entre los genes. En la tabla 4.4 se muestran los valores de las estimaciones de las coordenadas de los 20 genes utilizados como submuestra de validación. Se observa un buen ajuste, donde las diferencias entre los valores reales y las estimaciones son del orden de centésimas. Valores reales (0.6085 , -0.4257) (1.1290 , 0.1995) Estimaciones (0.6142 , -0.4257) (1.1380 , 0.2034) Valores reales (-0.8526 , 0.1925) (-1.0322 , 0.4513) Estimaciones (-0.8519 , 0.1885) (-1.0300 , 0.4472) Valores reales (1.0799 , -0.1076) (1.9554 , 0.1529) Estimaciones (1.0860 , -0.1073) (1.9640 , 0.1610) Valores reales (-0.9272 , -0.6950) (-0.4438 , 0.8406) Estimaciones (-0.9232 , -0.6994) (-0.4345 , 0.8381) Valores reales (0.1124 , -0.3172) (-1.0589 , 0.2600) Estimaciones (0.1144 , -0.3191) (-1.0590 , 0.2540) Valores reales (-1.0176 , -0.3346) (-0.0058, -0.3753) Estimaciones (-1.0160 , -0.3369) (-0.0037 , -0.3778) Valores reales (-1.7069 , 0.9099) (-1.1819 , 1.0962) Estimaciones (-1.7025 , 0.9031) (-1.1750 , 1.0955) Valores reales (0.5622 , -0.1422) (-2.0627 , 0.0911) Estimaciones (0.5687 , -0.1415) (-2.0545 , 0.0833) Valores reales (0.7387 , -0.6405) (-1.4613 , 0.4721) Estimaciones (0.7431 , -0.6415) (-1.4595 , 0.4637) Valores reales (-1.6012 , 0.6568) (1.0365 , -0.8914) Estimaciones (-1.5975 , 0.6489) (1.0405 , -0.8949) Tabla 4.4 Comparación entre predicciones y valores reales Para analizar la convergencia de las cadenas, en este caso se han generado tres cadenas por parámetro, en las figuras 4.21 hasta 4.32 se muestran los gráficos de las trazas de las mismas, apreciándose la estabilidad de las mismas. 173 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Figura 4.21 Traza de β10 Figura 4.22 Traza de β20 Figura 4.23 Traza de λ11 Figura 4.24 Traza de λ12 Figura 4.25 Traza de λ21 174 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Figura 4.26 Traza de λ22 Figura 4.27 Traza de β1 Figura 4.28 Traza de β2 Figura 4.29 Traza de γ0 Figura 4.30 Traza de γ1 175 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES Figura 4.31 Traza de γ2 Fig. 4.32 Traza de σ2 A continuación aplicamos el estadístico de Brooks, Gelman y Rubin, que se apli- ca en el caso de dos o más cadenas. En esencia, se trata de comparar la varibilidad dentro de las cadenas y la variabilidad entre cadenas, calculando el coeficiente PSRF (Potential Scale Reduciton Factor). Un coeficiente cercano a uno asegura que, en esencia, las cadenas se superponen, lo que indicaría convergencia. Aunque este es- tadístico se definió inicialmente para parámetros unidimensionales, Brooks y Gelman (1998), definieron una extensión al caso multidimensional para estudiar la conver- gencia simultánea de las cadenas de un conjunto de parámetros y éste será el que se aplique. Por otro lado, también se utilizan los valores de los cuantiles del llamado CSRF (Corrected Scale Reduction Factor), corrección de PSRF, asumiendo que los pará- metros se distribuyen según una normal. Un valor del cuantil 0.975 mayor que 1.2 se interpreta como evidencia de no convergencia. En nuestro caso el valor del MPSRF es de 1.01, y la lista de los cuantiles del factor corregido para cada parámetro se muestra en la tabla 4.5. Todos ellos toman 176 CAPÍTULO 4. EMPAREJAMIENTO DE PARES DE CONFIGURACIONES MEDIANTE TRANSFORMACIONES NO LINEALES un valor menor que 1.2, lo que la convergencia de las cadenas queda validada. cuantil 0.975 CSRF cuantil 0.975 CSRF β10 1.02 β1 1.00 β20 1.00 β2 1.01 λ11 1.05 γ0 1.01 λ12 1.03 γ1 1.1 λ21 1.00 γ2 1.0 λ22 1.02 σ2 1 Tabla 4.5 Cuantiles del CSRF para cada parámetro Los resultados desarrollados en la sección 4.4 junto con su aplicación con los datos de la base ALL, se pueden encontrar publicados en Marín y Nieto (2008b). 177 Futuras líneas de investigación A lo largo del desarrollo de esta tesis, han ido surgiendo nuevas ideas para abordar el problema de la superposición y emparejamientos de dos o más configuraciones y su extensión a situaciones más complejas. Una primera continuación natural al trabajo realizado, es profundizar en los modelos no lineales de redes neuronales. Una posibilidad es extenderlos al caso de configuraciones en tres dimensiones ya que, por ejemplo, en el estudio de las molécu- las de proteínas, la estructura tridimensional es muy importante. Otra opción es la inclusión de información adicional que se disponga de los puntos de las configuracio- nes a través de mediciones cuantitativas que permitan mejorar las superposiciones, es decir, trabajar con configuraciones con marcas. Siguiendo con la idea de modelizar la relación entre dos configuraciones de pun- tos etiquetadas, otra posibilidad que consideramos interesante de investigar, es la modelización a través de splines de la transformación geométrica entre dos configura- ciones o a través de procesos gaussianos como generalización de las redes neuronales. Esta idea podría utilizarse también en configuraciones no etiquetadas, añadiendo la dificultad de la estimación de los emparejamientos. Por otra parte, el estudio del problema donde las configuraciones corresponden al mismo objeto en distintas situaciones hace pensar que el tratamiento debería ser distinto a cuando corresponden a objetos diferentes pues, en cierta medida, hay una correlación entre las configuraciones que se comparan. Equivaldría al clásico proble- ma de comparar muestras independientes o muestras relacionadas. Como ejemplo, 179 pensemos en la imagen proveniente de un scáner de un paciente con cierta patología como una configuración de puntos, y el estudio de su evolución comparando las distintas configuraciones observadas en distintos instantes de tiempo. Aunque las aplicaciones que se han presentado se han centrado en el ámbito de la Bioinformática, los modelos desarrollados en este trabajo podrían utilizarse en otros ámbitos de aplicación donde la información de la que se dispone pueda resumirse en configuraciones de puntos, etiquetadas o no. Pensamos que la búsqueda de situaciones reales y la colaboración con investigadores de estas áreas de aplicación, pueden dan lugar a trabajos futuros de gran interés. 180 Referencias Andrieu, C., de Freitas, N. y Doucet, A. (2001). Robust Full Bayesian Learning for Radial Basis Networks. Neural Computation, 13(10), 2359-2407. Benjamini, Y. y Hochbergt, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. JRSSB, 57: 289-300. Borg, I. y Groenen, P. J. F. (2005).Modern Multidimensional Scaling. New York: Springer. Broadbent, S. (1980). Simulating the ley hunter. Journal of the Royal Statistical Society. Series AJ, 143: 109-140. Brooks, S. y Gelman, A. (1998). General Methods for Monitoring Convergence of Iterative Simulation. Journal of Computational and Graphical Statistics, 7: 434-455. Carlin B. P. y Louise, T. A. (2000). Empirical Bayes methods for data analysis. Chapman & Hall. Carroll J.D. y Chang J.J. (1970). Analysis of individual differences in multidi- mensional scaling via an n-way generalizatrion of “Eckart-Young” decomposition. Psychometika, 35: 283-319. Celeux G., Forbes F., Robert C. P. y Titterington D. M. (2006). Deviance Infor- mation Criteria for Missing Data. Bayesian Analysis, 1: 4, 651-674. 181 Cheng, B. y Titterington, D. M. (1994). Neural Networks: A review from a Statistical Perspective. Statistical Science, vol. 9, no 1, 2-54. Chiaretti, S., Li, X., Gentleman, R.,Vitale A., Vignetti, M., Mandelli, F., Ritz, J. y Foa R. (2004). Gene expression profile of adult t-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood, 103(7): 2771-2778. Cybenko, G. (1989). Approximation by superposition of sigmoidal functions. Mathematics of Control Systems an Signals. 2: 303-314. Devroye L. (1986). Non-uniformRandomVariate Generation. NewYork. Springer Dryden, I. L. , Hirst J. D. y Melville, J. L. (2007). Statistical Analysis of Un- labeled Point Sets: Comparing Molecules in Chemoinformatics. Biometrics 63(1), 237-251. Dryden, I. L . y Mardia, K. V (1998). Statistical Shape Analysis. Wiley. Dryden, I. L . y Mardia, K. V. (1992). Size and shape analysis of landmark data. Biometrika, 79: 57-68. Evans, K. y Dryden, I.L. (2008). Bayesian matching of unlabelled point sets using Procrustes and configuration models. Tech. Rep. http://www.maths.nott.ac.uk/personal/ild/papers/evandryden.pdf. Galileo (1638).Discorsi e dimostrazioni matematiche, informo a due nuoue scien- ze attenti alla mecanica i movimenti locali. appresso gli Elsevirii; Opere VIII. Gelman A., Carlin, J. B., Stern H. S. y Rubin D. B. (2004) Bayesian Data Analysis Second Edition. Chapman & Hall. Gentleman, R., Carey, V. J., Huber W., Irizarry R. A. y Dudoit S. (Eds) (2005). Bioinformatics and Computational Biology Solutions Using R and Bioconductor. 182 New York: Springer. Geweke, J. (1992). Evaluating the accuracy of Sampling-Based Approaches to the Calculation of Posterior Moments. Econometrica, 24, 1317-1399. Green, P. J. y Mardia, K. V. (2006). Bayesian alignment using hierarchical mod- els, with applications in protein Bioinformatics. Biometrika, 93(2), 235—254. Green, P. J. y Sibson, R. (1977). Computing Dirichlet tessalations in the plane. Computer Journal, 21: 168-173. Grimson, E y Lozano-Pérez, T. (1987) Localizing overlapping parts by search- ing the interpretation tree. IEEE Transactions on Pattern Analysis and Machine Intelligence, 9: 468-482. Hsuan, F. (1979). Generating uniform polygonal random pairs. Appl. Statist. 28: 170-172 Hurley, J. R. y Cattell, R. B. (1962). The Procrustes program: producing direct rotation to test a hypothesised factor structure. Behavioural Science, 7: 258-262. Karaman M. W., Houck, M.L., Chemnick L.G., Nagpal S., Chawannakul D., Su- dano D., Pike B.L., Ho V.V., Ryder O.A. y Hacia J.G. (2003) Comparative Analysis of Gene-Expression Patterns in Human and African Great Ape Cultured Fibroblasts Genoma Research, 13: 1619-1630. Khatri, C. G. y Mardia, K. V. (1977). The von Mises-Fisher distribution in orientation statistics. J. R. Statist. Soc.B 39, 95-106. Kendall, D. G. (1977). The diffusion of shape. Advances in Applied Probability, 9: 428-430 Kendall, D. G. (1984). Shape manifords, Procrustean metrics and complex pro- jective spaces. Bulletin of the London Mathematical Society, 16: 81-121. 183 Kendall, D. G. y Kendall, W. S. (1980). Alignments in two dimensional random sets of points. Advances in Applied Probability, 12: 280-424. Kent, J. T., Mardia, K. V. y Taylor, C. C. (2004). Matching problems for unlabeled configurations. In LASR2004 Proceedings: Bioinformatics, Images and Wavelets. R. G. Aykroyd, S. Barber, y K. V. Mardia (eds). 33-36. Universidad de Leeds. Kosowsky J. y Yuille, A. (1994) The invisible hand algorithm: Solving the as- signment problem with statistical physics. Neural Networks, 7: 477-490. Lewis, P. A. W. y Shedler, G. S. (1979). Simulation of non-homogeneous Poisson processes by thinning. Naval Res. Log. Quart. 26: 403-413. Liu, Y., Li L., y Wang Y. (2004). Free Form Shape Matching Using Deterministic Annealing and Softassign. Proceedings of 17th International Conference on Pattern Recognition, 23rd - 26th August 2004, Cambridge, UK, vol. II, pp. 128-131. Mardia, K. V., Edward, R. y Puri, M. L. (1977). Analysis of Centrl Place Theory. Bulletin of the International Statistical Institute, 47:93-110. Mardia, K. V., y Jupp, P. E. (2000). Directional Statistics. Chichester: Wiley. Mardia, K. V., Kent, J. T. y Bibby, J.M. (1979). Multivariate Analysis. San Diego. Academic Press. Mardia, K. V. (1989). Shape analysis of triangles through directional techniques. Journal of the Royal Statistical Society, Series B, 51: 449-458. Marin, J. M. y Nieto, C. (2008a) Spatial Matching of Multiple Configurations of Points with a Bioinformatics Application. Communications in Statistics. Theory and Methods, 37: 12, 1977-1995. Marin, J. M. y Nieto, C. (2008b) Bayesian non-linear matching of pairwise mi- 184 croarray gene expressions.Working Paper 08-25. Statistics and Econometrics Series 07. Universidad Carlos III de Madrid. McCulloch, W.S. y Pitts, W. (1942). A logical calculus of the ideas immanent in nervous activity forms. Bulletin of Mathematical Biophysics, 9: 127-147. Mosimann, J. E. (1970). Size allometry: Size and shape variables with charac- terizations of the lognormal and generalized gamma distributions. Journal of the American Statistical Association, 65:930-948. O’Higgins, P. (1989). A morphometric study of cranial shapeinthe Hominoidea. PhD thesis, University of Leeds. Raftery, A. E. y Lewis, W. M. (1992). One long run with diagnostics: Implemeta- tion strategies for Markov chain Monte Carlo. Statistical Science, 7: 493-497. Rangarajan, A., Chui, H. y Bookstein, F. L. (1997). The Softassign Procrustes matching algorithm. In Information Processing in Medical Imaging, J. Duncan y G. Gindi (eds), 29-42. Berlin: Springer. Richardson, S. (2002). Discussion of Spiegelhalter et al. Journal of the Royal Statistical Society, Series B, 631. Rosenblatt, F. (1958). The Perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65: 386-408. Ross, S. M. (1997). Simulation. Academic Press. San Diego. Small, C. G. (1988). Techniques of shape analysis on sets of points. International Statistical Review, 56: 243-257. Stoyan, D., Kendall, W.S. y Mecke, J. (1995) Stochastic Geometry and its Ap- plications. 2nd Edition. Wiley, Chichester. 185 Stoyan, D. y Molchanov, I. S. (1997) Set-valued means of Random Particles. Journal of Mathematical Imaging and Vision 7: 111-121. Taylor, C. C., Mardia, K. V. y Kent, J. T. (2003) Matching unlabelled config- urations using the EM algorithm. Proceedings in Stochastic Geometgry, Biological Structure and Images, 19-21. R. G. Aykroyd, K. V. Mardia y M. J. Langdon (eds), 19-21. Universidad de Leeds. Thompson, D. A. (1917). On growth and form. Cambridge University Press, Cambridge. Umeyama, S. (1993). Parameterized point pattern matching and its application to recognition of object families. IEEE Transactions on Pattern Analysis and Ma- chine Intelligence, 15(1): 136-144. Walker, G. (1999). Robust, non-parametric and automatic methods for matching spatial point patterns. PhD tesis. Universidad de Leeds. 186 Agradecimientos Resumen Índice general Prólogo Capítulo 1 Motivación y Antecedentes 1.1. Introducción al análisis de datos espaciales 1.2. El análisis de la forma, superposición y emparejamiento,como problemas espaciales 1.2.1. Métodos tradicionales frente a métodos geométricos 1.3. Los objetos como configuraciones de puntos en el espacio 1.4. La superposición de configuraciones: Métodos Procrustes 1.5. El estudio de configuraciones no etiquetadas Capítulo 2 Definiciones y conceptos previos 2.1. Introducción 2.2. Proceso de Poisson espacial 2.2.1. Introducción 2.2.2. Los procesos puntuales espaciales 2.2.3. El Proceso de Poisson espacial 2.3. Transformaciones matriciales 2.3.1. Transformaciones matriciales simples 2.3.2. Composición de transformaciones matriciales simples 2.4. El emparejamiento de dos configuraciones de puntos no etiquetadas 2.4.1. El modelo matemático 2.4.2. El Proceso de Poisson de la configuración de referencia 2.4.3. La matriz de emparejamientos y su distribución a priori 2.4.4. Verosimilitud de los datos 2.4.5. Inferencias sobre los parámetros 2.5. Introducción a los modelos estadísticos de redes neuronales artificiales 2.5.1. El modelo biológico 2.5.2. Estructura de una red neuronal artificial 2.5.3. Los modelos de regresión como redes neuronales 2.5.4. Redes neuronales Perceptrón 2.6. Escalamientomultidimensional: análisis INDSCAL Capítulo 3 Emparejamiento de más de dos configuraciones no etiquetadas mediante transformaciones lineales 3.1. Introducción 3.2. Modelización del problema 3.3. El Proceso de Poisson espacial de la configuración de referencia 3.4. Matrices de afinidad M y matrices de emparejamiento S 3.4.1. Matriz de afinidad y matriz de emparejamientos de orden 2 3.4.2. Matriz de afinidad y matriz de emparejamientos de orden 3 3.4.3. Matriz de afinidad y matriz de emparejamientos de orden k 3.4.4. Distribuciones a priori de las matrices de afinidad y de emparejamientos 3.5. Modelización con transformaciones lineales generales 3.5.1. Construcción de la verosimilitud de los datos 3.5.2. Emparejamiento de M = 4 configuraciones con errores normales 3.5.3. Inferencia bayesiana en el caso de emparejamientos conocidos de M = 4 configuraciones 3.6. Modelización con transformaciones euclídeas de similitud 3.6.1. Construcción de la verosimilitud de los datos 3.6.2. Emparejamientos de M = 4 configuraciones con errores normales 3.6.3. Inferencia bayesiana en el caso de emparejamientos conocidos de M = 4 configuraciones 3.6.4. Inferencia bayesiana en el caso de emparejamientos desconocidos de M = 3 configuraciones y transformaciones rígidas 3.7. Aplicaciones 3.7.1. Datos simulados 3.7.2. Una aplicación en Bioinformática Capítulo 4 Emparejamiento de pares de configuraciones mediante transformaciones no lineales 4.1. Introducción 4.2. Emparejamiento de configuraciones no etiquetadas bajo modelo de redes neuronales basado en un Proceso de Poisson 4.2.1. Modelización del problema 4.2.2. Construcción de la verosimilitud de los datos 4.2.3. Inferencia bayesiana en el caso de configuraciones etiquetadas 4.3. El modelo con M = 1 nodo, en el caso de R2 4.3.1. Inferencia bayesiana en el caso de configuraciones etiquetadas 4.4. Emparejamiento de configuraciones etiquetadas bajo modelo de redes neuronales conuna configuración fija 4.4.1. Modelización del problema 4.4.2. Construcción de la verosimilitud de los datos 4.4.3. Expresiones de las distribuciones a posteriori de los parámetros 4.5. Una aplicación en Bioinformática 4.5.1. Representación de los genes 4.5.2. Elección del número de nodos del modelo 4.5.3. Aplicación del modelo de redes neuronales basado en un Proceso de Poisson 4.5.4. Aplicación del modelo de redes neuronales con una configuración de referencia Futuras líneas de investigación Referencias