UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE CIENCIAS MATEMÁTICAS Departamento de Estadística e Investigación Operativa I APLICACIONES BAYESIANAS A PROBLEMAS NO PARAMÉTRICOS MEMORIA PARA OPTAR AL GRADO DE DOCTOR PRESENTADA POR Beatriz González Pérez Bajo la dirección del doctor Miguel Ángel Gómez Villegas Madrid, 2005 ISBN: 978-84-669-2804-5 APLICACIONES BAYESIANAS A PROBLEMAS NO PARAMÉTRICOS Beatriz González Pérez Madrid, enero de 2005 Departamento de Estad́ıstica e Investigación Operativa I Facultad de CC. Matemáticas UNIVERSIDAD COMPLUTENSE DE MADRID Aplicaciones Bayesianas a Problemas No Paramétricos Tesis Doctoral de Beatriz González Pérez realizada bajo la dirección de D. Miguel Ángel Gómez-Villegas1 Madrid, enero de 2005 Departamento de Estad́ıstica e Investigación Operativa I, Facultad de CC. Matemáticas UNIVERSIDAD COMPLUTENSE DE MADRID 1Catedrático del Departamento de Estad́ıstica e Investigación Operativa I de la Universidad Complutense de Madrid A José. Índice Prólogo III 1. Distribuciones ε−Contaminadas en Tablas de Contingencia 1 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Formulación del Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.4. Acotaciones de la Probabilidad A Posteriori . . . . . . . . . . . . . . . . . 7 1.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.6. Comparación con el Método Clásico . . . . . . . . . . . . . . . . . . . . . . 11 1.7. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2. Análisis Bayesiano de Tablas de Contingencia 17 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2. Formulación del Problema y Cálculo de la Probabilidad A Posteriori . . . . 20 2.3. Comparación con el Método Clásico . . . . . . . . . . . . . . . . . . . . . . 22 2.4. Tablas r × s con p0 Conocido . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.6. Tablas r × s con p0 Desconocido . . . . . . . . . . . . . . . . . . . . . . . 33 2.6.1. Primer Método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.6.2. Segundo Método . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.6.3. Tercer Método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 i 2.6.4. Comparación con el Método Clásico . . . . . . . . . . . . . . . . . . 36 2.7. Tablas r × s con p0 = p (ω) . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.7.1. Primer Método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.7.2. Segundo Método . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.7.3. Tercer Método . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.7.4. Comparación con el Método Clásico . . . . . . . . . . . . . . . . . . 47 2.8. Observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.9. Conclusiones y Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3. Acuerdo entre la Aproximación Clásica y Bayesiana en Tablas de Contingencia 60 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.2. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.3. Acuerdo entre la Aproximación Clásica y Bayesiana . . . . . . . . . . . . . 66 3.4. Comparación con el Método Clásico Usual . . . . . . . . . . . . . . . . . . 69 3.5. Reparametrizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.6. Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4. Acuerdo entre la Aproximación Clásica y Bayesiana en el Contraste de la Hipótesis Nula Puntual Multivariante 76 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.2. Acuerdo entre la Aproximación Clásica y Bayesiana . . . . . . . . . . . . . 80 4.3. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.3.1. Paradoja de Lindley . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.3.2. Cotas Inferiores para Distribuciones Unimodales y Simétricas . . . . 88 4.3.3. Cotas Inferiores para Mixturas de Normales con Parámetro de Escala 90 4.4. Observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.5. Conclusiones y Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Referencias 95 ii Prólogo La relación entre la respuesta clásica y bayesiana a un mismo problema de Inferencia Estad́ıstica ha sido objeto de estudio en numerosas ocasiones. En muchas situaciones se ha conseguido un acuerdo numérico entre ambas aproximaciones, aunque, en algunos casos, la discrepancia entre ambas posturas se mantiene. Se dice numérico porque la interpretación de los resultados es completamente distinta. En el ámbito de los contrastes de hipótesis paramétricos, cuando el contraste es uni- lateral es posible reconciliar la evidencia clásica, expresada en términos del p-valor, con la bayesiana, expresada en términos de la probabilidad final de la hipótesis nula. Concreta- mente, Casella y Berger (1987) prueban que, utilizando diferentes clases de distribuciones iniciales, el ı́nfimo de la probabilidad final es igual, e incluso, en determinados casos, menor que el correspondiente p-valor, concluyendo que para contrastes unilaterales el p-valor se puede considerar como una aproximación a las medidas de evidencia bayesianas. Sin em- bargo, en los contrastes paramétricos de hipótesis nula puntual la discrepancia entre ambos métodos es bien conocida. Lindley (1957) presentó la discrepancia en el supuesto de que la verosimilitud fuese normal. En general hay coincidencia en señalar que, en este caso, el p-valor tiende a exagerar la evidencia en contra de la hipótesis nula. En este contexto, Berger y Sellke (1987) calculan el ı́nfimo de las probabilidades finales de la hipótesis nula puntual sobre diferentes clases de distribuciones a priori y obtienen que el ı́nfimo es sus- tancialmente mayor que el correspondiente p-valor, concluyendo que los p-valores puede ser medidas muy engañosas de la evidencia en contra de la hipótesis nula. Es necesario apuntar que la masa asignada al punto de la hipótesis nula es 0.5. iii Gómez-Villegas y Gómez Sánchez-Manzano (1992) estudian la relación entre los con- trastes de hipótesis nula puntual y de intervalo, poniendo de manifiesto que, cuando el intervalo es suficientemente pequeño, dan lugar a la misma decisión. Concretamente, en el problema del contraste de hipótesis nula puntual univariante H0 : θ = θ0, versus H1 : θ 6= θ0, con una densidad a priori dada para el parámetro θ, π(θ), introducen un procedimiento, que posteriormente es justificado por Gómez-Villegas y Sanz (1998), para determinar una distribución a priori de tipo mixto. La metodoloǵıa consiste en fijar un intervalo de amplitud 2ε alrededor de θ0 y asignar una masa a priori π0 a H0, calculada integrando π(θ) sobre el intervalo (θ0 − ε, θ0 + ε), repartiendo la probabilidad restante, 1− π0, sobre H1 mediante π(θ). Además, Gómez-Villegas y Sanz (1998) muestran que el ı́nfimo de la probabilidad a posteriori de H0 puede estar próximo al p-valor en la clase de distribuciones a priori unimodales y simétricas. Gómez-Villegas y Sanz (2000) calculan una cota inferior para la probabilidad a pos- teriori del punto de la hipótesis nula, cuando la distribución a priori pertenece a la clase de distribuciones ε− contaminadas, y muestran algunos ejemplos en los que dicha cota se puede hacer numéricamente próxima al p-valor. En la mayoŕıa de las contribuciones existentes se utiliza una clase de distribuciones a priori, sin embargo Gómez-Villegas, Máın y Sanz (2002) estudian el problema cuando se utiliza una única distribución a priori y muestran que para la paradoja de Lindley y el ejemplo de Darwin-Fisher, este procedimiento hace que las diferencias entre la proba- bilidad a posteriori de la hipótesis nula puntual y el p-valor no sean tan acusadas como cuando se utiliza π0 = 0,5. Recientemente, Gómez-Villegas, Máın y Sanz (2004) han desarrollado un test Bayesiano para el contraste de hipótesis nula simple frente a alternativa bilateral en el caso multivarian- te. Sugieren un procedimiento para construir una distribución a priori de tipo mixto y calculan cotas inferiores de las probabilidades a posteriori de la hipótesis nula puntual sobre algunas clases de distribuciones a priori, obteniendo una mejor aproximación de- bido a que el correspondiente p-valor se encuentra en el rango de las medidas de evidencia iv bayesianas. De la Horra (2005) considera el problema del contraste de la hipótesis nula puntual para un parámetro de localización y reconcilia los p-valores clásicos y predictivos a priori. En esta memoria el problema del contraste de la hipótesis nula puntual es considerado en un contexto no paramétrico. Este problema ha dado lugar a una extensa literatura, desde que Karl Pearson introdujera su ya clásico test de la χ2 para valorar la bondad del ajuste (Pearson, 1900). El objeto de interés es la relación entre el p-valor y las medidas bayesianas de evidencia en contra de la hipótesis nula de homogeneidad de r poblaciones multinomiales independientes. Concretamente, se utiliza la probabilidad a posteriori de que la hipótesis nula sea cierta. Existen muchas aproximaciones bayesianas al problema de homogeneidad, sin embargo la relación entre la respuesta clásica y bayesiana no ha sido muy estudiada en este contexto. En el caso de tablas de contingencia 2 × 2, Howard (1998) aboga por el uso más fre- cuente de contrastes unilaterales y aborda el problema desde un punto de vista bayesiano, proporcionando una medida cuantitativa de la fuerza de la evidencia en apoyo de la hipótesis más probable. Además, observa que el contraste clásico de la χ2 puede considerar- se como una aproximación de la probabilidad a posteriori de la hipótesis nula unilateral, para una distribución a priori particular. Nuestra aproximación general al problema de homogeneidad en tablas de contingencia r×s, consiste en trabajar directamente con la hipótesis nula simple calculando su probabi- lidad a posteriori. Para ello, se sigue el método utilizado por Gómez-Villegas, Máın y Sanz (2004). Con este procedimiento, en el contexto de la hipótesis nula puntual, es posible precisar cómo y cuándo es posible una reconciliación entre el p-valor y la probabilidad a posteriori de la hipótesis nula de homogeneidad. En el caṕıtulo 1 se desarrolla un procedimiento bayesiano para el contraste de ho- mogeneidad de distribuciones multinomiales independientes en tablas de contingencia. Se calcula una cota inferior de la probabilidad a posteriori, cuando la distribución a priori de tipo mixto pertenece a la clase de distribuciones ε−contaminadas, y se compara con el v p-valor. En el caṕıtulo 2, mediante el procedimiento bayesiano introducido en el caṕıtulo 1 para el contraste de hipótesis nula simple frente a alternativa bilateral en tablas de con- tingencia, dadas muestras independientes de dos distribuciones binomiales y tomando una única distribución a priori de tipo mixto, se calcula la probabilidad a posteriori de que la proporción de éxitos en la primera población sea igual que en la segunda. Dicha probabili- dad a posteriori se compara con el p-valor del procedimiento clásico usual, obteniéndose una reconciliación entre ambos resultados, en los términos de una condición suficiente. Los resultados obtenidos se generalizan para tablas r×s, cuando el punto de la hipótesis nula, p0, es conocido, desconocido o de forma funcional conocida, p0 = p (ω). En el caṕıtulo 3, para el análisis bayesiano introducido en el caṕıtulo 1, se formalizan los resultados obtenidos en el caṕıtulo 2 y se demuestra un teorema que pone de manifiesto los términos en los que es posible un acuerdo entre ambos métodos. En el caṕıtulo 4, para el problema general del contraste de hipótesis nula puntual multivariante frente a alternativa bilate- ral, se desarrolla un procedimiento que permite concretar cómo y cuándo es posible un acuerdo entre los procedimientos clásicos y bayesianos. Quiero terminar esta introducción con mi más sincero agradecimiento a Miguel Ángel Gómez-Villegas, maestro y persona excepcional, por su apoyo y est́ımulo. vi Caṕıtulo 1 Distribuciones ε−Contaminadas en Tablas de Contingencia Para llevar a cabo un análisis bayesiano sobre un parámetro desconocido, θ, se necesita modelizar la opinión a priori que se tiene sobre θ mediante una distribución de probabili- dad. Se desarrolla un procedimiento bayesiano para el contraste de homogeneidad de dis- tribuciones multinomiales independientes en tablas de contingencia. Se calcula una cota inferior de la probabilidad a posteriori, cuando la distribución a priori pertenece a la clase de distribuciones ε−contaminadas, y se compara dicha cota con el p-valor. 1.1. Introducción Se supone que son extráıdas muestras aleatorias independientes de dos poblaciones suficientemente grandes donde cada una de sus unidades se clasifica como éxito o fracaso. Una muestra es de tamaño n1 y produce a éxitos y b fracasos y la otra es de tamaño n2 y produce c éxitos y d fracasos. Los datos se visualizan en la Tabla 1.1. Se precisa una medida cuantitativa de hasta qué punto los datos apoyan o no la hipótesis de que la proporción de éxitos en la primera población, p1, es igual a la proporción de éxitos en la segunda población, p2. Por lo tanto, el parámetro de interés para el problema 1 de homogeneidad planteado es θ = (p1, p2). Tabla 1.1: datos en la tabla 2×2. Éxitos Fracasos Total Muestra 1 a b n1 Muestra 2 c d n2 Total m1 m2 N Para realizar un análisis bayesiano sobre un parámetro desconocido, θ, es necesario modelizar la opinión a priori que se tiene sobre θ mediante una distribución de probabili- dad. Sin embargo, no es usual el caso en el que la información inicial pueda ser expresada en términos de una distribución de probabilidad concreta, debido a que, con frecuencia, esta información a priori es difusa. Generalmente, debido a esta ausencia de precisión, la información a priori se expresa en términos de una clase de distribuciones, Γ, que contenga a todas las distribuciones a priori posibles para θ. Además, para comparar la probabilidad a posteriori de la hipótesis nula del procedimiento bayesiano con el p-valor del método clásico parece razonable considerar una clase de distribuciones a priori en lugar de una distribución a priori concreta, puesto que el p-valor no utiliza información a priori. Una forma interesante de describir opiniones a priori consiste en considerar la clase de distribuciones ε−contaminadas dada por Γ = {π = (1− ε) q0 + εq, q ∈ Q} , (1.1) donde q0 es una distribución a priori particular, la que se utilizaŕıa en un análisis Bayesiano con una sóla distribución a priori. Q es una clase de distribuciones de probabilidad que representan las posibles (y razonables) desviaciones de q0. Un ε fijo, con 0 < ε < 1, representa el grado de contaminación que se quiere introducir en q0. 2 En lo referente a la clase Q se pueden tener en cuenta varias posibilidades. Vamos a utilizar la clase de todas las distribuciones de probabilidad. Gómez-Villegas y Sanz (2000) utilizan esta clase de distribuciones para estudiar el problema de contraste de hipótesis nula simple desde una perspectiva bayesiana. Huber (1973) y Sivaganesan (1988) también la utilizan aunque en otro contexto. Berger y Berlinger (1986), Berger (1985, 1994), y Sivaganesan y Berger (1989) proporcionan información relevante sobre otras clases de contaminación. En la sección 1.2 se formula de forma precisa el problema de contraste de hipótesis nula simple en tablas de contingencia y se justifica la utilización de una distribución a priori de tipo mixto. En la sección 1.3 se introduce la notación. En la sección 1.4 se calcula el ı́nfimo de la probabilidad a posteriori de que la proporción de éxitos en la primera población sea igual que en la segunda e igual a un valor común p0 conocido, cuando la a priori pertenece a la clase de distribuciones ε−contaminadas. En la sección 1.5 se exponen algunos ejemplos. En la sección 1.6 se compara la cota inferior de la probabilidad a posteriori obtenida en la sección 1.4 con el p-valor. Finalmente, la sección 7 contiene algunos comentarios. 1.2. Formulación del Problema Sean Xi, i =1, 2, variables aleatorias independientes y distribuidas, respectivamente, B (ni, pi), i =1, 2, con ni ∈ N, i =1, 2, fijos y conocidos. Se pretende contrastar H0 : p1 = p2 = p0 versus H1 : p1 6= p2 , (1.2) donde p0 es un valor conocido, y p1 6= p2 significa que al menos uno de ellos es distinto de p0, es decir, (p1, p2) 6= (p0, p0). Además, se supone que la opinión a priori sobre θ = (p1, p2) viene dada por la densidad π (p1, p2) ∈ Γ, siendo Γ la clase de distribuciones ε−contaminadas dada en la expresión (1.1). 3 En consecuencia, para contrastar (1.2) se necesita una distribución a priori de tipo mixto. Se propone π∗ (p1, p2) = π0IH0 (p1, p2) + (1− π0) π (p1, p2) IH1 (p1, p2) , (1.3) siendo π0 la masa a priori asignada a la hipótesis nula. Aunque no hay una regla para fijar el valor de π0, usualmente se emplea π0 = 1 2 (véase Robert, 1994, caṕıtulo 5). Ahora, se van a considerar las hipótesis más realistas H0δ : d ((p0, p0) , (p1, p2)) ≤ δ, versus H1δ : d ((p0, p0) , (p1, p2)) > δ, (1.4) con una métrica d apropiada, por ejemplo la distancia eucĺıdea, y un valor de δ > 0 sufi- cientemente pequeño, de tal forma que cualquier punto (p1, p2) tal que d ((p0, p0) , (p1, p2)) ≤ δ pueda ser considerado indistinguible de (p0, p0). Se pueden considerar varias formas de especificar d ((p1, p2) , (p0, p0)), una de ellas seŕıa considerar un valor arbitrario de δ y dividirlo en dos valores δ1 y δ2, quizá δ1 = δ2 = δ 2 , entonces, construiŕıamos la distancia empezando por |pi − p0| < δi, i = 1, 2. Otra forma seŕıa considerar B ((p0, p0) , δ) = { (p1, p2) ∈ (0, 1)× (0, 1) , (p1 − p0) 2 + (p2 − p0) 2 ≤ δ2 } , la bola de centro (p0, p0) y radio δ. Aplicando el método de Gómez-Villegas y Sanz (2000) y Gómez-Villegas, Máın y Sanz (2002), introducido por Gómez-Villegas y Gómez Sánchez-Manzano (1992) y justificado por Gómez-Villegas y Sanz (1998), se podŕıa utilizar π (p1, p2), la opinión sobre (p1, p2), y calcular π0 promediando, π0 = ∫ B((p0,p0),δ) π (p1, p2)dp2dp1. (1.5) En particular, es posible calcular el valor de δ en (1.5) para que π0 = 1 2 . Cabe destacar que si la opinión a priori sobre (p1, p2) viene dada por la densidad uniforme, π (p1, p2) = 1, 4 p1, p2 ∈ (0, 1), entonces el valor de π0 que se obtiene a partir de la expresión (1.5), para δ suficientemente pequeño, es π0 = πδ2, el área de la circunferencia de radio δ. Por lo tanto, la probabilidad a priori asignada a H0 mediante π∗ (p1, p2) y la asignada a H0δ mediante π (p1, p2) es la misma, eligiendo un valor adecuado de δ. Varias razones pueden justificar esta aproximación mediante la elección de π0 dado en (1.5). Una discusión interesante y una posterior justificación de esta construcción mediante el uso de la medida de información de Kullback-Leibler sobre el cambio de (1.2) por (1.4) pueden encontrarse en Gómez-Villegas y Sanz (2000) y Gómez-Villegas, Máın y Sanz (2002). Si π (θ) es la información a priori, entonces la distribución a priori mixta π∗ (θ) debeŕıa estar próxima a π (θ) en algún sentido. Utilizando la medida de información de Kullback- Leibler, µ (π∗, π) = ∫ π (θ) Ln π (θ) π∗ (θ) dθ, como medida de la discrepancia entre π y π∗, se tiene µ (π∗, π) → 0, cuando δ → 0. Quizá la elección de δ sea más intuitiva que la selección de un valor arbitrario para π0, usualmente π0 = 1 2 en la literatura. En la misma ĺınea de Berger y Sellke (1987), se pretende minimizar P (H0|a, c) sobre la clase Γ de distribuciones a priori dada en la expresión (1.1). A partir de (1.5) se obtiene que π0 = (1− ε) π0 q0 + επ0 q , donde π0 q0 = ∫ B((p0,p0),δ) q0 (p1, p2)dp2dp1 y π0 q = ∫ B((p0,p0),δ) q (p1, p2)dp2dp1. (1.6) Un motivo que justifica la toma del ı́nfimo, es que para un valor pequeño de dicho ı́nfimo la hipótesis nula debe ser rechazada, con lo que se tiene la misma interpretación del p-valor. Además, este desarrollo es similar al que en Casella y Berger (1987) reconcilia la 5 evidencia bayesiana y frecuentista en el problema del contraste de hipótesis unilaterales y nuestro objetivo es poner de manifiesto los motivos de la discrepancia entre ambas aproximaciones para el problema del contraste de hipótesis nula simple dado en (1.2). Hay una extensa literatura sobre la comparación entre medidas clásicas y bayesianas. Algunas referencias importantes, además de las ya mencionadas, son Edwards, Lindman y Savage (1963), Pratt (1965), Dickey y Lienz (1970), Cox y Hinckley (1974), Bernardo (1980), Spiegelhalter y Smith (1982), Rubin (1984), Ghosh y Mukerjee (1992), McCulloch y Rossi (1992), Mukhopadhyay y DasGupta (1997), Berger, Boukai y Wang (1997, 1999), Oh y DasGupta (1999), De la Horra y Rodŕıguez-Bernal (2003), Gómez-Villegas, Máın, Sanz y Navarro (2004) y De la Horra (2005). 1.3. Notación Se va a denotar a la función de verosimilitud mediante f (a, c|p1, p2) =   n1 a     n2 c   pa 1 (1− p1) n1−a pc 2 (1− p2) n2−c , que se considera como una función de θ = (p1, p2) para el valor observado de (X1, X2) = (a, c), a = 0, 1, · · · , n1, c = 0, 1, · · · , n2. Si la distribución marginal de (X1, X2), con respecto a la distribución a priori π ∈ Γ, se denota mediante m (a, c|π), entonces m (a, c|π) = (1− ε) m (a, c|q0) + εm (a, c|q) . Por lo tanto, suponiendo que existan las distribuciones a posteriori q0 (p1, p2|a, c) y q (p1, p2|a, c), la distribución a posteriori de (p1, p2) dado (a, c) con respecto a π ∈ Γ es π (p1, p2|a, c) = λ (a, c) q0 (p1, p2|a, c) + (1− λ (a, c)) q (p1, p2|a, c) , donde λ (a, c) = (1−ε)m(a,c|q0) m(a,c|π) . Una medida clásica de la evidencia en contra de la hipótesis nula, que depende de las observaciones, es el p-valor. Si T = T (X1, X2) es un estad́ıstico adecuado para contrastar 6 (1.4), por ejemplo un estad́ıstico suficiente, el p-valor correspondiente al punto (a, c) del espacio muestral es p (a, c) = sup (p1,p2)∈H0δ P (|T (X1, X2)| > |T (a, c)| | (p1, p2)) . En particular, para contrastar (1.2), el p-valor es de la forma p (a, c) = P (|T (X1, X2)| > |T (a, c)| | (p0, p0)) . En la sección 1.6 se consideran dos estad́ısticos diferentes para contrastar (1.2). Con este procedimiento, la decisión de aceptar o rechazar H0 depende de lo grande o pequeño que sea el p-valor, es decir, se rechaza H0 si p < p∗, siendo p∗ ∈ (0, 1) un valor suficientemente pequeño. 1.4. Acotaciones de la Probabilidad A Posteriori En esta sección se obtiene una cota inferior de la probabilidad a posteriori de la hipótesis nula del contraste (1.2), para la distribución a priori π∗ dada en la expresión (1.3) y la probabilidad a priori de la hipótesis nula π0 dada en (1.5). Si se considera el contraste de hipótesis introducido en (1.2), una distribución a priori arbitraria π ∈ Γ como en (1.1) y una distribución a priori de tipo mixto π∗ dada en (1.3) con masa asignada a la hipótesis nula π0 según (1.5), entonces la probabilidad a posteriori de H0 : p1 = p2 = p0 es P (H0|a, c) = [ 1 + 1− π0 π0 ∫ 1 0 ∫ 1 0 pa 1 (1− p1) b pc 2 (1− p2) d π (p1, p2) dp2dp1 pa+c 0 (1− p0) b+d ]−1 . Para calcular una cota inferior de la probabilidad a posteriori de H0 es suficiente cal- cular una cota superior de 1−π0 π0 m (a, c|π), cuando π ∈ Γ. Por la construcción de π∗ (p1, p2), π0 depende de q ∈ Q a través del valor π0 q dado en la expresión (1.6). Por lo tanto, dicha cota inferior se puede calcular evaluando el supremo cuando q ∈ Q de 1− π0 π0 m (a, c|π) = [ 1 (1− ε) π0 q0 + επ0 q − 1 ] [(1− ε) m (a, c|q0) + εm (a, c|q)] . (1.7) 7 Como el supremo de (1.7) cuando q ∈ Q es siempre menor o igual que el producto de sup q∈Q [ 1 (1− ε) π0 q0 + επ0 q − 1 ] = 1 (1− ε) π0 q0 y sup q∈Q [(1− ε) m (a, c|q0) + εm (a, c|q)] , siendo m (a, c|q) ∝ ∫ 1 0 ∫ 1 0 pa 1 (1− p1) b pc 2 (1− p2) d q (p1, p2) dp2dp1 ≤ sup (p1,p2) 6=(p0,p0) pa 1 (1− p1) b pc 2 (1− p2) d , entonces P (H0|a, c) ≥ [ 1 + 1− (1− ε) π0 q0 (1− ε) π0 q0 ηε (a, c) ]−1 , (1.8) donde ηε (a, c) = (1− ε) ∫ 1 0 ∫ 1 0 pa 1 (1− p1) bpc 2 (1− p2) d q0 (p1, p2) dp2dp1 pa+c 0 (1− p0) b+d + ε ( a a+b )a ( b a+b )b ( c c+d )c ( d c+d )d pa+c 0 (1− p0) b+d . La expresión anterior proporciona una cota inferior para la probabilidad a posteriori de la hipótesis nula, por lo tanto la primera cuestión a plantearse es si es posible alcanzar dicho ı́nfimo mediante una distribución de la clase Γ dada en (1.1). La respuesta a dicha pregunta viene dada en el siguiente teorema. Teorema 1.4.1 Sea (p̂1, p̂2) estimador de máxima verosimilitud de (p1, p2) cuando (p1, p2) ∈ H1. Si (p̂1, p̂2) /∈ B ((p0, p0) , δ) y, para ρ fijo, ∫ B((p0,p0),ρ) f (a, c|p1, p2)dp2dp1 se aproxima mediante πρ2f (a, c|p̂1, p̂2), entonces la distribución dada por π̃ (p1, p2) = (1− ε) q0 (p1, p2) + εq̃ (p1, p2) , 8 donde q̃ (p1, p2) es uniforme en B ((p̂1, p̂2) , ρ) , verifica que ı́nfπ∈ΓPπ (H0|a, c) = Pπ (H0|a, c) = [ 1 + 1− (1− ε) π0 q0 (1− ε) π0 q0 ηε (a, c) ]−1 , (1.9) donde π0 q0 y ηε (a, c) están dados en (1.6) y(1.8), respectivamente. Demostración. Por (1.7), se necesita calcular π0 y m (a, c|π̃). Puesto que para π̃, π0 = ∫ B((p0,p0),δ) π̃ (p1, p2)dp2dp1 = (1− ε) ∫ B((p0,p0),δ) q0 (p1, p2)dp2dp1 + ε ∫ B((p0,p0),δ) q̃ (p1, p2)dp2dp1 = (1− ε) π0 q0 y m (a, c|π̃) = (1− ε) m (a, c|q0) + εm (a, c|q̃) , donde m (a, c|q̃) = ∫ 1 0 ∫ 1 0 f (a, c|p1, p2) q̃ (p1, p2) dp2dp1 = 1 πρ2 ∫ B((p̂1p̂2),ρ) f (a, c|p1, p2) dp2dp1 ≈f (a, c|p̂1, p̂2) =   n1 a     n2 c   ( a a + b )a ( b a + b )b ( c c + d )c ( d c + d )d , con lo que se obtiene (1.9). Es interesante observar que la restricción real en este teorema es (p̂1, p̂2) /∈ B ((p0, p0) , δ), puesto que en este caso, eligiendo un valor suficientemente pequeño de ρ, la aproxi- mación de la integral es siempre posible y B ((p0, p0) , δ) ∩ B ((p̂1, p̂2) , ρ) es vaćıa. Si (p̂1, p̂2) ∈ B ((p0, p0) , δ), la desigualdad dada en la expresión (1.9) es estricta. 9 1.5. Ejemplos Una posible distribución inicial consiste en asignar distribuciones a priori uniformes o de Laplace independientes, es decir, q0 (p1, p2) = I(0, 1) (p1) I(0, 1) (p2) . En este caso, la cota inferior de la probabilidad a posteriori de la hipótesis nula se obtiene evaluando la expresión (1.8) en ηε (a, c) = (1− ε) η (a, c) + ε ( a a+b )a ( b a+b )b ( c c+d )c ( d c+d )d pa+c 0 (1− p0) b+d , (1.10) siendo η (a, c) = p−m1 0 (1− p0) −m2 Γ(a+1)Γ(b+1) Γ(a+b+2) Γ(c+1)Γ(d+1) Γ(c+d+2) . Se puede observar que fijados n1, n2 y κ, a lo sumo existen cuatro tablas 2 × 2 pertenecientes al conjunto Aκ = {(a, c) , η (a, c) = κ}. Además, la función g (a, c) = ( a a + b )a ( b a + b )b ( c c + d )c ( d c + d )d es constante sobre Aκ y para p0 fijo, la función pa+c 0 (1− p0) b+d toma a lo sumo dos valores distintos sobre Aκ. En esta situación, P (H0|κ) ≥ [ 1 + 1− (1− ε) π0 q0 (1− ε) π0 q0 ηε (κ) ]−1 , (1.11) donde ηε (κ) = (1− ε) κ + ε g(κ) mı́nAκpa+c 0 (1−p0)b+d . Una asignación más general consiste en utilizar distribuciones a priori betas independien- tes, es decir, q0 (p1, p2) = Γ (α + β) Γ (α) Γ (β) Γ (γ + δ) Γ (γ) Γ (δ) pα−1 1 (1− p1) β−1 pγ−1 2 (1− p2) δ−1 , para p1, p2 ∈ (0, 1), (α, β, γ, δ > 0). En este caso, la cota de la probabilidad a posteriori de la hipótesis nula se obtiene evaluando la expresión (1.8) en η (a, c) = p−m1 0 (1− p0) −m2 Γ (α + β) Γ (α) Γ (β) Γ (γ + δ) Γ (γ) Γ (δ) Γ (a + α) Γ (b + β) Γ (a + b + α + β) Γ (c + γ) Γ (d + δ) Γ (c + d + γ + δ) . 10 1.6. Comparación con el Método Clásico Desde el punto de vista clásico, en lugar de considerar los valores observados (a, c) fijos y permitir que (p1, p2) vaŕıe, se fija el punto (p0, p0) de la hipótesis nula y después se calcula la probabilidad de observar un punto en alguna región extrema de la hipótesis alternativa en la que esté incluido (a, c), es decir, en lugar de calcular la probabilidad a posteriori de la hipótesis nula, se calcula el p-valor. (La idea es básicamente que o H0 es falsa, o ha ocurrido un suceso con probabilidad muy baja.) En los contrastes paramétricos de hipótesis nula simple es sabido que los métodos clásicos y bayesianos pueden dar lugar a diferentes decisiones, véase Lindley (1957), Berg- er y Selke (1987) y Berger y Delampady (1987), entre otros. En la mayoŕıa de las aproxi- maciones bayesianas se considera el ı́nfimo de la probabilidad a posteriori del punto de la hipótesis nula o del factor Bayes sobre una amplia clase de distribuciones a priori, y se ob- tiene que el ı́nfimo es sustancialmente mayor que el correspondiente p-valor. Es necesario apuntar que en todos estos casos la masa asignada al punto de la hipótesis nula es 1 2 . Por otro lado, Casella y Berger (1987) muestran que no hay discrepancia en los problemas de contraste unilaterales. En la mayoŕıa de las contribuciones existentes se utiliza una clase de distribuciones a priori. Gómez-Villegas y Sanz (2004) utilizan la clase de las distribuciones a priori unimodales y simétricas para mostrar que los p-valores y las probabilidades a posteriori se pueden igualar para el contraste de hipótesis nula simple en el caso multivariante. Nuestro objetivo es comprobar que para contrastar (1.2) no hay discrepancia entre las aproximaciones clásica y bayesiana cuando la distribución a priori pertenece a la clase de las distribuciones ε−contaminadas. Se puede observar que la cota inferior de la probabilidad a posteriori dada en la expresión (1.9) depende del estad́ıstico η (a, c), que se puede utilizar como estad́ıstico de contraste para construir una región cŕıtica y calcular el p-valor, p (a, c), correspondiente al punto (a, c) observado del espacio muestral. Si observado un punto (a0, c0), κ0 denota el valor de η en dicho punto, es decir, 11 η (a0, c0) = κ0, entonces se puede calcular la probabilidad de que al repetirse el experi- mento, para (p0, p0) fijo, se pueda obtener un nuevo valor de η mayor o igual que κ0. Por lo tanto, {η ≥ κ0} es una posible región cŕıtica, y p (a0, c0) = P {η ≥ κ0| (p0, p0)} (1.12) = ∑ η(a,c)≥κ0 f (a, c|p0, p0) = ∑ η(a,c)≥κ0   n1 a     n2 c   pa+c 0 (1− p0) b+d = p (κ0) es el p-valor. Sin embargo, el método clásico usual χ2 de Pearson utiliza la variable aleatoria Λ = a2 n1p0 + b2 n1 (1− p0) + c2 n2p0 + d2 n2 (1− p0) −N (1.13) como estad́ıstico de contraste. La distribución asintótica de Λ cuando H0 es cierta es una χ2 2. En este caso, si observado (a0, c0), Λ (a0, c0) = λ0, entonces la evidencia utilizada es el p-valor p (a0, c0) = P {Λ ≥ λ0| (p0, p0)} = P ( χ2 2 ≥ λ0 ) = e− λ0 2 . (1.14) En cualquier caso, con los procedimientos clásicos descritos anteriormente se rechaza H0 si p < p∗, siendo p∗ ∈ (0, 1) un valor suficientemente pequeño. El objetivo es determinar un valor adecuado de δ tal que los valores de la cota inferior de la probabilidad a posteriori dada en la expresión (1.11) estén próximos a los respectivos p-valores. Una posibilidad es elegir un valor δ que verifique la ecuación p (a, c) = ı́nfπ∈ΓPπ (H0|a, c) . Por ejemplo, si se utiliza η como estad́ıstico de contraste, para la cota inferior dada en la expresión (1.11), se obtiene π0 q0 = 1 1− ε p (κ) ηε (κ) p (κ) ηε (κ) + 1− p (κ) . (1.15) 12 Por lo tanto, la masa a priori que se asigna a la hipótesis nula dependeŕıa de los datos. Quizá seŕıa más conveniente considerar el valor π0 q0 = 1 1− ε p (κ) ηε (κ) p (κ) ηε (κ) + 2p∗ − p (κ) , para el que se verifica que p (k) 2p∗ = ı́nfπ∈ΓPπ (H0|a, c) . Esta posibilidad se contempla en el caṕıtulo 2. Una posibilidad para eliminar esta dependencia de los datos es reemplazar p (κ) por el nivel de significación α. Además, si el valor elegido para δ está próximo a un valor obtenido mediante (1.15), entonces se consigue que el p-valor y el ı́nfimo de la probabilidad a poste- riori de la hipótesis nula estén próximos, puesto que el ı́nfimo es una función continua de δ. Tabla 1.2: cotas inferiores de la probabilidad a posteriori de H0 : p1 = p2 = 1 2 , con q0 (p1, p2) = I(0,1) (p1) I(0,1) (p2) y ε = 0,2, para tablas (a, c) con P {η ≥ κ0| (p0, p0)} próximo a 0,1, 0,05 y 0,01. P (η ≥ η (a, c)) 0,1063 0,0905 0,0533 0,0442 0,0118 0,0097 π0 q0 = 0,5 0,1677 0,1594 0,1013 0,0825 0,0222 0,0182 π0 q0 = 0, 2 0,1052 0,0996 0,0617 0,0499 0,0131 0,0107 π0 q0 = 0,12 0,1014 0,0961 0,0594 0,048 0,0126 0,0103 π0 q0 = 0,11 0,0978 0.0926 0,0572 0,0462 0,0121 0,0099 π0 q0 = 0,1 0,0942 0,0891 0,0549 0,0444 0,0116 0,0095 π0 q0 = 0,09 0,0906 0,0858 0,0528 0,0426 0,0111 0,0091 π0 q0 = 0,08 0,0871 0,0824 0,0507 0,0408 0,0106 0,0087 η (a, c) 1,025 1,064 1,794 2,07 7,68 8,28 La Tabla 1.2 muestra los valores de la cota inferior de la probabilidad a posteriori de H0 dada en la expresión (1.11), para algunos valores espećıficos de η (a, c) y de π0 q0 , cuando 13 p0 = 1 2 y la opinión inicial q0 (p1, p2) = I(0, 1) (p1) I(0, 1) (p2) está contaminada con ε = 0,2. Se puede observar que si se toma un valor adecuado de π0 q0 = π0 q0 (δ) = πδ2 1−ε , los valores de la cota inferior están próximos a los respectivos p-valores dados en la expresión (1.12). Por ejemplo, si se toma π0 q0 ∈ (0,3, 0,35), entonces para δ ∈ (0,27, 0,3) las cotas inferiores de la probabilidad a posteriori son aproximadamente iguales a los p-valores. También se puede observar que cuando π0 q0 = 1 2 la discrepancia entre las dos medidas es mayor. Tabla 1.3: cotas inferiores de la probabilidad a posteriori de H0 : p1 = p2 = 1 2 , con q0 (p1, p2) = I(0,1) (p1) I(0,1) (p2) y ε = 0, para tablas (a, c) con P {η ≥ κ0| (p0, p0)} próxi- mo a 0,1, 0,05 y 0,01. P (η ≥ η (a, c)) 0,1063 0,0905 0,0533 0,0442 0,0118 0,0097 π0 q0 = 0,5 0,4938 0,4844 0,358 0,3257 0,1151 0,1077 π0 q0 = 0,2 0,1961 0,1902 0,1223 0,1077 0,0315 0,0293 π0 q0 = 0,12 0,1174 0,1135 0,0706 0,0618 0,0174 0,0162 π0 q0 = 0, 11 0,107 0,104 0,0644 0,0563 0,0158 0,0147 π0 q0 = 0,1 0,0978 0,094 0,0583 0,0509 0,0142 0,0132 π0 q0 = 0,09 0,0879 0,085 0,0522 0,0456 0,0127 0,0118 π0 q0 = 0,08 0,0782 0,075 0,0462 0,0403 0,0111 0,0104 π0 q0 = 0,07 0,0684 0,066 0,0403 0,0351 0,0096 0,009 η (a, c) 1,025 1,064 1,794 2,07 7,68 8,28 El mismo estudio para ε = 0 se muestra en la Tabla 1.3. En este caso, se puede observar que si se toma π0 q0 ∈ (0,09, 0,11), entonces para δ ∈ (0,17, 0,19) las cotas inferiores de la probabilidad a poteriori de H0 son aproximadamente iguales a los p-valores. La Tabla 1.4 muestra los valores de las cotas inferiores de la probabilidad a pos- teriori de H0 obtenidas mediante la expresión (1.11), cuando p0 = 1 2 , q0 (p1, p2) = I(0, 1) (p1) I(0, 1) (p2) y ε = 0, para tablas (a, c) tales que el p-valor P (Λ ≥ Λ (a, c)) da- 14 do en la expresión (1.14) esté próximo a los valores usuales, 0.1, 0.05 y 0.01. Se puede observar que si se toma π0 q0 ∈ (0,09, 0,11), entonces para δ ∈ (0,17, 0,19) las cotas inferiores de la probabilidad a poteriori de H0 son aproximadamente iguales a los p-valores. Cabe destacar que el rango de valores de π0 q0 que estabiliza la cota inferior de la probabilidad a posteriori de H0 : p1 = p2 = 1 2 en torno al p-valor del método clásico es el mismo para los estad́ısticos η y Λ. Esto pone de manifiesto que la discrepancia entre los p-valores correspondientes a ambos estad́ısticos no es muy grande. Tabla 1.4: cotas inferiores de la probabilidad a posteriori de H0 : p1 = p2 = 1 2 , con q0 (p1, p2) = I(0,1) (p1) I(0,1) (p2) y ε = 0, para tablas (a, c) con P {Λ ≥ λ0| (p0, p0)} próxi- mo a 0,1, 0,05 y 0,01. P (Λ ≥ Λ (a, c)) 0,143 0,0868 0,052 0,0445 0,0138 0,0094 π0 q0 = 0, 5 0,6095 0,4938 0,358 0,3257 0,1077 0,085 π0 q0 = 0,2 0,2807 0,1961 0,1223 0,1077 0,2931 0,0227 π0 q0 = 0, 12 0,1755 0,1174 0,0706 0,0618 0,0162 0,0125 π0 q0 = 0,11 0,1617 0,107 0,0644 0,0563 0,0147 0,0113 π0 q0 = 0,1 0,1478 0,0978 0,0583 0,0509 0,0132 0,0102 π0 q0 = 0,09 0,1337 0,0879 0,0522 0,0456 0,0118 0,0091 π0 q0 = 0,08 0,1195 0,0782 0,0462 0,0403 0,0104 0,008 π0 q0 = 0,07 0,1051 0,0684 0,0403 0,0351 0,009 0,0069 Λ (a, c) 3,89 4,89 5,89 6,22 8,56 9,33 1.7. Comentarios Los resultados obtenidos son una consecuencia de la metodoloǵıa basada en la relación entre la hipótesis nula puntual del contraste (1.2) y la hipótesis nula más realista del contraste (1.4). En los términos de la medida de información de Kullback-Leibler, la 15 discrepancia entre π (p1, p2) ∈ Γ, siendo Γ la clase de distribuciones ε−contaminadas, dada en (1.1), y la distribución a priori de tipo mixto π∗ (p1, p2), dada en (1.3), justifica la elección de π0 como en (1.5), con un valor adecuado de δ. Según este procedimiento, π∗ (p1, p2), utilizada para el contraste (1.2), está próxima a la distribución a priori continua π (p1, p2), utilizada para el contraste (1.4), como puede verse en en Gómez-Villegas y Sanz (2000) y Gómez-Villegas, Máın y Sanz (2002). Cuando π (p1, p2) pertenece a la clase de distribuciones ε−contaminadas, la cota inferi- or de la probabilidad a posteriori del punto de la hipótesis nula se puede hacer próxima al p-valor, eligiendo un valor adecuado de δ, como se muestra en la sección 1.6. Estos resul- tados parecen indicar que en el problema del contraste de homogeneidad de distribuciones multinomiales independientes, la discrepancia observada entre las aproximaciones clásicas y Bayesianas es más acusada usando π0 = 1 2 en la distribución mixta. Gómez-Villegas y Sanz (2000) obtienen resultados similares en un contexto diferente. Finalmente, siguiendo un razonamiento similar al desarrollado para tablas 2 × 2, es posible la generalización de los resultados obtenidos al caso de tablas r × s, cuando el punto de la hipótesis nula, p0, es conocido, desconocido, o de forma funcional conocida, p0 = p (ω), en el problema del contraste de homogeneidad de r poblaciones multinomiales independientes. Un estudio detallado de estos casos se realiza en el caṕıtulo 2. 16 Caṕıtulo 2 Análisis Bayesiano de Tablas de Contingencia La visualización de los datos mediante tablas de contingencia se utiliza en diferentes aproximaciones de la inferencia estad́ıstica, por ejemplo, para abordar el contraste de homogeneidad de distribuciones multinomiales independientes. Mediante el procedimiento bayesiano introducido en el caṕıtulo 1 para el contraste de hipótesis nula simple frente a alternativa bilateral en tablas de contingencia, dadas muestras independientes de dos distribuciones binomiales y tomando una distribución a priori de tipo mixto, se calcula la probabilidad a posteriori de que la proporción de éxitos en la primera población sea igual que en la segunda. Dicha probabilidad a posteriori se compara con el p-valor del procedi- miento clásico, obteniéndose una reconciliación entre ambos resultados. Los resultados obtenidos se generalizan para tablas r×s, cuando p0 es conocido, desconocido o de forma funcional conocida, p0 = p (ω) . 2.1. Introducción En el mismo contexto de la sección 1.1 se supone que se dispone de muestras aleatorias independientes de dos poblaciones suficientemente grandes, siendo cada uno de sus ele- 17 mentos clasificado como éxito o fracaso. La primera muestra es de tamaño n1 y produce a éxitos y b fracasos, la segunda es de tamaño n2 y produce c éxitos y d fracasos. Los datos se visualizan en la Tabla 1.1. En esta situacón, se precisa una medida cuantitativa de hasta qué punto los datos apoyan o no la hipótesis de que la proporción de éxitos en la primera población, p1, es igual a la proporción de éxitos en la segunda población, p2. Este problema, aparentemente sencillo, ha dado lugar a una extensa literatura, desde que Karl Pearson introdujera su ya clásico test de la χ2 para valorar la bondad del ajuste (Pear- son, 1900). Además es uno de los problemas en los que existen discrepancias manifiestas entre los métodos clásicos y Bayesianos y entre distintos tipos de anális clásicos. Natu- ralmente, hay un número de variaciones a este problema. Algunas referencias bayesianas importantes se citan a continuación. Howard (1998) aboga por el uso más frecuente de contrastes unilaterales y aborda el problema desde un punto de vista bayesiano, considerando como hipótesis de interés H1 : p2 < p1 y H2 : p1 < p2. Proporciona una medida cuantitativa de la fuerza de la evidencia en apoyo de la hipótesis más probable, en el supuesto de que se esté considerando que p1 y p2 no son ninguno 0 ó 1 y que p1 6= p2, y observa que el contraste clásico de la χ2 puede considerarse como una aproximación de una probabilidad a posteriori de p2 < p1, tomando distribuciones a priori de Jeffreys independientes, es decir, π (p1, p2) ∝ p −1/2 1 (1− p1) −1/2 p −1/2 2 (1− p2) −1/2 . Además introduce una familia conjugada de distribuciones a priori que incorpora depen- dencia entre las opiniones iniciales sobre las dos poblaciones. En esta misma ĺınea de trabajo con hipótesis unilaterales del tipo p1 > p2, se pueden mencionar otras aproximaciones bayesianas al problema de comparación de dos propor- ciones para una tabla 2×2: métodos log-odds-ratio y métodos inverse-root-sine, que cal- culan la probabilidad a posteriori, para distribuciones a priori beta, de que Λ1 − Λ2 > 0, siendo Λi = log pi (1− pi) −1, y Λi = arcsen √ pi, i = 1, 2, respectivamente, como medidas del grado en el que dos poblaciones son homogéneas. (véase Lee (1997), págs. 152-154). 18 Quintana (1998) desarrolla un modelo bayesiano no paramétrico para valorar la homo- geneidad de r poblaciones multinomiales independientes, en tablas de contingencia r × s con tamaños muestrales fijos. Supone que el vector de clasificación de probabilidades es una muestra de una distribución F que se ajusta a un proceso Dirichlet, centrado en una medida de probabilidad α y con peso c. También asigna a c una distribución a priori y propone un factor Bayes. Lindley (1988) expone un modelo de probabilidad para la formación de genotipos, AA, Aa y aa, utilizando dos parámetros, α = 1 2 log 4p1p3 p2 2 y β = 1 2 log p1 p3 . Considera un test bayesiano para el contraste α = 0, frente a α 6= 0, basado en el factor Bayes, donde α = 0 corresponde a la hipótesis nula de equilibrio Hardy-Weinberg, H0 : p2, 2p (1− p) , (1− p)2, siendo p la proporción de alelos de tipo A en la población. Se considera el contraste de igualdad de proporciones de poblaciones multinomiales independientes, cuando las proporciones comunes son conocidas. Nuestra aproximación general al problema de homogeneidad, consiste en trabajar directamente con la hipótesis nula simple, calculando su probabilidad a posteriori. Para ello, se sigue el método utilizado por Gómez-Villegas y Sanz (2000) y Gómez-Villegas, Máın y Sanz (2002), que consiste en asignar una probabilidad inicial π0 a la hipótesis nula, y repartir la probabilidad restante en los puntos de la alternativa, mediante una densidad a priori π (p1, p2). Con este procedi- miento, en el contexto de la hipótesis nula puntual, se consigue una reconciliación entre el p-valor y la probabilidad a posteriori de la hipótesis nula. En la sección 2.2 se formula de forma precisa el problema y se calcula una expre- sión exacta de la probabilidad a posteriori de que la proporción de éxitos en la primera población sea igual que en la segunda, e igual a un valor común p0 conocido. En la sección 2.3 se llega a una reconciliación entre el resultado clásico y bayesiano, y se consideran los datos de Pearson (1947) (véase la Tabla 2.2) para ilustrar el procedimiento. En la sección 2.4 se generalizan los resultados de las secciones 2.2 y 2.3 para tablas r × s. En la sección 2.6 se expone un resumen de conclusiones. En la sección 2.7 se desarrollan tres métodos bayesianos que permiten abordar el problema de homogeneidad de poblaciones 19 multinomiales para tablas de contingencia r× s cuando p0 sea desconocido, y se compara el resultado clásico con los resultados obtenidos con dichos métodos Bayesianos para los datos del ejemplo de Pearson. En la sección 2.8 se generalizan los resultados de la sección 2.7 en el supuesto de que la forma funcional de p0 sea conocida a falta de q parámetros por determinar, q < s, y se consideran los datos del ejemplo de Lindley (1998) (véase la Tabla 2.7) para ilustrar dichos procedimientos. En la sección 2.8 se concluye con algunos comentarios. Tabla 2.1: ejemplo de Pearson. Éxitos Fracasos Total Muestra 1 3 15 18 Muestra 2 7 5 12 Total 10 20 30 2.2. Formulación del Problema y Cálculo de la Probabilidad A Posteriori Al igual que en la sección 1.2, sean Xi, i =1, 2, variables aleatorias binomiales, B (ni, pi), i =1, 2, independientes, con ni ∈ N, i =1, 2, fijos y conocidos. Se pretende contrastar (1.2) con p0 conocido. En el caṕıtulo 1 se utilizó la clase de distribuciones ε−contaminadas para describir la opinión que se tiene a priori sobre θ = (p1, p2). En este caṕıtulo se va a suponer que ε = 0, es decir, la opinión a priori viene dada por una densidad particular π (θ) = π (p1, p2). En consecuencia, para contrastar (1.2) se necesita una distribución a priori de tipo mixto. Se propone (1.3), en cuyo caso, la probabilidad a posteriori de la hipótesis nula, observados los datos de la Tabla 1.1, es P (H0|a, c) = pa+c 0 (1− p0) b+d π0 pa+c 0 (1− p0) b+d π0 + (1− π0) ∫ 1 0 ∫ 1 0 pa 1 (1− p1) b pc 2 (1− p2) d π (p1, p2) dp2dp1 20 donde π0 es la probabilidad a priori inicial asignada a H0 : p1 = p2 = p0. Una posible distribución inicial consiste en asignar distribuciones a priori uniformes o de Laplace independientes, es decir, π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2) . En este caso, la probabilidad a posteriori de la hipótesis nula es P (H0|a, c) = [ 1 + 1− π0 π0 η ]−1 , (2.1) donde η = p−m1 0 (1− p0) −m2 Γ(a+1)Γ(b+1) Γ(a+b+2) Γ(c+1)Γ(d+1) Γ(c+d+2) . Una asignación más general consiste en utilizar distribuciones a priori betas independien- tes, es decir, π (p1, p2) = Γ (α + β) Γ (α) Γ (β) Γ (γ + δ) Γ (γ) Γ (δ) pα−1 1 (1− p1) β−1 pγ−1 2 (1− p2) δ−1 , siendo p1, p2 ∈ (0, 1) , (α, β, γ, δ > 0). En este caso, la probabilidad a posteriori de la hipótesis nula se obtiene evaluando la expresión (2.1) en el estad́ıstico η = p−m1 0 (1− p0) −m2 Γ (α + β) Γ (α) Γ (β) Γ (γ + δ) Γ (γ) Γ (δ) Γ (a + α) Γ (b + β) Γ (a + b + α + β) Γ (c + γ) Γ (d + δ) Γ (c + d + γ + δ) . La probabilidad a posteriori calculada en la expresión (2.1) depende de π0, la masa a priori inicial asignada a la hipótesis nula. Ahora, considerando las hipótesis de la expresión (1.4), para una métrica d apropiada y un valor de δ > 0 suficientemente pequeño, se puede aplicar el método de Gómez-Villegas y Sanz (2000) y Gómez-Villegas, Máın y Sanz (2002) y calcular π0 mediante (1.5). Con este segundo procedimiento, la probabilidad a posteriori obtenida en (2.1) puede ser expresada en términos de δ. Aqúı, los resultados se obtienen en función de π0 y posteriormente se especifican en términos de δ empleando la expresión (1.5). Por otro lado, se puede observar que valores de δ que se corresponden con valores de π0 > η η+1 , hacen que P (H0|a, c) > 1 2 . Además, si δ es tal que π0 = 1 2 , entonces P (H0|a, c) = 1 η+1 . 21 En cualquier caso, cuando p0 = 1 2 en (1.2), cualquiera que sea el valor de π0 elegido, la probabilidad a posteriori de la hipótesis nula se obtiene para η = 2N Γ (a + 1) Γ (b + 1) Γ (a + b + 2) Γ (c + 1) Γ (d + 1) Γ (c + d + 2) . (2.2) Para los datos de la Tabla 2.1 se obtiene η = 6,7265 y, si δ = 1√ 2π , entonces π0 = 1 2 y P (H0|a, c) = 0,1294, con lo cual se rechaza H0. Además, para aceptar H0 con los datos del ejemplo de Pearson, debe ser δ > 0,53905 o equivalentemente π0 >0.8706. Por lo tanto, para dichos datos, se observa que existe un amplio rango de valores de δ, δ < 0,53905, donde se rechaza H0. 2.3. Comparación con el Método Clásico En la sección 1.6, siguiendo un razonamiento similar al de Gómez-Villegas y Sanz (2000), se comprobó que para contrastar (1.2), eligiendo un valor adecuado de δ, el ı́nfimo de la probabilidad a posteriori del punto de la hipótesis nula se puede hacer próximo al p-valor, cuando la distribución a priori pertenece a la clase de distribuciones ε−contaminadas. La metodoloǵıa empleada se basaba en la búsqueda de un intervalo de valores de δ en el que ambas medidas, la clásica y la bayesiana, fueran aproximadamente iguales para valores de dicha cota inferior próximos a los p-valores usuales. Ahora, el objetivo es comprobar que para contrastar (1.2) no hay discrepancia entre la aproximación clásica, expresada en términos del p-valor, y la bayesiana, en términos de la probabilidad a posteriori del punto de la hipótesis nula calculada en la sección anterior, cuando se utiliza una única distribución a priori. Como es usual, si se considera, como medida de la evidencia a favor de H1, la discre- pancia entre los valores observados y los valores esperados bajo H0 cierta, en los términos del estad́ıstico χ2 de Pearson, el estad́ıstico de contraste es la variable aleatoria Λ dada en la expresión (1.13). Entonces, observado un punto (a0, c0), si λ0 denota el valor de Λ en dicho punto, {Λ ≥ λ0} es una posible región cŕıtica y el valor dado en la expresión (1.14) es el p-valor. 22 Con este procedimiento, la decisión de aceptar o rechazar H0 depende de lo grande o pequeño que sea el p-valor, es decir, se rechaza H0 si p < p∗, siendo p∗ ∈ (0, 1) un valor suficientemente pequeño. Si se pretende contrastar (1.2) con p0 = 1 2 , mediante el método clásico descrito ante- riormente, entonces el estad́ıstico de contraste es la variable aleatoria Λ = 2 [ a2 + b2 n1 + c2 + d2 n2 ] −N, (2.3) y la evidencia utilizada es el p-valor, p = e N 2 − a2 0+b20 n1 − c20+d2 0 n2 . (2.4) Para los datos de la Tabla 2.1 se obtiene Λ = 8,33333, y un p-valor p = 0,015504. Se observa que para p∗ = 0,05 se rechaza H0, pero para p∗ = 0,01 no hay evidencia estad́ıstica suficiente para rechazar, y en ese sentido se acepta H0. La probabilidad a posteriori del punto de la hipótesis nula, dada en la expresión (2.1), depende del estad́ıstico η. Para comparar el método bayesiano propuesto con el méto- do clásico χ2 de Pearson, que utiliza como estad́ıstico de contraste la variable aleatoria Λ dada en la expresión (1.13), seŕıa interesante que existiese una dependencia funcional entre ambos estad́ısticos, η y Λ, (o entre la probabilidad a posteriori y el p-valor, p), es decir, η = g (Λ), para cierta función g : R+ → R+ creciente. Sin embargo, en el caso de tablas 2 × 2, si n1 = 18 y n2 = 12, se puede observar que para los datos del ejemplo de Pearson, (a, c) = (3, 7), el valor de η que se obtiene a partir de la expresión (2.2) es 6,72 y el valor de Λ obtenido de la expresión (2.3) es 8,33333, mientras que si (a, c) = (9, 1), se obtiene η = 7,45 y Λ = 8,33333, lo que pone de manifiesto que dicha dependencia fun- cional no es posible. Además, se puede observar que a diferencia de Λ, η si distingue entre las dos situaciones anteriores. No obstante, se puede comprobar que existe una función h : R+ → R+, no monótona, tal que Λ = h (η) (veáse la Figura 2.1). Por lo tanto, el test clásico admite una representación en términos del estad́ıstico η. Cabe destacar, que ninguno de ellos es un estad́ıstico suficiente para el modelo. 23 Figura 2.1: Diagrama de Barras (η (a, c) , Λ (a, c)), para tablas 2 × 2 con n1 = 18 y n2 = 12. Existe una función no monótona, h : R+ → R+, tal que Λ = h (η) . 65865.65 19759.69 5327.37 1420.63 487.89 304.93 129.15 80.72 35.87 19.51 8.28 6.46 2.31 1.54 1.02 .47 .28 .17 .10 40 30 20 10 0 En los contrastes paramétricos de hipótesis nula puntual, normalmente, existe una dis- crepancia entre el p-valor y la probabilidad a posteriori que puede dar lugar a controversias entre los métodos clásicos y bayesianos, debido a que, con frecuencia, la probabilidad a posteriori es considerablemente mayor que el p-valor, cuando se utiliza una distribución a priori particular. Para llegar a algún tipo de reconciliación entre la aproximación clásica y la bayesiana seŕıa conveniente la equivalencia de ambas medidas, bien en cuanto a la decisión que se deriva de ellas, o bien que un mismo número tuviera ambas interpreta- ciones. A partir de ahora, se hará referencia a estas dos situaciones de equivalencia, como acuerdo cualitativo o cuantitativo, respectivamente. Ahora, se va a considerar la siguiente ecuación, [ 1 + 1− π0 π0 η ]−1 = p 2p∗ , 24 a partir de la cual se puede despejar el valor de π0, π0 = [ 1 + 1 η ( 2p∗ p − 1 )]−1 = ηp ηp + 2p∗ − p , (2.5) que verifica que, si (a, c) es tal que P (H0|a, c) > 1 2 , entonces p(a, c) > p∗ y rećıprocamente. Por lo tanto, utilizando el valor de π0 obtenido en la expresión (2.5) se llegaŕıa, en términos cualitativos, a la misma conclusión con los dos métodos, clásico y bayesiano. Además, si p∗ = 1 2 , para dicho valor de π0 se consigue que la probabilidad a posteriori sea igual al p-valor. Se puede observar que el valor de π0 dado en la expresión (2.5) verifica que 0 < π0 < 1 para tablas (a, c) tales que 2p∗(a, c) > p. Por lo tanto, fijado p∗, 0 < p∗ < 1, para (a, c) tal que 0 < p(a, c) < p∗ ó p∗ < p(a, c) < 2p∗, existe una probabilidad a priori inicial π0, 0 < π0 < 1, que asignada a la hipótesis nula del contraste (1.2) hace que la decisión que se tome con ambos métodos sea la misma. Se observa también, que si p∗ = 1 2 entonces, cualquiera que sea el punto observado (a, c), dicho π0 siempre existe y verifica que P (H0|a, c) = p(a, c). Tabla 2.2: resumen de resultados para los datos del ejemplo de Pearson, p0 = 1 2 y π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2). κ p η (η + 1)−1 η (η + 1)−1 δ 8,333333 0,015504 6,7265 0,1294 0,8706 0,53905 Tabla 2.1 p∗ = 0,5 p∗ = 0,1 p∗ = 0,05 p∗ = 0,01 ηp (ηp + 2p∗ − p)−1 0,09578 0,36113 0,5524 0,9587 δ 0,17461 0,33904 0,41933 0,6085 p (2p∗)−1 0,015504 0,07752 0,15503 0,77523 25 Para los datos de la Tabla 2.1, si p∗ = 1 2 y π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2), el valor π0 que reconcilia el p-valor, p = 0,015504, con la probabilidad a posteriori es π0 = 0,09578. Si p∗ = 0,1 se obtiene π0 = 0,36113 y se rechaza con una probabilidad a posteriori de 0,07752. Si p∗ = 0,05 se obtiene π0 = 0,5524 y se rechaza con 0,15503. Para p∗ = 0,01 se obtiene π0 = 0,9587 y se acepta con 0,77533. Los resultados obtenidos se resumen en la Tabla 2.2. Además, se puede observar cómo el valor de π0, y por lo tanto el valor de δ, para el que se consigue acuerdo entre el resultado clásico y Bayesiano, en los términos expuestos anteriormente, disminuye cuando p∗ aumenta. No obstante, dicha reconciliación es demasiado estricta, ya que el valor obtenido en la expresión (2.5) depende de los datos a través del estad́ıstico η, sin embargo da una idea de cómo debeŕıa ser el valor de δ para que la reconciliación entre ambos métodos sea posible. En este sentido, no se afirma que haya que igualar ambas expresiones, sino que la utilización de un valor de π0 próximo al resultado de esa igualación puede proporcionar, cuando esto sea posible, un valor numérico cualitativamente o cuantitativamente igual desde ambos puntos de vista, clásico y bayesiano. Para eliminar la dependencia de los datos, una posibilidad es formular el acuerdo en términos cuantitativos utilizando p∗ = 1 2 en (2.5). En este caso se intenta encontrar un intervalo de valores de π0 = π0 (δ), tal que en dicho intervalo, las probabilidades a posteriori y los p-valores sean aproximadamente iguales, al menos para los p-valores usuales, p ∈ (0,01, 0,1). De esta forma la probabilidad a posteriori no se comparara con el valor 1 2 sino con p∗. Esta fue la metodoloǵıa utilizada en la sección 1.6 donde numéricamente se comprobó que, para contrastar (1.2) con p0 = 1 2 y distribuciones a priori uniformes independientes, basta con elegir π0 ∈ (0,09, 0,11) o equivalentemente δ ∈ (0,17, 0,19) para que las probabilidades a posteriori obtenidas evaluando la expresión (2.1) en (2.2) estén próximas a los p-valores usuales obtenidos a partir de la expresión (2.4). Sin embargo, como se demostrará en el caṕıtulo 3, se puede desarrollar un procedimien- to que permite formalizar dicha reconciliación cualitativamente, mediante un teorema, en 26 los términos de una condición suficiente. Por todo ello, de ahora en adelante los esfuerzos se centrarán en el método cualitativo. Desde un punto de vista cualitativo lo deseable seŕıa formular el acuerdo de manera que fijado , p∗ ∈ (0, 1), usualmente p∗ = 0,01, 0,05 o 0,1, existiera un intervalo de valores de π0 = π0 (δ, p∗), π0 ∈ (`1, `2), para ciertos `1, `2 ∈ (0, 1), `1 < `2, tal que, para contrastar (1.2), un clásico que actuara utilizando p∗ para ponderar el p-valor, llegara al mismo resultado, en los términos de aceptar o rechazar, que un bayesiano utilizando un valor π0 ∈ (`1, `2) como masa a priori del punto de la hipótesis nula. En este caso, para eliminar la dependencia de los datos en (2.5), se han generado todas las posibles tablas 2 × 2, para n1 y n2 fijos y conocidos. Aśı, si n1 = 18 y n2 = 12, se generan las 247 tablas posibles. Los datos de Pearson se corresponden con la tabla que ocupa la posición 95 en la ordenación en sentido ascendente realizada según los valores de η. Para cada una de estas tablas se efectúa el mismo estudio que se ha efectuado previa- mente para los datos del ejemplo de Pearson. Mediante un análisis de datos sencillo se puede comprobar que existen valores de p∗, como por ejemplo p∗ = 0,5, p∗ = 0,1, p∗ = 0,05 o p∗ = 0,01, para los que existe un intervalo de valores de π0, I = I (p∗, n1 = 18, n2 = 12), tal que el resultado que se obtiene con el método bayesiano propuesto para el contraste (1.2), con p0 = 1 2 y π (p1, p2) = 1, p1, p2 ∈ (0, 1), utilizando un valor de π0 ∈ I, es el mismo que se obtiene mediante el método lásico χ2 de Pearson, (véase la Tabla 2.3). Por lo tanto existe acuerdo entre ambos métodos. Por ejemplo, si un clásico utilizara p∗ = 0,05 para ponderar el p-valor, un bayesiano sólo tendŕıa que usar π0 ∈ (0,643, 0,673) para llegar a la misma conclusión que aquel. No obstante, también existen valores de p∗, por ejemplo, p∗ = 0,015, para los que esto no es posible. A modo de comprobación, con los datos de la Tabla 2.1, se obtuvo que P (H0|a, c) > 1 2 cuando π0 > 0,8706, y p = 0,015504 (véase la Tabla 2.2). Aśı, cuando p∗ = 0,05, eligiendo π0 ∈ (0,643, 0,673) los dos rechazaŕıan H0, mientras que si p∗ = 0,01, escogiendo π0 ∈ (0,893, 0,914) los dos aceptaŕıan H0. Por lo tanto existe acuerdo entre ambos métodos. 27 Tabla 2.3: resumen de resultados para tablas 2× 2 con n1 = 18 y n2 = 12, p0 = 1 2 y π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2). p∗ ∈ (0,46, 0,513) (0,087, 0,143) (0,045, 0,052) (0,0095, 0,0138) δ ∈ (0,221, 0,23) (0,353, 0.4) (0,453, 0,462) (0,5528, 0,5675) π0 ∈ (0,153, 0.167) (0,391, 0,506) (0,643, 0,673) (0,893, 0,914) De nuevo, se puede observar como el valor de π0, y por lo tanto el valor de δ, para el que es posible la reconciliación anterior entre ambos métodos, disminuye cuando p∗ aumenta. También se puede comprobar que el valor de π0 calculado mediante la expresión (2.5) no siempre existe, y cuando existe, no siempre pertenece al intervalo de valores para los que se ha obtenido la reconciliación entre ambos métodos. En el caṕıtulo 3 se estudia esta cuestión con más detalle. En general, fijados n1, n2 y p∗, si se denotan mediante `1 = `1 (p∗, n1, n2) = máx (a, c), p>p∗ η (η + 1)−1 , `2 = `2 (p∗, n1, n2) = mı́n (a, c), p≤p∗ η (η + 1)−1 , y p∗ verifica que `1 < `2, entonces, existe un intervalo de valores de π0 = π0 (δ, p∗), I = I (p∗, n1, n2) = (`1, `2), tal que si π0 ∈ I, el resultado que se obtiene con el método bayesiano propuesto para el contraste (1.2), utilizando un valor de π0 ∈ I, es el mismo que se obtiene mediante el método clásico χ2 de Pearson, utilizando p∗. Este resultado se formaliza en en el caṕıtulo 3. Es evidente que, en el ejemplo estudiado, la existencia de valores p∗ para los cuales se verifica la condición suficiente que garantiza el acuerdo entre ambos métodos depende de la tendencia creciente que se puede observar (véase la Figura 2.1) en la relación funcional que existe entre ambos estad́ısticos, Λ = h (η), aunque no sea estrictamente monótona. 28 2.4. Tablas r × s con p0 Conocido A continuación se generalizan los resultados obtenidos previamente al caso de tablas r×s. Para ello, se dispone de muestras aleatorias independientes de r poblaciones suficien- temente grandes, de forma que cada uno de sus individuos pertenezca a una y sólo una de las s clases excluyentes C1, · · · , Cs. La muestra i-ésima, i = 1, · · · , r, es de tamaño ni y pro- duce nij individuos en la categoŕıa Cj, j = 1, · · · , s. Los datos se visualizan en la Tabla 2.4. Tabla 2.4: datos en la tabla r×s. Clase 1 Clase 2 . . . Clase s Total Muestra 1 n11 n12 . . . n1s n1 Muestra 2 n21 n22 . . . n2s n2 ... ... ... ... ... ... Muestra r nr1 nr2 . . . nrs nr Total m1 m2 . . . ms N Sean Xi, i = 1, · · · , r, variables aleatorias independientes, multinomiales, MB (ni, pi), con pi = (pi1, · · · , pis) ∈ Θ, siendo Θ = { p = (p1, · · · , ps) ∈ (0, 1)s , ∑s j=1 pj = 1 } ⊂ Rs−1, para ni ∈ N, i = 1, · · · , r, valores fijos y conocidos. En esta situación, se pretende contrastar H0 : p1 = · · · = pr = p0 versus H1 : ∃i 6= j, pi 6= pj, (2.6) donde p0 = (p01, · · · , p0s) ∈ Θ es un valor desconocido y H1 : ∃i 6= j, pi 6= pj significa que al menos uno de ellos es distinto de p0. Además, supongamos que la opinión a priori sobre (p1, · · · ,pr) viene dada por la densidad π (p1, · · · ,pr) = ∏r i=1 π (pi). Por lo tanto, para contrastar (2.6) se precisa una distribución a priori de tipo mixto. Se propone, π∗ (p1, · · · ,pr) = π0IH0 (p1, · · · ,pr) + (1− π0) π (p1, · · · ,pr) IH1 (p1, · · · ,pr) , 29 siendo π0 la masa a priori asignada a la hipótesis nula. Por consiguiente, la probabilidad a posteriori de la hipótesis nula, observados los datos de la Tabla 2.4, es s∏ j=1 p ∑r i=1 nij 0j π0 s∏ j=1 p ∑r i=1 nij 0j π0 + (1− π0) r∏ i=1 ∫ Θ s∏ j=1 p nij ij π (pi) dpi . Sea αi = (αi1, · · · , αis), con αij > 0, para todo j = 1, · · · , s y para todo i = 1, · · · , r. Si se asigna a cada pi una distribución a priori de Dirichlet de parámetro αi, D (αi), i = 1, · · · , r, (véase Ghosh y Ramamoorthi (2003), caṕıtulo 3), es decir π (pi) = Γ (∑s j=1 αij ) s∏ j=1 Γ (αij) s∏ j=1 p αij−1 ij , pi = (pi1, · · · , pis) ∈ Θ, i = 1, · · · , r, entonces, dicha probabilidad a posteriori es  1 + s∏ j=1 p −mj 0j 1− π0 π0 r∏ i=1    Γ (∑s j=1 αij ) ∏s j=1 Γ (αij) ∫ Θ s∏ j=1 p nij+αij−1 ij dpi      −1 . Por lo tanto, la probabilidad a posteriori de la hipótesis nula, observados los datos de la Tabla 2.4, se puede expresar de la siguiente forma: [ 1 + 1− π0 π0 η ]−1 , (2.7) siendo η = s∏ j=1 p −mj 0j    ∏r i=1 Γ (∑s j=1 αij ) ∏r i=1 ∏s j=1 Γ(αij)       ∏r i=1 ∏s j=1 Γ(nij+αij) r∏ i=1 Γ ( ni+ ∑s j=1 αij )    . En concreto, si se asignan a los parámetros pi, i = 1, · · · , r, distribuciones a priori uniformes sobre Θ e independientes, entonces, la probabilidad a posteriori de la hipótesis nula se obtiene evaluando la expresión (2.7) en η = s∏ j=1 p −mj 0j Γ (s)r {∏r i=1 ∏s j=1 Γ (nij + 1) ∏r i=1 Γ (ni + s) } . La probabilidad a posteriori calculada en la expresión (2.7) depende de π0, la proba- bilidad a priori inicial asignada a la hipótesis nula H0 : p1 = · · · = pr = p0. 30 Denotando por P0 = (p0, · · · ,p0) ∈ Θr ⊂ Rr(s−1) y P = (p1, · · · ,pr) ∈ Θr ⊂ Rr(s−1), la hipótesis nula del contraste (2.7) es H0 : P = P0. Ahora, se puede pensar que en lugar de (2.6) es más realista H0δ : d (P0,P) ≤ δ, versus H1δ : d (P0,P) > δ, para una métrica d apropiada y un valor de δ > 0 suficientemente pequeño. Se propone utilizar B (P0, δ) = { P ∈ Θr, ∑r i=1 ∑s - 1 j = 1 (pij − p0j) 2 ≤ δ2 } . Entonces, aplicando el método de Gómez-Villegas y Sanz (2000) y Gómez-Villegas, Máın, y Sanz (2002), se podŕıa usar π (p1, · · · ,pr) = π (P), la opinión inicial sobre P, para calcular π0 promediando, π0 = ∫ B(P0,δ) π (P)dP. Con este método, si se asignan distribuciones a priori uniformes sobre Θ e independientes a cada pi, i = 1, · · · , r, se obtiene π0 = π r(s−1) 2 δr(s−1) Γ ( r(s−1) 2 + 1 ) , el volumen de la esfera de radio δ en Rr(s−1), para δ suficientemente pequeño. Por otra parte, desde un punto de vista clásico, si se utiliza el estad́ıstico χ2 de Pearson como estad́ıstico de contraste, es decir Λ = r∑ i=1 s∑ j=1 n2 ij nip0j −N, y λ0 denota el valor de Λ en el punto formado por los datos observados de la Tabla 1.5, es decir, Λ (nij0, i = 1, · · · , r, j = 1, · · · , s) = λ0, entonces {Λ ≥ λ0} es una posible región cŕıtica y p = P (Λ ≥ λ0|p0) = P ( χ2 r(s−1) ≥ λ0 ) . es el p-valor. 31 Por consiguiente, es obvio que, para buscar una reconciliación entre ambos resultados, el clásico y el bayesiano, se puede seguir un razonamiento análogo al desarrollado en la sección 2.3, dado que la expresión (2.7) es similar a la expresión (2.1). En conclusión, fijados ni, i = 1, · · · , r y p∗, si se denotan mediante `1 = `1 (p∗, n1, · · · , nr) = max (nij), p>p∗ η (η + 1)−1 , (2.8) `2 = `2 (p∗, n1, · · · , nr) = min (nij), p≤p∗ η (η + 1)−1 , (2.9) y p∗ verifica que `1 < `2, entonces existe un intervalo, I = I (p∗, n1, · · · , nr) = (`1, `2), de valores de π0, tal que, si π0 ∈ I, el resultado que se obtiene con el método bayesiano propuesto para el contraste (2.6), utilizando un valor de δ tal que π0(δ) ∈ I, es el mismo que se obtiene mediante el método clásico χ2 de Pearson. Por lo tanto, el acuerdo es posible en los términos de dicha condición suficiente. 2.5. Conclusiones La probabilidad a posteriori de la hipótesis nula de homogeneidad de poblaciones multinomiales independientes en tablas r×s, cuando p0 es conocido, para una distribución a priori de tipo mixto, que asigna una probabilidad inicial π0 a la hipótesis nula mediante (1.5) y reparte de forma continua la probabilidad restante en los puntos de la alternativa mediante una densidad a priori Dirichlet, admite la siguiente representación: P (H0|n11, · · · , nrs) = [ 1 + 1− π0 π0 η ]−1 , donde η es un estad́ıstico que cuantifica la fuerza de la evidencia a favor de la hipótesis más verośımil, Λ = h (η) es el estad́ıstico de contraste para el método clásico χ2 de Pearson, y h : R+ → R+ es una función no monótona de tendencia creciente. Fijados ni ∈ N, i = 1, · · · , r y p∗ ∈ (0, 1), `1 < `2, definidos en las expresiones (2.8) y (2.9), proporciona una condición suficiente para que la reconciliación entre ambos métodos 32 sea posible. Es decir, si p∗ verifica que `1 < `2, entonces para δ tal que π0 = π0 (δ, p∗) ∈ (`1, `2) se satisface uno y sólo uno de los dos postulados siguientes: “p > p∗ y además [ 1 + 1− π0 π0 η ]−1 > 1 2 ”, “p ≤ p∗ y además [ 1 + 1− π0 π0 η ]−1 ≤ 1 2 ”, cualquiera que sea (nij0, i = 1, · · · , r, j = 1, · · · , s), el punto formado por los datos ob- servados de la Tabla 2.4. Por lo tanto, para contrastar (2.6), si `1 < `2, un clásico que utilizara p∗ para cuantificar el p-valor a la hora de tomar una decisión, llegaŕıa a la misma conclusión, en los términos de aceptar o rechazar, que un bayesiano que utilizara como masa a priori de la hipótesis nula un valor π0 ∈ (`1, `2). La existencia de valores p∗ que satisfagan dicha condición suficiente depende de la relación funcional, en términos de h, existente entre los estad́ısticos Λ y η. Por lo tanto, la reconciliación entre ambos métodos es posible en ese sentido. Por ejemplo, en tablas 2 × 2 con n1 = 18 y n2 = 12, para contrastar (1.2) con p0 = 1 2 y π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2), cuando p∗ = 0,1 el acuerdo se consigue para δ ∈ (0,353, 0,4) (véase la Tabla 2.3). En las secciones 2.6 y 2.7, siguiendo un razonamiento similar al desarrollado en el caso p0 conocido, se generalizan los resultados anteriores para el problema del contraste de homogeneidad de poblaciones multinomiales independientes cuando p0 es desconocido o de forma funcional conocida, p0 = p (ω), respectivamente. 2.6. Tablas r × s con p0 Desconocido En los mismos supuestos de la sección 2.4, se pretende contrastar (2.6) con p0 de- sconocido. Por lo tanto, las hipótesis de interés son H0 : p1 = · · · = pr, versus H1 : ∃i 6= j, pi 6= pj. (2.10) 33 En esta sección se desarrollan tres métodos bayesianos que permiten resolver este pro- blema de contraste, mediante los cuales, se puede llegar a una reconciliación con el método clásico usual, en la ĺınea que se ha explicado previamente. 2.6.1. Primer Método Sea p0 = (p01, · · · , p0s) ∈ Θ el valor común desconocido de la hipótesis nula. Si la opinión a priori sobre p0 viene dada por la densidad π (p0), para contrastar (2.10) se necesita una distribución a priori de tipo mixto. Siguiendo un razonamiento similar al desarrollado en las secciones anteriores, se propone π∗ (p1, · · · ,pr,p0) = π0π (p0) IH0 (p1, · · · ,pr,p0) + (1− π0)π (p1, · · · ,pr) IH1 (p1, · · · ,pr,p0) , siendo π0 la masa a priori asignada a H0 : p1 = · · · = pr, y π (p1, · · · ,pr) = ∏r i=1 π (pi) la opinión inicial sobre (p1, · · · ,pr). En este caso, la probabilidad a posteriori de la hipótesis nula de (2.10), observados los datos de la Tabla 2.4, es π0 ∫ Θ s∏ j=1 p ∑r i=1 nij 0j π (p0) dp0 π0 ∫ Θ s∏ j=1 p ∑r i=1 nij 0j π (p0) dp0 + (1− π0) r∏ i=1 ∫ Θ s∏ j=1 p nij ij π (pi) dpi . Sean, αi = (αi1, · · · , αis), con αij > 0 , para cada j = 1, · · · , s e i = 0, 1, · · · , r, y supongamos que π (pi) es la densidad de una distribución de Dirichlet de parámetro αi, D (αi), i = 0, 1, · · · , r. Entonces, ∫ Θ s∏ j=1 p ∑r i=1 nij 0j π (p0) dp0 = Γ (∑s j=1 α0j ) s∏ j=1 Γ (α0j) ∫ Θ s∏ j=1 p mj+α0j−1 0j dp0 = Γ (∑s j=1 α0j ) ∏s j=1 Γ (α0j) ∏s j=1 Γ (mj + α0j) Γ ( N + s∑ j=1 α0j ) . 34 Por lo tanto, dicha probabilidad a posteriori se puede expresar de la siguiente forma: B1 (π0) = [ 1 + 1− π0 π0 η1 ]−1 (2.11) donde η1 = ∏s j=1 Γ(α0j) Γ ( s∑ j=1 α0j ) Γ ( N+ ∑s j=1 α0j ) s∏ j=1 Γ(mj+α0j)    ∏r i=1 Γ (∑s j=1 αij ) ∏r i=1 ∏s j=1 Γ(αij)       ∏r i=1 ∏s j=1 Γ(nij+αij) r∏ i=1 Γ ( ni+ ∑s j=1 αij )    . 2.6.2. Segundo Método Sea p0 = (p01, · · · , p0s) ∈ Θ el valor común desconocido de la hipótesis nula. Para cada p0 ∈ Θ, se considera el siguiente contraste auxiliar: Hp0 0 : p1 = · · · = pr = p0, versus Hp0 1 : ∃i 6= j, con pi 6= pj. Observados los datos de la Tabla 2.4, con una distribución a priori adecuada, la prob- abilidad a posteriori de Hp0 0 : p1 = · · · = pr = p0 se puede expresar de la siguiente forma: [ 1 + 1− π0 π0 η2 ]−1 , donde η2 = η2 (p0) = s∏ j=1 p −mj 0j    ∏r i=1 Γ (∑s j=1 αij ) ∏r i=1 ∏s j=1 Γ(αij)       ∏r i=1 ∏s j=1 Γ(nij+αij) r∏ i=1 Γ ( ni+ ∑s j=1 αij )    y π0 = πp0 0 es la masa a priori asignada a Hp0 0 : p1 = · · · = pr = p0. Si la opinión a priori sobre p0 viene dada por la densidad π (p0), se puede considerar la siguiente medida cuantitativa del grado en el que r poblaciones son homogéneas en el contraste (2.10): B2 = ∫ Θ [ 1 + 1− πp0 0 πp0 0 η2 (p0) ]−1 π (p0) dp0. Cabe destacar que B2 es la probabilidad a posteriori de H0 : p1 = · · · = pr, obtenida a partir de la distribución a priori π∗ (p1, · · · ,pr,p0) = π∗ (p1, · · · ,pr|p0) π (p0) , 35 siendo π∗ (p1, · · · ,pr|p0) = πp0 0 IH0 (p1, · · · ,pr,p0) + (1− πp0 0 ) π (p1, · · · ,pr) IH1 (p1, · · · ,pr,p0) . Por lo tanto, desde este punto de vista bayesiano, se acepta H0 : p1 = · · · = pr cuando B2 > 1 2 . Si para todo p0 ∈ Θ, la probabilidad a priori asignada a Hp0 0 : p1 = · · · = pr = p0, πp0 0 , es constante e igual a un valor π0, entonces π0 se puede interpretar como la probabilidad a priori de H0 : p1 = · · · = pr, en cuyo caso, B2 (π0) = ∫ Θ [ 1 + 1− π0 π0 η2 (p0) ]−1 π (p0) dp0. (2.12) 2.6.3. Tercer Método En el mismo contexto en el que se ha desarrollado el segundo método, la idea es considerar, como medida cuantitativa del grado en el que r poblaciones son homogéneas en el contraste (2.10), el valor del supremo de P (Hp0 0 |n11, · · · , nrs,p0), cuando p0 vaŕıa en Θ. Como el valor donde se alcanza el ı́nfimo de ∏s j=1 p −mj 0j cuando p0 vaŕıa en Θ, p̂0, se obtiene para p̂0j = mj N , j = 1, · · · , s, dicha medida es B3 (π0) = [ 1 + 1− π0 π0 η3 ]−1 , (2.13) donde η3 = NN s∏ j=1 m −mj j    ∏r i=1 Γ (∑s j=1 αij ) ∏r i=1 ∏s j=1 Γ(αij)       ∏r i=1 ∏s j=1 Γ(nij+αij) r∏ i=1 Γ ( ni+ ∑s j=1 αij )    . Por lo tanto, con este método, se rechaza H0 : p1 = · · · = pr cuando B3 < 1 2 . 2.6.4. Comparación con el Método Clásico Desde un punto de vista clásico, si se considera el estad́ıstico χ2 de Pearson como estad́ıstico de contraste, Λ = N   r∑ i=1 s∑ j=1 n2 ij nimj − 1   , 36 y λ0 denota el valor de Λ en el punto formado por los datos observados en la Tabla 2.4, es decir, Λ (nij0, i = 1, · · · , r, j = 1, · · · , s) = λ0, entonces, {Λ ≥ λ0} es una posible región cŕıtica, y p = P (Λ ≥ λ0|p1 = · · · = pr) = P ( χ2 (r−1)(s−1) ≥ λ0 ) es el p-valor. Se puede observar que las medidas bayesianas dadas, respectivamente, en las expre- siones (2.11) y (2.13) tienen la misma forma funcional que (2.7). Por lo tanto, siguiendo un razonamiento similar al desarrollado en la secciones 2.3 y 2.4, es posible una reconciliación entre los resultados clásicos y bayesianos, para cada uno de los tres métodos bayesianos expuestos anteriormente, en los términos de una condición suficiente. Para ilustrar el procedimiento, se va a considerar el caso más sencillo, en el que se pretende contrastar H0 : p1 = p2, versus H1 : p1 6= p2. (2.14) Además, se supone que p0, p1 y p2 tienen, respectivamente, distribuciones uniformes sobre el intervalo unidad. En este caso, las medidas cuantitativas del grado en el que las dos poblaciones binomiales son homogéneas para los tres métodos bayesianos propuestos, dadas, respectivamente, en las expresiones (2.11), (2.12) y (2.13), se obtienen evaluando dichas expresiones en η1 = Γ (N + 2) Γ (m1 + 1) Γ (m2 + 1) Γ (a + 1) Γ (b + 1) Γ (a + b + 2) Γ (c + 1) Γ (d + 1) Γ (c + d + 2) , η2 = η2 (p0) = p−m1 0 (1− p0) −m2 Γ (a + 1) Γ (b + 1) Γ (a + b + 2) Γ (c + 1) Γ (d + 1) Γ (c + d + 2) , η3 = NNm−m1 1 m−m2 2 Γ (a + 1) Γ (b + 1) Γ (a + b + 2) Γ (c + 1) Γ (d + 1) Γ (c + d + 2) . La probabilidad a posteriori calculada mediante los tres métodos bayesianos propuestos depende de π0, la masa a priori inicial asignada a la hipótesis nula H0 : p1 = p2. 37 Sea πk 0 = πk 0 (δk) el valor de π0 que verifica que Bk (π0) > 1 2 si y sólo si π0 > πk 0 , k =1,2,3. Fijado un punto (p0, p0) ∈ H0, sea B ((p0, p0) , δ) = { (p1, p2) ∈ (0, 1)× (0, 1) , (p1 − p0) 2 + (p2 − p0) 2 ≤ δ2 } , la bola de centro (p0, p0) y radio δ. Entonces, se podŕıa utilizar π (p1, p2), la opinión a priori sobre (p1, p2), y calcular π0 mediante π0 = ∫ C(δ) π (p1, p2)dp2dp1, (2.15) siendo C (δ) = ⋃ p0∈(0 ,1) B ((p0, p0) , δ) = { (p1, p2) ∈ (0, 1)× (0, 1) , p1 − 2δ2 < p2 < p1 + 2δ2 } . Se puede observar que si la opinión a priori sobre (p1, p2) es uniforme, π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2), entonces el valor de π0 que se obtiene a partir de la expresión (2.15), para δ suficientemente pequeño, es π0 = 2 √ 2δ (1− 2δ2) + 2δ2 = 2 √ 2δ + 2δ2 − 4 √ 2δ3. Por otro lado, para contrastar (2.14) desde un punto de vista clásico, el estad́ıstico de contraste usual obtenido por el método χ2 de Pearson, evaluado en los datos de la Tabla 1.1, es el cuadrado del estad́ıstico de Yule, es decir, Λ = {ad− bc}2 N n1n2m1m2 . En este caso, si observado un punto (a0, c0), λ0 denota el valor del estad́ıstico de Yule en dicho punto, es decir Λ (a0, c0) = λ0, entonces la evidencia utilizada es el p-valor, p = P (Λ ≥ λ0|p1 = p2) = P ( χ2 1 ≥ λ0 ) . Cabe destacar que los estad́ısticos Λ, η1 y η3 no son suficientes. Además, se puede comprobar que los métodos bayesianos basados, respectivamente, en las medidas B1 y B3 no se pueden expresar en términos de Λ. No obstante, existen funciones hk : R+ → R+, k =1, 3, no monótonas, tales que Λ = hk (ηk), k =1, 3, (véanse las Figuras 2.2 y 2.3), con lo cual, el test clásico admite sendas representaciones en términos de η1 y η3. Tam- bién se puede observar que la función h3 presenta irregularidades más pronunciadas que h1. 38 Figura 2.2: Diagrama de Barras (η1 (a, c) , Λ (a, c)), para tablas 2× 2 con n1 = 18 y n2 = 12. Existe una función h1 : R+ → R+, no monótona, tal que Λ = h1 (η1). 23858.0769230769 1754.2703619910 279.0884666804 86.1746844487 34.4272394272 15.3622693096 7.1561145303 4.7668485361 2.3815282692 1.9861868900 1.1469567584 .8685590725 .7241306370 .5995455783 .4870743034 .4396667574 .4151201449 .3406114010 .1255060729 40 30 20 10 0 Sean n1, n2 y p∗ fijos y conocidos. Para comparar con el método clásico los resultados obtenidos con los tres métodos bayesianos desarrollados en esta sección, siguiendo el mismo razonamiento empleado en la sección 2.3, se puede calcular el valor de π0 que verifica la ecuación Bk (π0) = p 2p∗ , k = 1, 2, 3. (2.16) En este caso, si dicho valor se denota por π∗k0, k =1, 2, 3, se obtiene π∗k0 = ηkp ηkp + 2p∗ − p , k = 1, 3, mientras que para el segundo método habŕıa que calcular su valor numéricamente, ya que no se puede obtener su expresión expĺıcita. Entonces, utilizando π∗k0 se llegaŕıa con el k-ésimo método Bayesiano, k =1, 2, 3, a la misma conclusión que con el método clásico. 39 Figura 2.3: Diagrama de Barras (η3 (a, c) , Λ (a, c)), para tablas 2× 2 con n1 = 18 y n2 = 12. Existe una función h3 : R+ → R+, no monótona, tal que Λ = h3 (η3). 5327.3687385886 388.2987451779 61.2052953844 18.1670039704 7.5742207677 3.3190437038 1.5232087087 .9396490916 .4884170138 .3501515108 .2262813200 .1768751231 .1382373155 .1171483391 .0967644853 .0892229007 .0772004222 .0523791335 .0040485830 40 30 20 10 0 Para los datos del ejemplo de Pearson, los resultados obtenidos con el método clásico y los tres métodos bayesianos propuestos, se resumen en la Tabla 2.5. Con el método clásico se obtiene Λ = 5,625 y un p-valor p = 0,017706. Por ejemplo, para el primero de los métodos bayesianos propuestos, η1 = 5,8347y si π0 = 1 2 , entonces B1 = 0,1463. Además, para aceptar H0 : p1 = p2, debe ser π0 > 0,8537, o equivalentemente δ > 0,2913. Si p∗ = 0,5, el valor de π0 que reconcilia dicho p-valor con la probabilidad a posteriori es π∗10 = 0,09516, o alternativamente δ∗1 = 0,03294. Si p∗ = 0,1 se obtiene π∗10 = 0,3617 con δ∗1 = 0,1211 y se rechaza con una probabilidad a posteriori de 0,08853. Si p∗ = 0,05 se obtiene π∗10 = 0,5566 con δ∗1 = 0,1852 y se rechaza con 0,17706. Para p∗ = 0,01 se obtiene π∗10 = 0,9782 con δ∗1 = 0,3435 y se acepta con 0,8853. Además, para cada uno de los tres métodos bayesianos propuestos, al igual que ocurŕıa con p0 conocido, se puede observar cómo el valor de π0, y por lo tanto el valor de δ, para el que se consigue acuerdo entre el 40 resultado clásico y bayesiano, disminuye cuando p∗ aumenta. También se aprecia que el tercer método bayesiano es el más conservador con respecto a la hipótesis nula del contraste (2.15), mientras que el segundo método es el que rechaza antes. Por ejemplo, si π0 = 1 2 , aunque los tres métodos rechazan H0 : p1 = p2, B1 = 0,1463, B2 = 0,110919 y B3 = 0,4484. En consecuencia, como es posible observar en la Tabla 2.5, el valor de π0, o equivalentemente el valor de δ, para el que se alcanza el acuerdo con el tercer método es más pequeño que el correspondiente al de los métodos primero y segundo. De todas formas, como los valores de δ que se obtienen con el segundo método están muy próximos a los obtenidos con el primero y la dificultad de cálculo es considerablemente mayor, se propone utilizar el primer método bayesiano o, desde un punto de vista más conservador, el tercero. Tabla 2.5: resumen de resultados para los datos del ejemplo de Pearson, p0 desconocido y π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2). Tabla 2.5.1: método clásico Λ p 5,625 0,017706 Tabla 2.5.2: métodos Bayesianos Tabla 2.5.2.1: Tabla 2.1 ηk Bk ( 1 2 ) πk 0 δk Método 1 Método 2 Método 3 5,8347 1,2301 0,1463 0,110919 0,4484 0,8537 0,995416 0,5516 0,2913 0,3514 0,1836 41 Tabla 2.5.2.2: π∗k0 δ∗k p (2p∗)−1 p∗ = 0,5 p∗ = 0,1 p∗ = 0,05 p∗ = 0,01 Método 1 0,09516 0,03294 0,017706 0,3617 0,1211 0,08853 0,5566 0,1852 0,17706 0,9782 0,3435 0,8853 Método 2 0,098975 0,034244 0,017706 0,41969 0,14001 0,08853 0,690015 0,23088 0,17706 0,911882 0,35355339 0,8853 Método 3 0,02169 0,00763 0,017706 0,1067 0,03686 0,08853 0,2093 0,07114 0,17706 0,9047 0,3117 0,8853 No obstante, el acuerdo obtenido en los términos de la expresión (2.16) es demasiado estricto, ya que π∗k0, k = 1, 2, 3, depende de los datos, sin embargo da una idea de cómo debeŕıa ser el valor de δ con el que se obtenga una reconciliación entre el método clásico y cada uno de los tres métodos bayesianos. En la Tabla 2.5 se observa que δ∗1 ∈ (0,1211, 0,3435), δ∗2 ∈ (0,14, 0,3536) y δ∗1 ∈ (0,0369, 0,3117), cuando p∗ ∈ (0,01, 0,5). Para intentar eliminar la dependencia que dicha reconciliación tiene de los datos se han generado todas las tablas 2× 2 que se pueden obtener para n1 y n2 fijos y conocidos. En el caso que nos ocupa las entradas son n1 = 18 y n2 = 12 y se generan las 247 tablas posibles. Para cada una de estas tablas se efectúa el mismo estudio que se ha realizado previamente para la tabla de Pearson. Mediante un análisis de datos sencillo se puede comprobar que para contrastar (2.14) con π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2), no existe acuerdo con ninguno de los métodos bayesianos primero y tercero, cuando p∗ = 0,5, p∗ = 0,1, p∗ = 0,05 o p∗ = 0,01. Sin 42 embargo se pueden determinar valores de p∗ para los que existe un intervalo de val- ores de π0 = π0 (δ), I = I (p∗, n1 = 18, n2 = 12), tal que el resultado que se obtiene con estos dos métodos bayesianos, utilizando un valor de π0 ∈ I, es el mismo que se obtiene mediante el método clásico χ2 de Pearson. Por ejemplo, el mayor valor de p∗ para el que existe acuerdo con el primer método es p∗ = 0,0635, mientras que con el tercero es p∗ = 0,008. Esto se debe a que el tercer método bayesiano es el más con- servador. Además, si p∗ ∈ (0,0635, 0,0637) o p∗ ∈ (0,008, 0,0085), utilizando, respecti- vamente, el primer método bayesiano con δ ∈ (0,2222, 0,223), que se corresponde con π0 ∈ (0,6651, 0,6675), y δ ∈ (0,3218, 0,3252), correspondiente a π0 ∈ (0,9288, 0,9368), se obtiene el mismo resultado que con el método clásico. Con el tercer método bayesiano ocurre lo mismo si p∗ ∈ (0,08, 0,0085) utilizando δ ∈ (0,2478, 0,2503), o equivalentemente un valor π0 ∈ (0,73769, 0,74455). En general, fijados ni, i = 1, · · · , r y p∗, si se denota mediante `1 = `1 (p∗, n1, · · · , nr) = máx (nij), p>p∗ πk 0 , `2 = `2 (p∗, n1, · · · , nr) = mı́n (nij), p≤p∗ πk 0 , y p∗ verifica que `1 < `2, entonces existe un intervalo, I = I (p∗, n1, · · · , nr) = (`1, `2), de valores de π0 = π0 (δ, p∗), tal que si π0 ∈ I, el resultado que se obtiene con el k-ésimo método Bayesiano propuesto para el contraste (2.10), k =1, 2, 3, utilizando un valor de π0 ∈ I, es el mismo que se obtiene mediante el método clásico χ2 de Pearson. Es decir, si p∗ verifica que `1 < `2, entonces para δ tal que π0 = π0 (δ, p∗) ∈ (`1, `2) se satisface uno y sólo uno de los dos postulados siguientes, “p > p∗ y además P (H0|n110, · · · , nrs0) > 1 2 ”, “p ≤ p∗ y además P (H0|n110, · · · , nrs0) ≤ 1 2 ”, cualquiera que sea (nij0, i = 1, · · · , r, j = 1, · · · , s), el punto formado por los datos obser- vados de la Tabla 2.4. Por lo tanto, el acuerdo es posible en este sentido. 43 2.7. Tablas r × s con p0 = p (ω) Ahora, en los mismos supuestos de la sección 2.4, se pretende contrastar H0 : p1 = · · · = pr = p (ω), versus H1 : ∃i 6= j, con pi 6= pj (2.17) donde p: Ω → Θ, siendo Ω = { ω = (ω1, · · · , ωq) , p (ω) = (p1 (ω) , · · · , ps (ω)) ∈ Θ} ⊂ Rq y q < s fijo. La hipótesis nula de (2.17) significa que la probabilidad de que un individuo seleccionado aleatoriamente pertenezca a la clase j es la misma para cada una de las i poblaciones, e igual a pij = pj (ω1, · · · , ωq), para cada j = 1, · · · , s, y para cada i = 1, · · · , r, es decir, las r poblaciones son homogéneas con una distribución de probabilidad especifi- cada a falta de q parámetros desconocidos. Tabla 2.6: datos en la tabla r×3. AA Aa Aa Total Muestra 1 a1 b1 c1 n1 Muestra 2 a2 b2 c2 n2 ... ... ... ... ... Muestra r ar br cr nr Total m1 m2 m3 N Por ejemplo, cuando se pretende estudiar si una o varias poblaciones se encuentran en equilibrio Hardy-Weinberg respecto a los tres genotipos posibles, AA, Aa y aa, la hipótesis nula es H0 : pi1 = p2, pi2 = 2p (1− p) , pi3 = (1− p)2 , i = 1, · · · , r, para algún p ∈ (0, 1). Este es un problema de contraste importante en genética. Para in- vestigarlo, se seleccionan muestras aleatorias de individuos en cada una de las poblaciones 44 en estudio, contabilizándose el número de los que presentan, en cada una de ellas, cada uno los tres genotipos. Los datos se visualizan en la Tabla 2.6. Más adelante se estudia este problema con detalle. A continuación se desarrollan tres métodos que permiten tratar el problema de con- traste (2.17) desde una perspectiva bayesiana. 2.7.1. Primer Método Si la densidad π (ω) describe la opinión que se tiene a priori sobre ω, para contrastar (2.17), se propone utilizar la siguiente distribución a priori de tipo mixto, π∗ (p1, · · · ,pr, ω) = π0π (ω) IH0 (p1, · · · ,pr, ω) + (1− π0)π (p1, · · · ,pr) IH1 (p1, · · · ,pr, ω) , siendo π0 la probabilidad a priori asignada a H0 : p1 = · · · = pr = p (ω), y π (p1, · · · ,pr) = ∏r i=1 π (pi) la opinión inicial sobre (p1, · · · ,pr). Aśı, la probabilidad a posteriori de la hipótesis nula, observados los datos de la Tabla 2.4, es π0 ∫ Ω s∏ j=1 pj (ω) ∑r i=1 nijπ (ω) dω π0 ∫ Ω s∏ j=1 pj (ω) ∑r i=1 nijπ (ω) dω + (1− π0) r∏ i=1 ∫ Θ s∏ j=1 p nij ij π (pi) dpi . Sean, αi = (αi1, · · · , αis), con αij > 0, para cada j = 1, · · · , s e i = 1, · · · , r, y π (pi) la densidad de una distribución de Dirichlet de parámetro αi, D (αi), i = 1, · · · , r. En este caso, dicha probabilidad a posteriori se puede expresar de la siguiente forma: B1 (π0) = [ 1 + 1− π0 π0 η1 ]−1 , (2.18) donde η1 = [ ∫ Ω s∏ j=1 pj (ω)mjπ (ω) dω ]−1    ∏r i=1 Γ (∑s j=1 αij ) ∏r i=1 ∏s j=1 Γ(αij)       ∏r i=1 ∏s j=1 Γ(nij+αij) r∏ i=1 Γ ( ni+ ∑s j=1 αij )    . En el ejemplo de los tres genotipos mencionado anteriormente, como el parámetro p representa la proporción de alelos de tipo A en la población, una posibilidad para 45 contrastar si una o varias poblaciones se encuentran en equilibrio Hardy-Weinberg es asignar a p una distribución inicial beta, es decir π (p) = Γ (α01 + α02) Γ (α01) Γ (α02) pα01−1 (1− p)α02−1 , p ∈ (0, 1) , (α01 , α02 > 0) . En este caso, ∫ Ω s∏ j=1 pj (ω)mjπ (ω) dω = 2m2 Γ (α01 + α02) Γ (α01) Γ (α02) Γ (2m1 + m2 + α01) Γ (m2 + 2m3 + α02) Γ (2N + α01 + α02) . 2.7.2. Segundo Método Sea ω0 = (ω01, · · · , ω0q) ∈ Ω el valor común desconocido de la hipótesis nula. Para cada ω0 ∈ Ω, se propone el siguiente contraste auxiliar: Hω0 0 : p1 = · · · = pr = p (ω0), versus Hω0 1 : ∃i 6= j, con pi 6= pj. (2.19) Observados los datos de la Tabla 2.4, con una distribución a priori adecuada, la pro- babilidad a posteriori de Hω0 0 : p1 = · · · = pr = p (ω0), se puede expresar de la siguiente forma: [ 1 + 1− π0 π0 η2 ]−1 , donde η2 = η2 (ω0) = s∏ j=1 pj (ω0) −mj    ∏r i=1 Γ (∑s j=1 αij ) ∏r i=1 ∏s j=1 Γ(αij)       ∏r i=1 ∏s j=1 Γ(nij+αij) r∏ i=1 Γ ( ni+ ∑s j=1 αij )    y π0 = πω0 0 es la masa a priori asignada a Hω0 0 . Si la opinión a priori sobre ω0 viene dada por la densidad π (ω0), una medida cuanti- tativa bayesiana del grado en el que r poblaciones son homogéneas en el contraste (2.19) es B2 = ∫ Ω [ 1 + 1− πω0 0 πω0 0 η2 (ω0) ]−1 π (ω0) dω0. Se puede observar que B2 es la probabilidad a posteriori de la hipótesis nula de (2.17), obtenida a partir de la distribución a priori π∗ (p1, · · · ,pr, ω) = π∗ (p1, · · · ,pr|ω) π (ω) , 46 donde π∗ (p1, · · · ,pr|ω) = πω 0 IH0 (p1, · · · ,pr, ω)+(1− πω 0 ) π (p1, · · · ,pr) IH1 (p1, · · · ,pr, ω). Por lo tanto, desde este punto de vista bayesiano, se aceptaŕıa H0 : p1 = · · · = pr = p (ω) cuando B2 > 1 2 . Si para todo ω0 ∈ Ω, la masa a priori asignada a Hω0 0 : p1 = · · · = pr = p (ω0), πω0 0 , fuera constante e igual a un valor π0, entonces, π0 podŕıa interpretarse como la probabilidad a priori de H0 : p1 = · · · = pr = p (ω). En este caso, B2 (π0) = ∫ Ω [ 1 + 1− π0 π0 η2 (ω0) ]−1 π (ω0) dω0. (2.20) 2.7.3. Tercer Método En el mismo contexto en el que ha sido desarrollado el segundo método, la idea es considerar como medida cuantitativa del grado en el que r poblaciones son homogéneas en el contraste (2.17) el valor donde se alcanza el supremo de P (Hω0 0 |n11, · · · , nrs, ω0), cuando ω0 vaŕıa en Ω. Si se denota por ω̂0 el valor donde se alcanza el ı́nfimo de ∏s j=1 pj (ω0) −mj , cuando ω0 vaŕıa en Ω, dicha medida es B3 (π0) = [ 1 + 1− π0 π0 η3 ]−1 , (2.21) donde η3 = s∏ j=1 pj (ω̂0) −mj    ∏r i=1 Γ (∑s j=1 αij ) ∏r i=1 ∏s j=1 Γ(αij)       ∏r i=1 ∏s j=1 Γ(nij+αij) r∏ i=1 Γ ( ni+ ∑s j=1 αij )    . 2.7.4. Comparación con el Método Clásico Desde un punto de vista clásico, si se considera el estad́ıstico χ2 de Pearson como estad́ıstico de contraste, Λ = r∑ i=1 s∑ j=1 n2 ij nipj (ω̂) −N, 47 siendo ω̂ el estimador de máxima verosimilitud de ω, y λ0 el valor de Λ en el punto formado por los datos observados en la Tabla 2.4, es decir, Λ (nij0, i = 1, · · · , r, j = 1, · · · , s) = λ0, entonces {Λ ≥ λ0} es una posible región cŕıtica y la evidencia utilizada es el p-valor, p = P (Λ ≥ λ0|p1 = · · · = pr = p (ω)) = P ( χ2 rs−1−q ≥ λ0 ) . A continuación se va a comprobar que, con la metodoloǵıa expuesta anteriormente y siguiendo un razonamiento similar al desarrollado en las secciones 2.3, 2.4 y 2.6, se puede concretar cómo y cuándo es posible una reconciliación entre los resultados clásicos y bayesianos. Para ilustrar el procedimiento, con el método clásico usual y los tres métodos bayesianos desarrollados anteriormente, se va a considerar que se pretende contrastar si una o varias poblaciones se encuentran en equilibrio Hardy-Weinberg. En este caso, con el tercer méto- do, la medida cuantitativa del grado en el que dichas poblaciones son homogéneas se ob- tiene evaluando la expresión (2.21) en ω̂0 = p̂ = 2m1+m2 2N , la proporción de alelos de tipo A en la muestra. Además, para los datos observados en la Tabla 2.6, si se asignan distribu- ciones a priori uniformes e independientes a cada pi1 = (pi1, pi2, pi3), pi3 = 1 − pi1 − pi2, i = 1, · · · , r, se obtiene η3 = 2−m2 p̂−2m1−m2 (1− p̂)−m2−2m3 r∏ i=1 Γ (ai + 1) Γ (bi + 1) Γ (ci + 1) Γ (ai + bi + ci + 3) . Además, en los supuestos anteriores, si también se asigna a la proporción de alelos de tipo A una distribución a priori de Laplace, entonces las medidas cuantitativas del grado en el que r poblaciones son homogéneas para los métodos primero y segundo se obtienen, respectivamente, evaluando las expresiones (2.18) y (2.20) en η1 = 2−m2 Γ (2N + 2) Γ (2m1 + m2 + 1) Γ (m2 + 2m3 + 1) 3∏ i=1 Γ (ai + 1) Γ (bi + 1) Γ (ci + 1) Γ (ni + 3) , η2 = η2 (π0) = 2−m2p−2m1−m2 0 (1− p0) −m2−2m3 3∏ i=1 Γ (ai + 1) Γ (bi + 1) Γ (ci + 1) Γ (ai + bi + ci + 3) . 48 Por lo tanto, Bk (π0) = [ 1 + 1− π0 π0 ηi ]−1 , k = 1, 3, B2 (π0) = ∫ 1 0 [ 1 + 1− π0 π0 η2 (p0) ]−1 dp0. En particular, si r =1 se obtiene η1 = 2−b1 Γ (2n1 + 2) Γ (2a1 + b1 + 1) Γ (b1 + 2c1 + 1) Γ (a1 + 1) Γ (b1 + 1) Γ (c1 + 1) Γ (n1 + 3) , η2 = η2 (π0) = 2−b1p−2a1−b1 0 (1− p0) −b1−2c1 Γ (a1 + 1) Γ (b1 + 1) Γ (c1 + 1) Γ (n1 + 3) , η3 = 2−b1 p̂−2a1−b1 (1− p̂)−b1−2c1 Γ (a1 + 1) Γ (b1 + 1) Γ (c1 + 1) Γ (n1 + 3) , donde p̂ = 2a1+b1 2n1 . La probabilidad a posteriori calculada mediante los tres métodos bayesianos propuestos depende de π0, la masa a priori asignada a la hipótesis nula H0 : p2, 2p (1− p) , (1− p)2. Sea πk 0 el valor de π0 que verifica que Bk (π0) > 1 2 si y sólo si π0 > πk 0 , k =1, 2, 3, siendo Bk, k =1, 2, 3, las medidas dadas respectivamente en las expresiones (2.18), (2.20) y (2.21). Se puede observar que πk 0 = ηk (ηk + 1)−1, k =1, 3. Tabla 2.7: ejemplo de Lindley. AA Aa Aa Total Muestra 1 31 38 31 100 Muestra 2 6 22 72 100 Muestra 3 2 6 92 100 Muestra 4 1 8 91 100 Total 40 74 286 400 49 Desde el punto de vista clásico, el estad́ıstico χ2de Pearson para una tabla r × 3 es Λ = ∑r i=1 { a2 i nip̂2 + b2 i ni2p̂ (1− nip̂) + c2 i ni (1− p̂)2 } −N, donde p̂ = 2m1+m2 2N . Tabla 2.8: resumen de resultados para los datos del ejemplo de Lindley. Tabla 2.8.1: método clásico. Tabla 2.7 κ p Muestra 1 5,75999999 0,016395073 Muestra 2 4,85810336 0,027516572 Muestra 3 13,5734072 0,000229413 Muestra 4 2,49307479 0,114348168 Total 286,676 0 Tabla 2.8.2: métodos Bayesianos. Tabla 2.7 p̂ pi1 (p̂) pi2 (p̂) pi3 (p̂) Muestra 1 0,5 0,25 0,5 0,25 Muestra 2 0,17 0,0289 0,2822 0.6889 Muestra 3 0,05 0,0025 0,095 0,9025 Muestra 4 0,05 0,0025 0,095 0,9025 Total 0,1925 0,03705625 0,3108875 0,65205625 50 Tabla 2.8.2.1: primer método Tabla 2.8.2.1.1: Tabla 2.7 η1 (η1 + 1)−1 η1 (η1 + 1)−1 Muestra 1 2,435434 0,29108404 0,70891596 Muestra 2 0,7328403 0,577087226 0,4229127742 Muestra 3 1,3135728 0,432231908 0,5677680921 Muestra 4 0,0999457 0,909135738 0,0908642615 Total ∞ 0 1 Tabla 2.8.2.1.2: η1p (η1p + 2p∗ − p)−1 p (2p∗)−1 p∗ = 0,5 p∗ = 0,1 p∗ = 0,05 p∗ = 0,01 Muestra 1 0,039011 0,016395073 0,178626 0,081975364 0,323223 0,163950728 0,917193 0,81975364 Muestra 2 0,0203146 0,027516572 0,0104673 0,137582859 0,0217653 0,275165719 — — Muestra 3 0,00030133 0,000229413 0,0015062 0,001147063 0,0030113 0,002294126 0,0150135 0,011470629 Muestra 4 0,01273978 0,114348168 0,0117723 0,571740838 — — — — Total 0 0 0 0 0 0 0 0 51 Tabla 2.8.2.2: tercer método Tabla 2.8.2.2.1: Tabla 2.7 η3 (η3 + 1)−1 η3 (η3 + 1)−1 Muestra 1 0,215029529 0,823025265 0,176974735 Muestra 2 0,04867245 0,953586604 0,046413396 Muestra 3 0,050914007 0,951552642 0,048447358 Muestra 4 0,003873892 0,996141057 0,003858943 Total ∞ 0 1 Tabla 2.8.2.2.2: η3p (η3p + 2p∗ − p)−1 p (2p∗)−1 p∗ = 0,5 p∗ = 0,1 p∗ = 0,05 p∗ = 0,01 Muestra 1 0,0035714 0,016395073 0,0188394 0,081975364 0,0404615 0,163950728 0,494425 0,81975364 Muestra 2 0,0013753 0,027516572 0,0770497 0,137582859 0,0181421 0,275165719 — — Muestra 3 0,0000117 0,000229413 0,00005846 0,001147063 0,000117 0,002294126 0,00059 0,011470629 Muestra 4 0,000499915 0,114348168 0,00514517 0,571740838 — — — — Total 0 0 0 0 0 0 0 0 52 Entonces, si el valor de Λ en el punto formado por los datos observados de la Tabla 2.6 es Λ (a10, b10, · · · , ar0, br0) = λ0, la evidencia utilizada es el p-valor, p = P ( Λ ≥ λ0 | pi1 = p2, pi2 = 2p (1− p) , pi3 = (1− p)2 , i = 1, · · · , r ) = P ( χ2 3r−2 ≥ λ0 ) . En particular, si r =1 se obtiene p = P ( Λ ≥ λ0 | p2, 2p (1− p) , (1− p)2 ) = P ( χ2 1 ≥ λ0 ) . Por lo tanto, fijados ni, i = 1, · · · , r, y p∗, siguiendo el mismo razonamiento empleado en las secciones 2.3, 2.4 y 2.6, para comparar con el método clásico los resultados obtenidos con los tres métodos bayesianos desarrollados en esta sección, si se considera la ecuación Bk (π0) = p 2p∗ , k = 1, 2, 3, (2.22) y se denota por π∗k0, k =1, 2, 3, el valor que verifica (2.22), se obtiene π∗k0 = ηkp ηkp + 2p∗ − p , k = 1, 3, mientras que para el segundo método habŕıa que calcular su valor numéricamente, ya que no se puede obtener su expresión expĺıcita. Entonces, utilizando π∗k0 se llegaŕıa con el k-ésimo método bayesiano, k =1, 2, 3, respectivamente, a la misma conclusión que con el método clásico. En la Tabla 2.8 se recogen los resultados que se obtienen para los datos del ejemplo de Lindley (véase la Tabla 2.7) con el método clásico y dos de los métodos bayesianos pro- puestos. En los tres casos la conclusión obtenida es la misma, se rechaza la homogeneidad de las cuatro muestras, H0 : p2, 2p (1− p) , (1− p)2, para algún p ∈ (0, 1). Prácticamente el p-valor es cero y no existen valores de π0 para los cuales se acepte la hipótesis nula de homogeneidad. 53 En la Tabla 2.8 también se presentan los resultados que se obtienen al contrastar individualmente si cada una de las cuatro muestras se encuentran en equilibrio Hardy- Weinberg. Se observa que para algunos valores de p∗ no existe el valor exacto de π0, obtenido mediante (2.22), para el que se alcanza el acuerdo entre los resultados clásico y bayesiano, pero cuando existe, dicho valor disminuye cuando p∗ aumenta, tanto con el tercer método como con el primero. Además, cuando el acuerdo es posible, el valor obtenido con el tercer método es más pequeño que el obtenido con el primero. Se observa que para la Muestra 1 de la Tabla 2.7 si p∗ = 0,01 no hay suficiente evidencia estad́ıstica para rechazar H0 desde el punto de vista clásico, lo cual se manifiesta en los métodos Bayesianos en un aumento significativo del valor de π0 para el que se alcanza el acuerdo, π∗10 = 0,9172 y π∗30 = 0,4944. Sin embargo, para la muestra 3, si p∗ = 0,01 se acepta H0 y π∗10 = 0,015 y π∗30 = 0,0115. La reconciliación obtenida en los términos de la expresión (2.22) es demasiado estricta ya que π∗k0, k = 1, 2, 3, depende de los datos, aunque da una idea de cómo debeŕıa ser el valor de π0 para el que se consiga un acuerdo entre el método clásico y cada uno de los tres métodos bayesianos. Por ejemplo, para intentar eliminar la dependencia que dicha reconciliación tiene de los datos en los contrastes individuales, se han generado todas las posibles tablas 3 × 1, para n fijo y conocido. En el caso que nos ocupa, n = 100 y se generan las 5151 tablas posibles. Para cada una de estas tablas se ha efectuado el mismo estudio que se ha realizado previamente para cada una de las tablas del ejemplo de Lindley. Por ejemplo, las Muestras 1, 2, 3 y 4 se corresponden con las tablas que ocupan, respectivamente, las posiciones 1685, 1346, 1524 y 215, en la ordenación en sentido ascendente realizada según los valores del estad́ıstico η1 y 1719, 1286, 1306 y 87, según los valores de η3. Mediante un análisis de datos sencillo se puede comprobar que p∗ = 0 y p∗ = 1 son prácticamente los únicos valores de p∗ para los que existe un intervalo de valores de π0, I = I (p∗, n = 100), tal que el resultado que se obtiene con los métodos bayesianos propuestos para contrastar si una población se encuentra en equilibrio Hardy-Weinberg, 54 utilizando un valor de π0 ∈ I, es el mismo que se obtiene mediante el método clásico χ2 de Pearson. Por lo tanto, el acuerdo no es factible ni con el primer método bayesiano ni con el tercero. Figura 2.4: Diagrama de Barras (η1 (a, b, c) , Λ (a, b, c)), para tablas 3 × 1 con n = 100. Existe una función h1 : R+ → R+, no monótona, tal que Λ = h1 (η1). 3.432.972.462.211.921.661.451.291.12.96.88.78.67.62.57.50.45.41.37.35 8 7 6 5 4 3 2 1 En la Figura 2.4 se representa el diagrama de barras (η1 (a, b, c) , Λ (a, b, c)), para las tablas 3× 1 con n = 100 que ocupan las posiciones desde la 754, con Λ = 2,79, hasta la 1315, con Λ = 6,57, primera y última tabla con p-valor ∈ (0,01, 0,1), en la ordenación en sentido ascendente según los valores del estad́ıstico η1 efectuada sobre el conjunto de las 4093 tablas 3×1 que verifican que np̂2 > 5, n2p̂ (1− p̂) > 5 y n (1− p̂)2 > 5. Se puede observar que existe una función h1 : R+ → R+, no monótona, tal que Λ = h1 (η1). 55 Figura 2.5: Diagrama de Barras (η3 (a, b, c) , Λ (a, b, c)), para tablas 3 × 1 con n = 100. Existe una función h3 : R+ → R+, no monótona, tal que Λ = h3 (η3). .30.26.21.19.16.14.12.10.09.08.07.06.05.05.04.04.04.03.03.03 10 8 6 4 2 0 En la Figura 2.5 se representa el diagrama de barras (η3 (a, b, c) , Λ (a, b, c)), para las tablas para las tablas 3×1 que ocupan las posiciones desde la 722, con Λ = 3,08, hasta la 1331, con Λ = 6,57, primera y última tabla con p-valor ∈ (0,01, 0,1), en la ordenación en sentido ascendente según los valores del estad́ıstico η3 efectuada sobre el conjunto de las 4093 tablas 3×1 que verifican que np̂2 > 5, n2p̂ (1− p̂) > 5 y n (1− p̂)2 > 5. Se puede observar que existe una función h3 : R+ → R+, no monótona, tal que Λ = h3 (η3). En general, la falta de acuerdo entre el procedimiento clásico usual y los procedimientos Bayesianos propuestos, para contrastar si una población se encuentra en equilibrio Hardy- Weinberg a partir de una muestra, se debe a que, fijado n, si se denotan mediante `k 1 = `k 1 (p∗, n) = máx (a,b,c), a+b+c=n, p>p∗ πk 0 , `k 2 = `k 2 (p∗, n) = mı́n (a,b,c), a+b+c=n, p≤p∗ πk 0 , 56 entonces ningún p∗ ∈ (0, 1) verifica la condición suficiente `k 1 < `k 2, k =1, 3, para n = 100. El motivo fundamental de que no se verifique dicha condición suficiente en el ejem- plo estudiado, es que no es posible salvar la discrepancia existente entre el estad́ıstico de contraste utilizado con el método clásico usual y el estad́ıstico del que depende la probabilidad a posteriori para los métodos bayesianos propuestos, debido a que la relación funcional existentente entre ambos es muy irregular (véanse las Figuras 2.4 y 2.5). Por el mismo motivo, fijados n1, · · · , nr, en el caso de tablas r× 3 (véase la Tabla 2.6) también es previsible esta falta de acuerdo cuando se pretende contrastar si r muestras han sido extráıdas de una misma población que se encuentra en equilibrio Hardy-Weinberg para algún p ∈ (0, 1) desconocido. 2.8. Observaciones La descripción estad́ıstica del problema genético del ejemplo considerado en la sección 2.7 consiste en que se dispone de muestras aleatorias independientes de r poblaciones trinomiales (véase la Tabla 2.6). La distribución trinomial depende de dos parámetros desconocidos, (p1, p2, p3) con p1 + p2 + p3 = 1. Cuando r = 1, tal y como lo plantea Lindley (1988), se pretende contrastar la hipótesis de que realmente sólo depende de un parámetro p en el sentido Hardy-Weinberg, es decir H0 : p2, 2p (1− p) , (1− p)2. Alternativamente, se puede expresar H0 : 4p1p3 = p2 2, relación claramente cierta en el equilibrio, y que dibuja una curva en el plano (p1, p2). Fijado p0 ∈ (0, 1), sea B (( p2 0, 2p0 (1− p0) ) , δ ) = { (p1, p2) ∈ (0, 1)× (0, 1) , ( p1 − p2 0 )2 + (p2 − 2p0 (1− p0)) 2 ≤ δ2 } , la bola de centro (p2 0, 2p0 (1− p0)) y radio δ. Entonces, se podŕıa utilizar π (p1, p2), la opinión a priori sobre (p1, p2), y calcular π0 mediante π0 = ∫ C(δ) π (p1, p2)dp2dp1, 57 siendo C (δ) = ⋃ p0∈(0, 1) B (p2 0, 2p0 (1− p0)). Por lo tanto, los resultados obtenidos en la sección 2.7.4 se pueden expresar en términos de δ. 2.9. Conclusiones y Comentarios En algunas situaciones, utilizando nuestra metodoloǵıa, es posible conseguir un acuer- do entre la probabilidad a posteriori de la hipótesis nula puntual, como medida de la evidencia bayesiana en el contraste de homogeneidad de poblaciones multinomiales inde- pendientes, y el p-valor clásico, como se muestra en los ejemplos que han sido estudiados. Si se eligen valores adecuados de δ, la discrepancia entre la probabilidad a posteriori y el p-valor es menor que usando directamente π0 = 1 2 en la distribución a priori de tipo mixto correspondiente. El valor elegido para δ debe verificar que las probabilidades a posteriori de H0 y H0δ sean similares, para que la sustitución de una hipótesis por la otra sea coherente. En los casos que han sido tratados en este caṕıtulo, δ pertenece a un intervalo de valores, I (p∗, n1, · · · , nr) = (`1, `2), véase, por ejemplo, la Tabla 2.3, donde se consigue acuerdo en los términos de una condición suficiente de la forma `1 < `2, por ejemplo, en el caso p0 conocido `1 y `2 vienen dados respectivamente en las expresiones (2.8) y (2.9). Es decir, si p∗ verifica que `1 < `2, entonces tomando δ ∈ (`1, `2), para los datos observados de la Tabla 2.4 se satisface una y sólo una de las dos condiciones siguientes: “p > p∗ y además P (H0|n110, · · · , nrs0) > 1 2 ”, o “p ≤ p∗ y además P (H0|n110, · · · , nrs0) ≤ 1 2 ”, con lo cual, un clásico que utilizara p∗ para ponderar el p-valor a la hora de decidir, llegaŕıa a la misma conclusión que un bayesiano que usara π0 = π0 (δ) con δ ∈ (`1, `2) en la distribución a priori de tipo mixto. Este resultado se formaliza el siguiente caṕıtulo. 58 Cuando la condición suficiente con la que se ha formulado el acuerdo no se cumple, la reconciliación entre ambos métodos no es factible en estos términos. Esto es lo que ocurŕıa en el ejemplo estudiado en la sección 2.7.4. El motivo fundamental de esta falta de acuerdo es que no es posible salvar la discrepancia existente entre el estad́ıstico de contraste, que utiliza el método clásico para contruir una región cŕıtica y calcular el p- valor, y el estad́ıstico del que depende la probabilidad a posteriori, cuando se utiliza una distribución a priori de tipo mixto que asigna una masa a priori a la hipótesis nula y reparte la probabilidad restante en los puntos de la alternativa mediante una función de densidad. Parte de estos resultados han sido aceptados para su publicación, véase Gómez-Villegas y González (2005). 59 Caṕıtulo 3 Acuerdo entre la Aproximación Clásica y Bayesiana en Tablas de Contingencia En el caṕıtulo 2 se comprobó que, cuando se utiliza una distribución a priori de tipo mixto, no siempre es posible una reonciliación entre las medidas clásicas y bayesianas para el contraste de homogeneidad de distribuciones multinomiales independientes en tablas de contingencia. Para el análisis bayesiano introducido en el caṕıtulo 1, se formalizan los resultados obtenidos en el caṕıtulo 2 y se demuestra un teorema que pone de manifiesto los términos en los que es posible un acuerdo entre ambos métodos. 3.1. Introducción En los caṕıtulos anteriores, para el problema del contraste de homogeneidad de dos distribuciones binomiales independientes dado en (1.2), con una densidad a priori dada para el parámetro θ = (p1, p2), π (θ), se propuso la siguiente metodoloǵıa: fijar una bola de radio δ alrededor del punto θ0 = (p0, p0) de la hipótesis nula, y asignar una masa a priori, π0, a H0 calculada integrando la densidad π (θ) sobre B (θ0, δ), repartiendo la probabilidad 60 restante, 1−π0, sobre H1 mediante π (θ). Esta metodoloǵıa se pod́ıa generalizar al caso de tablas r×s con p0 conocido. Además, para el contraste de homogeneidad de r poblaciones multinomiales independientes con p0 desconocido o de forma funcional conocida, p0 = p (ω), la masa a priori asignada respectivamente a la hipótesis nula de (2.10) y (2.17) se calculaba integrando la densidad π (θ) sobre C (δ) = ⋃ θ0∈H0 B (θ0, δ). Es claro que, en cada uno de los problemas de contraste mencionados anteriormente, la utilización de esta distribución a priori de tipo mixto permite calcular π0. Además, con este prodimiento, la probabilidad a posteriori de la hipótesis nula, observados los datos de la Tabla 2.4, se puede expresar de la siguiente forma P (H0|n11, · · · , nrs) = [ 1 + 1− π0 π0 η ]−1 , (3.1) donde η es un estad́ıstico que cuantifica la fuerza de la evidencia en contra de H0. Por ejemplo, cuando se asignan distribuciones a priori Dirichlet independientes a cada pi, i = 1, · · · , r, para contrastar (2.6), el valor de η es el que aparece en la expresión (2.7). Por otra parte, los métodos clásicos usuales para contrastar (2.6), (2.10) y (2.17) con tablas de contingencia r×s utilizan como estad́ıstico de contraste una medida de la discre- pancia entre los valores observados en la tabla 2.4 y los valores esperados cuando H0 es cierta, en los términos del estad́ıstico χ2 de Pearson. En este caso, observado un punto (n11, · · · , nrs), la evidencia utilizada es el p-valor, p = p (n11, · · · , nrs). Por ejemplo, para contrastar (1.2) el estad́ıstico de contraste es la variable aleatoria Λ dada en la expresión (1.13) y el p-valor correspondiente es (1.14). Cuando se utiliza el método clásico, se rechaza H0 cuando p < p∗, siendo p∗ ∈ (0, 1) un valor suficientemente pequeño. Por conveniencia, con el método bayesiano propuesto se va a rechazar H0 cuando P (H0|n11, · · · , nrs) < 1 2 , aunque cabe destacar que se podŕıa haber considerado un valor más restrictivo que 1 2 , o incluso otra medida de evidencia bayesiana, por ejemplo el factor Bayes. En el caṕıtulo 2 se comprobó que en algunas de las situaciones anteriores, utilizando dicha metodoloǵıa, es posible conseguir un acuerdo cualitativo entre la probabilidad a 61 posteriori de H0 y el p-valor. El objetivo ahora es formalizar los resultados obtenidos en el caṕıtulo anterior y determinar las condiciones que tiene que cumplir un valor δ para que, fijado p∗, se satisfaga uno y sólo uno de los dos postulados siguientes: “p (n11, · · · , nrs) > p∗ y además P (H0|n11, · · · , nrs) > 1 2 ”, (3.2) “p (n11, · · · , nrs) ≤ p∗ y además P (H0|n11, · · · , nrs) ≤ 1 2 ”, cualquiera que sea el punto observado (n11, · · · , nrs). En la sección 3.2 se establecen los desarrollos preliminares para la obtención de un acuerdo entre la aproximación clásica y bayesiana en tablas de contingencia. En la sección 3.3 se demuestra un teorema que reconcilia ambas aproximaciones en los términos de (3.2), cuando el estad́ıstico η de la expresión (3.1) es el estad́ıstico de contraste. En la sección 3.4 se formula un acuerdo entre ambos métodos en los términos de una condición suficiente cuando se utiliza el método clásico usual. En la sección 3.5 se realiza una reparametrización que transforma el espacio paramétrico en R2. Finalmente, en la sección 3.6 se incluyen algunos comentarios. 3.2. Preliminares Observados los datos de la Tabla 2.4, sea η (n11, · · · , nrs) = κ. Cabe destacar que basta con conocer el valor de η en el punto (n11, · · · , nrs) para calcular la probabilidad a posteriori dada en la expresión (3.1), aunque como tal, η no sea un estad́ıstico suficiente para el modelo multinomial. Además, el valor de π0 en (3.1) depende de la elección de δ. En concreto, cuando la densidad a priori π (θ) es uniforme para contrastar (1.2), π0 = πδ2, para δ suficientemente pequeño. Entonces, dicha probabilidad a posteriori es en realidad una función de (κ, δ), es decir P (H0|κ, δ) = [ 1 + 1− π0 (δ) π0 (δ) κ ]−1 , (3.3) 62 y verifica las siguientes propiedades: (i) Para κ fijo, P (H0|κ, δ) es creciente como función de δ, con P (H0|κ, δ = 0) = 0 y ĺımδ→∞P (H0|κ, δ) = 1. (ii) Para δ fijo, P (H0|κ, δ) es decreciente como función de κ, con P (H0|κ = 0, δ) = 1 y ĺımκ→∞P (H0|κ, δ) = 0. Figura 3.1 Diagrama de Barras (η (a, c) , π0 (δ (a, c))), para tablas 2 × 2 con n1 = 18, n2 = 12, p0 = 1 2 y q0 (p1, p2) = I(0, 1) (p1) I(0, 1) (p2). 65865.6498589130 19759.6949576739 5327.3687385886 1420.6316636236 487.8937026586 304.9335641616 129.1483330567 80.7177081604 35.8745369602 19.5141712036 8.2787392985 6.4574166528 2.3062202332 1.5374801554 1.0249867703 .4730708171 .2759579766 .1724737354 .0967644853 1.2 1.0 .8 .6 .4 .2 0.0 La probabilidad a posteriori dada en la expresión (3.1) depende del estad́ıstico η, que se puede utilizar como estad́ıstico de contraste para construir una región cŕıtica. Observado un valor κ del estad́ıstico η, {η ≥ κ} es una posible región cŕıtica coherente 63 con la propiedad (ii), y el correspondiente p-valor en dicho punto es p = p (κ) = sup θ∈H0 P (η ≥ κ|θ) = sup θ∈H0 ∑ η(n11,···,nrs)≥κ f (n11, · · · , nrs|θ), (3.4) donde f (n11, · · · , nrs|θ) = ∏r i=1 ni!∏s j=1 nij ∏s j=1 p nij ij . Con una elección adecuada de δ, la probabilidad a posteriori dada en la expresión (3.2) se puede hacer numéricamente igual al p-valor dado en la expresión (3.4). Igualando las expresiones (3.3) y (3.4), el valor δ = δ (κ) obtenido de esta igualación es el correspondiente a π0 (δ (κ)) = kp (κ) kp (κ) + 1− p (κ) (3.5) En particular, si n1 = 18 y n2 = 12, el número de tablas 2× 2 posibles es 247. En este caso, observados los datos de la Tabla 1.1, para contrastar (1.2) con p0 = 1 2 , el p-valor es (2.4), y cuando la densidad a priori es π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2), la probabilidad a posteriori de H0 se obtiene evaluando (2.1) en (2.2). Además, la función κ = η (a, c) no es biyectiva y π0 (δ (κ)), como función de κ, tiene su dominio en un conjunto de 70 valores. Como el p-valor es una función decreciente en κ, aunque π0 (δ (κ)) no es decreciente (véase la Figura 3.1), si κ1 < κ < κ2 se puede determinar un conjunto de valores de δ, D (κ1, κ2), tales que δ (κ) ∈ D (κ1, κ2) cuando p (κ) ∈ (p (κ2) , p (κ1)). Por ejemplo, si κ1 = 1,025 y κ2 = 8,28 se obtiene p (κ1) = 0,1063, p (κ2) = 0,0097 y D (κ1, κ2) = (0,1544, 0,186). Entonces, los cálculos numéricos efectuados en la Tabla 1.3 muestran que eligiendo un valor de δ en el intervalo (0,17, 0,19) la probabilidad a posteriori es similar al p-valor. Por el contrario, si elegimos δ = 1√ 2π = 0,399 entonces π0 = 1 2 y la probabilidad a posteriori es considerablemente mayor que el p-valor. De esta manera, en el caṕıtulo 1 se conclúıa que era posible elegir δ de manera que la probabilidad a posteriori estuviera próxima al p-valor, al menos para los p-valores usuales. Además, como ya se indicó en el caṕıtulo 2, a la hora de hacer efectivo el contraste, la probabilidad a posteriori se compara con p∗. Por ejemplo, para los datos de la Tabla 2.1 el p-valor es p = 0,1529, y para δ = 0,174, 64 π0 = 0,095 y la probabilidad a posteriori es 0,15366, con lo que no hay suficiente evidencia estad́ıstica para rechazar H0, aunque la probabilidad a posteriori sea menor que 0.5. Aunque en el caso particular estudiado, con el razonamiento anterior es posible elimi- nar la dependencia que tiene de los datos el valor de δ obtenido a partir de la expresión (3.5), es previsible que la dificultad de cálculo sea considerablemente mayor cuando se estudien problemas de contraste más generales. Por otra parte, no se encuentra una carac- terización que muestre cuáles son los elementos que influyen en la aproximación entre la probabilidad a posteriori y el p-valor. Quizá seŕıa más conveniente cambiar el punto de vista y considerar el valor π0 (δ (κ)) = κp (κ) κp (κ) + 2p∗ − p (κ) , (3.6) que verifica que P (H0|κ, δ) = p(κ) 2p∗ , para p∗ ∈ (0, 1) fijo y suficientemente pequeño. Tabla 3.1: resumen de resultados para los datos del ejemplo de Pearson, p0 = 1 2 y π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2). κ p (κ) (κ + 1)−1 κ (κ + 1)−1 δ 6,7265 0,01529 0,1294 0,8706 0,53905 Tabla 2.1 p∗ = 0,5 p∗ = 0,1 p∗ = 0,05 p∗ = 0,01 κp (κp + 2p∗ − p)−1 0,09458 0,3577 0,5484 0,9562 δ 0,17351 0,33743 0,4178 0,6057 p (2p∗)−1 0,01529 0,07645 0,1529 0,7645 En la Tabla 3.1 están calculados algunos valores de π0 (δ (κ)) para los datos de la Tabla 2.1 cuando p0 = 1 2 en el contraste (1.2) y se utiliza π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2). 65 Cabe destacar que los resultados obtenidos son similares a los de la Tabla 2.2, donde el estad́ıstico de contraste considerado era el estad́ıstico χ2 de Pearson dado en (2.3), en lugar del estad́ıstico η dado en (2.2). Aunque utilizando el valor de π0 obtenido en la expresión (3.6) se llegaŕıa al mismo resultado con los dos métodos en los términos de (3.2), el acuerdo obtenido es demasiado estricto, ya que dicho valor depende de los datos. Para eliminar esta dependencia es necesario considerar el conjunto de todas las posibles tablas r × s que se pueden formar con valores marginales por filas, n1, · · · , nr, fijos y conocidos. Fijado un valor posible κ del estad́ıstico η, sea Aκ = {(n11, · · · , nrs) : η (n11, · · · , nrs) = κ} . Es claro que la probabilidad a posteriori dada en la expresión (3.1) es constante sobre Aκ. En la siguiente sección se demuestra un teorema que caracteriza cómo y cuando es posible un acuerdo entre la aproximación clásica y bayesiana en tablas de contingencia. 3.3. Acuerdo entre la Aproximación Clásica y Bayesiana En el siguiente Teorema se llega a una reconciliación entre la probabilidad a posteriori del método bayesiano dada en la expresión (3.3) y el p-valor del método clásico dado en la expresión (3.4) en los términos de (3.2). Teorema 3.3.1 Sean `1 = `1 (p∗, n1, · · · , nr) = máx (n11,···,nrs), p(κ)>p∗ η (η + 1)−1 , `2 = `2 (p∗, n1, · · · , n2) = mı́n (n11,···,nrs), p(κ)≤p∗ η (η + 1)−1 , 66 para n1, · · · , nr y p∗ fijos y conocidos. Entonces I = I (p∗, n1, · · · , nr) = (`1, `2) es un intervalo numérico de valores de π0 = π0 (δ) donde se verifica (3.2). Demostración Fijado un valor posible κ del estad́ıstico η, para (n11, · · · , nrs) ∈ Aκ se verifica que P (H0|κ, δ) > 1 2 , para π0 = π0 (δ) > κ κ+1 . La función g (κ) = κ κ+1 es estrictamente creciente. Además, si κ1 < κ2, entonces para cualesquiera (n11, · · · , nrs) ∈ Aκ1 y (n, 11, · · · , n, rs) ∈ Aκ2 se verifica que P (H0|κ1, δ) > P (H0|κ2, δ) y p (κ1) > p (κ2). Sean κ∗ = mı́n (n11,···,nrs), p(κ)≤p∗ η, κ∗ = máx (n11,···,nrs), p(κ)>p∗ η, entonces κ∗ > κ∗, mı́n (n11,···,nrs), p(κ)≤p∗ η (η + 1)−1 = κ∗ (κ∗ + 1)−1 , máx (n11,···,nrs), p(κ)>p∗ η (η + 1)−1 = κ∗ (κ∗ + 1)−1 , `1 = máx (n11,···,nrs), p(κ)>p∗ η (η + 1)−1 ≤ mı́n (n11,···,nrs), p(κ)≤p∗ η (η + 1)−1 = `2. Sea π0 ∈ (`1, `2). Si (n11, · · · , nrs) ∈ Aκ, con κ < κ∗, entonces p (κ) ≥ p (κ∗) > p∗ y π0 > κ κ+1 . Rećıprocamente, si (n11, · · · , nrs) ∈ Aκ, con κ ≥ κ∗ , entonces p (κ) ≤ p (κ∗) ≤ p∗ y π0 ≤ κ κ+1 . Corolario 3.3.1 Fijados n1, · · · , nr y p∗, sean π∗ = π0 (δ (κ∗)) = κ∗p (κ∗) κ∗p (κ∗) + 2p∗ − p (κ∗) , π∗ = π0 (δ (κ∗)) = κ∗p (κ∗) κ∗p (κ∗) + 2p∗ − p (κ∗) , 67 donde κ∗ y κ∗ son los valores definidos en el Teorema 3.3.1. Si 2p∗ ≥ p (κ∗), entonces, π∗ ≤ π∗, π∗ ≤ `2 y π∗ ≥ `1. Otra consecuencia inmediata del Teorema 3.3.1 es que el resultado que se obtiene con el método bayesiano basado en la probabilidad a posteriori dada en la expresión (3.1), utilizando un valor de δ tal que π0 (δ) ∈ (`1, `2), es el mismo que se obtiene mediante el método clásico basado en el p-valor dado en la expresión (3.4), utilizando p∗. En particular, fijados n1, n2 y p∗, para contrastar (1.2) con p0 = 1 2 , si π0 ∈ (`1, `2) y π0 ≤ π 4 , entonces π0 = πδ2, y para cualquier δ ∈ (δ1, δ2) = (√ `1 π , √ `2 π ) se con- sigue acuerdo. Si π0 > π 4 , entonces π0 = πδ2 + 2 √ δ2 − 1 4 − 4δ2arcsen √ 1− 1 4δ2 , ya que la B ((p0, p0) , δ) se sale del cuadrado unidad, y el intervalo (δ1, δ2) se determina numérica- mente. Cabe destacar que se puede evitar esta situación mediante una reparametrización sencilla que transforma el cuadrado unidad en R2. Esta posibilidad se trata en la sección 3.5. Tabla 3.2: resumen de resultados para tablas 2× 2 con n1 = 18, n2 = 12, p0 = 1 2 y π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2) . p∗ ∈ (0,49, 0,53) (0,091, 0,106) (0,043, 0,053) (0,0097, 0,0117) δ ∈ (0,221, 0,23) (0,40141, 0,405) (0,4521, 0,4632) (0,5476, 0,5523) π0 ∈ (0,153, 0,167) (0,5062, 0,5155) (0,6421, 0,6742) (0,8849, 0,8922) π∗ 0,16085 0,468 0,6276 0,8861 π∗ 0,1711 0,5376 0,6717 0,917 Concretamente, en la Tabla 3.2 están calculados algunos de estos valores de δ cuando n1 = 18, n2 = 12 y π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2). Se puede observar que los resultados que se obtienen cuando el estad́ıstico de contraste es Λ en lugar de η (véase la Tabla 2.3), son similares a los de la Tabla 3.2. En este caso, el acuerdo se puede formular en los 68 términos de una condición suficiente. Este problema se estudia con detalle en la sección 3.4. 3.4. Comparación con el Método Clásico Usual En el Teorema 3.3.1 se prueba que es posible reconciliar los resultados clásicos y bayesianos en los problemas de contraste de homogeneidad de poblaciones multinomiales independientes estudiados en el caṕıtulo 2. Esto ocurre cuando el estad́ıstico de contraste es el correspondiente estad́ıstico η = η (n11, · · · , nrs) del que depende la probabilidad a posteriori obtenida utilizando una distribución a priori de tipo mixto. No obstante, el estad́ıstico de contraste del método clásico usual es el estad́ıstico χ2 de Pearson, Λ = Λ (n11, · · · , nrs). Ahora se va a tratar de comparar ambos métodos cuando el estad́ıstico de contraste es Λ. Fijado un valor posible λ del estad́ıstico Λ, sea Bλ = {(n11, · · · , nrs) : Λ (n11, · · · , nrs) = λ} . Observado un punto (n11, · · · , nrs) ∈ Bλ, {Λ ≥ λ} es una posible región cŕıtica y el p-valor en dicho punto es p = p (λ) = sup θ∈H0 P (Λ ≥ λ|θ) = sup θ∈H0 ∑ Λ(n11,···,nrs)≥λ f (n11, · · · , nrs|θ). (3.7) En los casos estudiados en el caṕıtulo 2 se puede comprobar que, para distribu- ciones a priori Dirichlet independientes, si η (n11, · · · , nrs) = η (n, 11, · · · , n, rs) = κ, en- tonces Λ (n11, · · · , nrs) = Λ (n, 11, · · · , n, rs). Por lo tanto, Λ = h (η) para cierta función h : R+ → R+ (véanse las Figuras 2.1, 2.2, 2.3, 2.4 y 2.5), y Aκ ⊂ Bh(κ). En consecuencia, el test clásico de la χ2 puede expresarse en términos del estad́ıstico η. Sin embargo, el rećıproco no es cierto. En el siguiente Teorema se llega a una reconciliación entre la probabilidad a posteriori del método bayesiano dada en la expresión (3.3) y el p-valor del método clásico usual 69 dado en (3.7), en los términos de (3.2). Teorema 3.4.1 Sean `1 = `1 (p∗, n1, · · · , nr) = máx (n11,···,nrs), p(λ)>p∗ η (η + 1)−1 , `2 = `2 (p∗, n1, · · · , n2) = mı́n (n11,···,nrs), p(λ)≤p∗ η (η + 1)−1 , para n1, · · · , nr y p∗ fijos y conocidos. Si `1 < `2 entonces I = I (p∗, n1, · · · , nr) = (`1, `2) es un intervalo numérico de valores de π0 = π0 (δ) donde se verifica (3.2). Demostración Sean κ∗ = mı́n (n11,···,nrs), p(λ)≤p∗ η, κ∗ = máx (n11,···,nrs), p(λ)>p∗ η, entonces `1 = máx (n11,···,nrs), p(λ)>p∗ η (η + 1)−1 = κ∗ (κ∗ + 1)−1 = g (κ∗) , `2 = mı́n (n11,···,nrs), p(λ)≤p∗ η (η + 1)−1 = κ∗ (κ∗ + 1)−1 = g (κ∗) . Como la función g es estrictamente creciente, si `1 < `2, entonces κ∗ < κ∗. Sea π0 ∈ (`1, `2). Si (n11, · · · , nrs) ∈ Aκ, con κ < κ∗, entonces p (h (κ)) > p (h (κ∗)) > p∗ y π0 > κ κ+1 . Rećıprocamente, si (n11, · · · , nrs) ∈ Aκ, con κ ≥ κ∗ , entonces p (h (κ)) < p (h (κ∗)) ≤ p∗ y π0 ≤ κ κ+1 . Por lo tanto, como consecuencia inmediata del Teorema 3.4.1, fijados n1, · · · , nr y p∗, `1 < `2 es una condición suficiente para que el resultado que obtiene un bayesiano con la probabilidad a posteriori dada en la expresión (3.1), utilizando un valor de δ tal que π0 (δ) ∈ (`1, `2), sea el mismo que obtiene un clásico que utiliza p∗ para ponderar el p-valor usual dado en (3.7). 70 Mientras que el intervalo de valores de π0 = π0 (δ), I = I (p∗, n1, · · · , nr) = (`1, `2), donde se consigue acuerdo entre ambas aproximaciones siempre existe cuando el estad́ıstico de contraste es η (véase el Teorema 3.3.1), la condición `1 < `2 no siempre se cumple cuando el estad́ıstico de contraste es Λ, de hecho, pueden existir valores de p∗ para los que dicha condición no se verifique. Por ejemplo, en tablas de contingencia 2 × 2 con n1 = 18 y n2 = 12, para contrastar (1.2) con p0 = 1 2 y π (p1, p2) = I(0, 1) (p1) I(0, 1) (p2), p∗ = 0,015 es un valor que no verifica `1 < `2. En estos casos se puede decir que el acuerdo es posible cuando al menos exista un valor p∗ ∈ (0,01, 0,1) tal que `1 < `2, en los términos del Teorema 3.4.1 (para el ejemplo citado véase la Tabla 2.3). No obstante, en el ejemplo estudiado en la sección 2.7.4 el acuerdo no es factible para ningún p∗ ∈ (0,01, 0,1), debido fundamentalmente a que es imposible salvar la discrepancia existente entre Λ y η (véanse las Figuras 2.4 y 2.5). 3.5. Reparametrizaciones Ya se ha comentado anteriormente que si el valor de δ no es suficientemente pequeño, la B ((p0, p0) , δ) se puede salir del espacio paramétrico (0, 1)× (0, 1). Esto puede llegar a ser un inconveniente, cuando, en la práctica, se desee calcular el valor de δ correspondiente a un determinado valor π0, siendo la dificultad de cálculo cada vez mayor a medida que aumenta la dimensión del espacio paramétrico. Este problema se puede resolver mediante un cambio de variable que transforme el cuadrado unidad en R2, ya que, en este caso, π0 = πδ2, el área de una esfera de radio δ. Una posibilidad es utilizar distribuciones a priori Be (0, 0) o de Haldane indepen- dientes, es decir π (p1, p2) ∝ p−1 1 (1− p1) −1 p−1 2 (1− p2) −1 , que es una densidad impropia y equivalente a la densidad uniforme impropia, π (Λ1, Λ2) ∝ 1, 71 en Λ1 = log p1 1−p1 ∈ R y Λ2 = log p2 1−p2 ∈ R. Entonces, f (a, c|Λ1, Λ2) ∝ ( eΛ1 eΛ1 + 1 )a ( 1 eΛ1 + 1 )n1−a ( eΛ2 eΛ2 + 1 )c ( 1 eΛ2 + 1 )n2−c = eaΛ1ecΛ2 (eΛ1 + 1)n1 (eΛ2 + 1)n2 . Se pretende contrastar (1.2), es decir H0 : (Λ1, Λ2) = (Λ0, Λ0) versus H1 : (Λ1, Λ2) 6= (Λ0, Λ0) , siendo Λ0 = log p0 1−p0 ∈ R. Sea B ((Λ0, Λ0) , δ) = { (Λ1, Λ2) ∈ R2 : (Λ1 − Λ0) 2 + (Λ2 − Λ0) 2 < δ2 } . Se propone calcular π0 en π∗ (Λ1, Λ2) = π0IH0 (Λ1, Λ2) + (1− π0) π (Λ1, Λ2) IH1 (Λ1, Λ2) , mediante π0 = ∫ B((Λ0, Λ0),δ) π (Λ1, Λ2) dΛ1dΛ2 = πδ2. Entonces, P (H0|a, c) = [ 1 + 1− π0 π0 η ]−1 , donde η (a, c) = ∫ R2 f (a, c|Λ1,Λ2)π (Λ1, Λ2) dΛ1dΛ2 f (a, c|Λ0, Λ0) = (∫ R eaΛ1 (eΛ1+1)n1 dΛ1 ) (∫ R ecΛ2 (eΛ2+1)n2 dΛ2 ) eaΛ0+cΛ0 (eΛ0+1)n1+n2 . Mediante un cambio de variable ∫ R2 f (a, c|Λ1, Λ2) π (Λ1, Λ2) dΛ1dΛ2 = ∫ 1 0 ∫ 1 0 f (a, c|p1, p2) π (p1, p2) dp1dp2. 72 Por lo tanto η (a, c) = ∫ 1 0 ∫ 1 0 pa−1 1 (1− p1) n1−a−1 pc−1 2 (1− p2) n2−c−1 pa+c 0 (1− p0) b+d = p−m1 0 (1− p0) −m2 Γ (a) Γ (b) Γ (a + b) Γ (c) Γ (d) Γ (c + d) . Siempre que se observe al menos un éxito y un fracaso en cada población, la probabi- lidad a posteriori que se obtiene es propia. Si n1 = 18 y n2 = 12, existen 187 tablas 2× 2 con al menos un éxito en cada población. Si no se observa ningún éxito o ningún fracaso en al menos una de las dos poblaciones, se necesita pensar más cuidadosamente sobre la distribución a priori y seleccionar una distribución que refleje la opinión a priori de forma más precisa, porque en este caso los datos son menos útiles, y por lo tanto se tiene que confiar más en la distribución a priori. Cabe destacar que, para distribuciones a priori uniformes o de Laplace independientes, ηU = p−m1 0 (1− p0) −m2 Γ (a + 1) Γ (b + 1) Γ (a + b + 2) Γ (c + 1) Γ (d + 1) Γ (c + d + 2) = abcd (n1 + 1) n1 (n2 + 1) n2 ηH < ηH . Consecuentemente, PU (H0|a, c) = [ 1 + 1− π0 π0 ηU ]−1 > [ 1 + 1− π0 π0 ηH ]−1 = PH (H0|a, c) , uniformemente sobre (a, c), aunque ηH no conserva la misma ordenación en sentido as- cendente respecto a los valores de ηU . Se puede comprobar que si existe acuerdo en p∗ con PU (H0|a, c), no necesariamente también existe con PH (H0|a, c) (por ejemplo, con distribuciones a priori de Haldane in- dependientes no hay acuerdo para p∗ = 0,01, mientras que con distribuciones a priori uniformes independientes śı, véase la Tabla 2.3), y en caso de que lo hubiere, es claro que δU = δU (p∗, n1, n2) y δH = δH (p∗, n1, n2) tienen distinto significado. 73 La Tabla 3.3 muestra algunos de estos valores de δ para los que se consigue acuerdo con el método χ2 de Pearson, cuando n1 = 18, n2 = 12, p0 = 1 2 en (1.2) y se asig- nan distribuciones a priori de Haldane independientes. Se puede observar que los valores de π0 para los que se consigue acuerdo son considerablemente mayores que cuando se utilizan distribuciones a priori uniformes independientes. Por lo tanto, este último es el caso más conservador con respecto a la hipótesis nula. También se puede comprobar que para π0 = 1 2 , PH (H0|a, c) < 1 2 , cualquiera que sea el valor observado (a, c), más aún, PH (H0|a, c) < p (a, c). Por lo tanto, como PH (H0|a, c) es creciente en π0, es necesario incrementar considerablemente el valor de π0 para poder obtener acuerdo para p∗ fijo. Tabla 3.3: resumen de resultados para tablas 2× 2 con n1 = 18 y n2 = 12, p0 = 1 2 , y π (p1, p2) ∝ p−1 1 (1− p1) −1 p−1 2 (1− p2) −1 . p∗ ∈ (0,46, 0,51) (0,087, 0,143) (0,038, 0,062) (0,0094, 0,0099) δ ∈ (0,501, 0,507) (0,5473, 0,5536) (0,5585, 0,5602) (0,5636, 0,5639) π0 ∈ (0,788, 0,807) (0,941, 0,963) (0,98, 0,986) (0,998, 0,999) 3.6. Comentarios En los problemas de contraste de homogeneidad de poblaciones multinomiales inde- pendientes, H0 : θ = θ0, versus H1 : θ 6= θ0, en los casos θ0 conocido, desconocido y de forma funcional conocida, con una densidad a priori previamente dada para el parámetro θ = (p11, · · · , p1s, · · · , pr1, · · · , prs), se propone la siguiente metodoloǵıa: fijar C (δ) = ⋃ θ0∈H0 B (θ0, δ) y utilizar una distribución a priori de tipo mixto que asigna una masa a priori, π0, a H0 calculada integrando la densidad 74 π (θ) sobre C (δ), y que reparte la probabilidad restante, 1− π0 sobre H1 mediante π (θ). Con esta aproximación, observados los datos de la Tabla 2.4, la probabilidad a posteriori de H0 depende de cierto estad́ıstico η = η (n11, · · · , n1s, · · · , nr1, · · · , nrs) que cuantifica la evidencia en contra de H0 (véase la expresión (3.1)). En el Teorema 3.3.1 se demuestra que, fijados los tamaños muestrales, n1, · · · , nr, y p∗ el acuerdo entre la aproximación clásica y bayesiana en tablas de contingencia es siempre posible en los términos de (3.2) cuando se utiliza η como estad́ıstico de contraste. Cuando se utiliza el método clásico usual χ2 de Pearson el estad́ıstico de contraste es Λ = Λ (n11, · · · , n1s, · · · , nr1, · · · , nrs), medida de la discrepancia entre los valores observa- dos y esperados cuando H0 es cierta. En este caso, fijados n1, · · · , nr, y p∗, la reconciliación entre ambas aproximaciones depende de que se verifique la condición `1 < `2, donde `1 y `2 son los valores dados en el Teorema 3.4.1, siendo el acuerdo posible cuando al menos exista un valor p∗ ∈ (0,01, 0,1) tal que `1 < `2. Por lo tanto, una posibilidad para poner de acuerdo los métodos clásicos y bayesianos en tablas de contingencia, con la metodoloǵıa propuesta, es utilizar η como estad́ıstico de contraste. Teniendo en cuenta que en los problemas estudiados en el caṕıtulo 2, asignando distribuciones a priori Dirichlet independientes a cada pi = (pi1, · · · , pis), i = 1, · · · , r, existe una función h : R+ → R+ no invertible y no monótona tal que Λ = h (η) y además, que tanto η como Λ no son estad́ısticos suficientes, se puede justificar la elección de η. De hecho, dicha relación funcional es una medida de la discrepancia entre ambos estad́ısticos, de la que depende directamente que se verifique la condición suficiente del Teorema 3.4.1. Cabe destacar que si h hubiera sido la identidad o al menos una función monótona la reconciliación siempre seŕıa posible. Sin embargo, cuando el estad́ıstico del contraste sea Λ y no exista un valor p∗ ∈ (0,01, 0,1) tal que `1 < `2 en los términos del Teorema 3.4.1 el acuerdo no es posible. 75 Caṕıtulo 4 Acuerdo entre la Aproximación Clásica y Bayesiana en el Contraste de la Hipótesis Nula Puntual Multivariante En los contrastes paramétricos de hipótesis nula puntual es sabido que los métodos clásicos y Bayesianos pueden dar lugar a diferentes decisiones. Para el problema del con- traste de hipótesis nula puntual multivariante frente a alternativa bilateral se desarrolla un procedimiento que permite ver cómo y cuando es posible un acuerdo entre los proced- imientos clásicos y bayesianos. 4.1. Introducción Sea (χ, β, Pθ)θ∈Θ⊂Rm el modelo estad́ıstico correspondiente a una muestra aleatoria (X1, · · · , Xn), f (x1, · · · , xn|θ) la función de verosimilitud de la muestra y π (θ) la densidad que modeliza la opinión inicial sobre θ = (θ1, · · · , θm). 76 Se pretende contrastar H0 : θ = θ0, versus H1 : θ 6= θ0, (4.1) donde θ0 = (θ01, · · · , θ0m) es un vector conocido y θ 6= θ0 significa que al menos uno de los elementos de θ es diferente del correspondiente elemento de θ0. Entonces, para contrastar (4.1) se necesita una distribución a priori de tipo mixto. Se propone π∗ (θ) = π0IH0 (θ) + (1− π0) π (θ) IH1 (θ) , (4.2) siendo π0 la masa a priori asignada a H0. Aunque existen muchas aproximaciones tanto clásicas como bayesianas para el proble- ma del contraste de hipótesis nula puntual univariante, no es aśı en el caso multivariante. Algunas aportaciones son Oh (1988) que se ocupa de la distribución nomal multivariante y Oh y DasGupta (1999) que investigan la relevancia de π0, la probabilidad a priori de H0, en la diferencia entre el ı́nfimo de la probabilidad a posteriori y el p-valor para algunas clases de distribuciones a priori sobre la hipótesis alternativa. Gómez-Villegas, Máın y Sanz (2004) desarrollan un test bayesiano para el problema de contraste dado en (4.1) y sugieren un procedimiento para llegar a la distribución de tipo mixto usando la densidad a priori. Para comparar las aproximaciones clásicas y bayesianas calculan cotas inferiores de la probabilidad a posteriori de H0, sobre algunas clases razonables de distribuciones a priori, que son comparadas con el p-valor del test clásico. El resultado es que se obteniene una mejor aproximación porque el p-valor se encuentra entre las medidas de evidencia bayesianas. Se puede pensar que en lugar de (4.1) es más realista H0δ : d (θ0, θ) ≤ δ, versus H1δ : d (θ0, θ) > δ, (4.3) con una métrica adecuada d y un valor δ suficientemente pequeño. Se pueden considerar varias formas de especificar d (θ0, θ). Una posibilidad es la dis- tancia eucĺıdea, d (θ0, θ) = ∑m i=1 (θi − θ0i) 2. 77 Lo que se propone es utilizar la metodoloǵıa de Gómez-Villegas, Máın, y Sanz (2004) que consiste en fijar una bola de radio δ centrada en θ0, B (θ0, δ) = {θ ∈ Rm, d (θ0, θ) ≤ δ}, y calcular π0 = π0 (δ) mediante π0 = ∫ B(θ0,δ) π (θ) dθ. (4.4) Con este procedimiento la probabilidad a posteriori de la hipótesis nula puntual es Pπ∗ (θ0|x1, · · · , xn) = [ 1 + 1− π0 (δ) π0 (δ) η (x1, · · · , xn) ]−1 , (4.5) donde η (x1, · · · , xn) = ∫ Θ f (x1, · · · , xn|θ) π (θ) dθ f (x1, · · · , xn|θ0) (4.6) es un estad́ıstico que cuantifica la fuerza de la evidencia en contra de H0. Lo que se propone no es sustituir (4.1) por (4.3) sino utilizar (4.3) para calcular π0 en (4.2) mediante (4.4). Gómez-Villegas, Máın, y Sanz (2004) dan tres razones que pueden justificar la elección de π0 como en (4.4), a pesar de que el valor usual es π0 = 1 2 . En primer lugar, en una dimensión, cuando se utilizan (4.2) y (4.4) con valores adecuados de δ, y π (θ) pertenece a la clase de las distribuciones unimodales y simétricas o a la clase de distribuciones ε−contaminadas, se obtiene una mejor aproximación entre el p-valor y la probabilidad a posteriori. En particular, cuando la verosimilitud es normal δ ∈ (0,1, 0,3). Estos resultados se pueden ver en Gómez-Villegas y Gómez (1992), Gómez-Villegas y Sanz (1998, 2000) y en Gómez-Villegas, Máın y Sanz (2002). Una segunda razón es que si la opinión a priori sobre θ viene dada por la densidad π (θ), entonces la probabilidad a priori del punto de la hipótesis nula de (4.1) es cero, pero utilizando (4.2), la masa a priori asignada a θ0 es π0 y esta probabilidad se obtiene mediante π (θ). La tercera razón es que debido a que H0 es la hipótesis ĺımite de H0δ cuando δ → 0, si la opinión a priori para contrastar (4.3) es π (θ) y π∗ (θ), dada en (4.2), es la opinión a priori para contrastar (4.1), parece natural que se satisfaga que µ (π∗, π) → 0 cuando δ → 0, para alguna medida adecuada de discrepancia, 78 µ. Una de las más populares es la medida de información de Kullback-Leibler, que para el problema considerado es µ (π∗, π) = − ln (1− π0). En cualquier caso, aqúı los resultados se obtienen en función de π0 y después se es- pecifican para (4.4). Por otra parte, una medida clásica de la evidencia en contra de la hipótesis nula, que depende de las observaciones, es el p-valor. Sea Λ = Λ (X1, · · · , Xn) un estad́ıstico adecua- do para contrastar (4.1), por ejemplo el estad́ıstico del test de la razón de verosimilitudes, Λ = Λ (x1, · · · , xn) = supθ∈Θ f (x1, · · · , xn|θ) f (x1, · · · , xn|θ0) , entonces el p-valor correspondiente al punto (x1, · · · , xn) del espacio muestral es p (x1, · · · , xn) = P (Λ (X1, · · · , Xn) > Λ (x1, · · · , xn) |θ0) (4.7) ≈ P ( χ2 m > 2 ln Λ (x1, · · · , xn) ) . Con este procedimiento se rechaza H0 si p < p∗, siendo p∗ ∈ (0, 1) un valor suficien- temente pequeño. Ahora, el objetivo es determinar las condiciones que tiene que cumplir un valor δ para que, fijado p∗, se satisfaga uno y sólo uno de los dos postulados siguientes: “p (x1, · · · , xn) > p∗, y además Pπ∗ (θ0|x1, · · · , xn) > 1 2 ”, (4.8) “p (x1, · · · , xn) ≤ p∗, y además Pπ∗ (θ0|x1, · · · , xn) ≤ 1 2 ”. cualquiera que sea el punto observado (x1, · · · , xn) ∈ χ. En la sección 4.2 se desarrolla el procedimiento que permite demostrar un teorema de caracterización del acuerdo entre la aproximación clásica y bayesiana en el problema multivariante del contraste de hipótesis nula puntual. En la sección 4.3 se consideran algunos ejemplos en los que se pueden aplicar los resultados obtenidos. En la sección 4.4 se incluyen algunas observaciones y en la sección 4.5 se finaliza con algunos comentarios relevantes. 79 4.2. Acuerdo entre la Aproximación Clásica y Bayesiana En esta sección se definen los conceptos previos que se van a utilizar para la posterior obtención de un teorema de caracterización del acuerdo entre el p-valor dado en la expre- sión (4.7) y la probabilidad a posteriori dada en (4.5), en los términos de (4.8). Definición 4.2.1 Sea (χ, β, Pθ)θ∈Θ el modelo estad́ıstico asociado a una muestra aleato- ria (X1, · · · , Xn) y π (θ) la distribución a priori que modeliza la opinión inicial sobre θ. Un estad́ıstco T = T (X1, · · · , Xn) es suficiente para el contraste H0 : θ ∈ Θ0, versus H1 : θ ∈ Θ1, con Θ0 ∩ Θ1 = φ y Θ0 ∪ Θ1 = Θ, si Pπ (Θ0|x1, · · · , xn) = Pπ (Θ0|t), cuando T (x1, · · · , xn) = t. Proposición 4.2.1 Si T = T (X1, · · · , Xn) es un estad́ıstico suficiente para estimar θ, entonces verifica la definición 4.2.1. El rećıproco no es cierto. Cabe destacar que el estad́ıstico η dado en la expresión (4.6) es suficiente para el con- traste (4.1) cuando la distribución a priori es (4.2). De hecho, cuando la distribución a priori es (4.2), si T = T (X1, · · · , Xn) es un estad́ıstico suficiente para el contraste (4.1), existe una función g : R → R tal que g (T ) = η. Definición 4.2.2 Sea (χ, β, Pθ)θ∈Θ el modelo estad́ıstico asociado una muestra (X1, · · · , Xn) y sean T1 = T1 (X1, · · · , Xn) y T2 = T2 (X1, · · · , Xn) estad́ısticos univariantes. T1 es de tendencia creciente respecto a T2 en un valor T1 = t si sup T1(x1,···,xn) 1 2 , para π0 > κ κ+1 . La función π0 (κ) = κ κ+1 es estrictamente creciente. Además, si λ1 < λ2, entonces p (λ1) = Pθ0 {Λ ≥ λ1} ≥ Pθ0 {Λ ≥ λ2} = p (λ2) , para cualesquiera (x1, · · · , xn) ∈ AΛ (λ1) y (x, 1, · · · , x, n) ∈ AΛ (λ2). Λ es de tendencia creciente respecto a η en Λ = λ∗, por lo tanto para p∗ = Pθ0 {Λ ≥ λ∗} se cumple que κ∗ = sup (x1,···,xn), p(λ)>p∗ η = sup Λ(x1,···,xn)<λ∗ η ≤ ı́nf Λ(x1,···,xn)≥λ∗ η = ı́nf (x1,···,xn), p(λ)≤p∗ η = κ∗, `1 = π0 (κ∗) = sup (x1,···,xn), p>p∗ π0 (η) ≤ ı́nf (x1,···,xn), p≤p∗ π0 (η) = π0 (κ∗) = `2. 81 Sea π0 ∈ (`1, `2). Si (x1, · · · , xn) ∈ Aη (κ), con κ < κ∗ ≤ κ∗, entonces π0 > `1 > κ κ+1 y Pθ0 {Λ ≥ Λ (x1, · · · , xn)} > p∗. Rećıprocamente, si (x1, · · · , xn) ∈ Aη (κ), con κ ≥ κ∗ ≥ κ∗, entonces π0 < `2 ≤ κ κ+1 y Pθ0 {Λ ≥ Λ (x1, · · · , xn)} ≤ p∗. Corolario 4.2.1 Sea Λ = h (η) y h : R → R es una función monótona no decreciente. Observada una muestra (x1, · · · , xn) ∈ Aη (κ), el resultado que se obtiene para contrastar (4.1) con el método bayesiano basado en la probabilidad a posteriori Pπ∗ (θ0|κ) = [ 1 + 1− π0 (δ) π0 (δ) κ ]−1 , utilizando un valor de δ tal que π0 (δ) ∈ (`1, `2), siendo `1 = `1 (p∗, n) = sup (x1,···,xn), p>p∗ η (η + 1)−1 , y (4.9) `2 = `2 (p∗, n) = ı́nf (x1,···,xn), p≤p∗ η (η + 1)−1 , (4.10) es el mismo que el que se obtiene mediante el método clásico utilizando p∗ = P (Λ ≥ λ∗) para ponderar el p-valor, p (h (κ)) = Pθ0 {Λ ≥ h (κ)}. Además, si h es continua y estric- tamente creciente, entonces `1 = `2 = π0 (δ, p∗, n) = h−1 (λ∗) h−1 (λ∗) + 1 . (4.11) Demostración La demostración es inmediata utilizando la Proposición 4.2.3. Fijados el tamaño muestral n y p∗, otra consecuencia inmediata del Teorema 4.2.1 es que, para contrastar (4.1) (con la distribución a priori dada en (4.2), para π0 calculado en (4.4)), una condición suficiente para que exista acuerdo en los términos de (4.8) (entre el p-valor dado en (4.7) y la probabilidad a posteriori dada en (4.5)), es que `1 ≤ `2, siendo `1 y `2 los valores dados, respectivamente, en las expresiones (4.9) y (4.10). Además, si 82 Λ = h (η) y h : R → R es monótona no decreciente, la condición `1 ≤ `2 siempre se verifica para cualquier p∗, y cuando h es continua y estrictamente creciente, el acuerdo siempre es posible y se alcanza en (4.11). No obstante, cuando el estad́ıstico de contraste no es Λ, este resultado se puede enun- ciar en un contexto más general de la siguiente forma. Teorema 4.2.2 Sea el contraste (4.1) con la distribución a priori (4.2) para π0 calculado en (4.4). Sea T1 = T1 (X1, · · · , Xn) el estad́ıstico de contraste, p (t1) = P (T1 ≥ t1) el p- valor correspondiente en cada AT1 (t1) y T2 = T2 (X1, · · · , Xn) un estad́ıstico suficiente para el contraste tal que η = g (T2), con g : R → R y η dado en (4.6). Entonces, fijados n y p∗, si `1 = sup (x1,···xn), p>p∗ g (T2) g (T2) + 1 ≤ ı́nf (x1,···,xn), p≤p∗ g (T2) g (T2) + 1 = `2, (4.12) el intervalo numérico de valores de π0 = π0 (δ), I = I (p∗, n) = (`1, `2), verifica (4.8). Además, si existe una función h : R → R monótona no decreciente tal que T1 = h (η), entonces, la condición (4.12) siempre se verifica para cualquier p∗, y cuando h es continua y estrictamente creciente, entonces `1 = `2 = h−1 (t∗1) h−1 (t∗1) + 1 , siendo t∗1 tal que p (t∗1) = p∗. Demostración La demostración es similar a la del Teorema 4.2.1 definiendo, fijado un valor posible t2 del estad́ıstico T2, π0 (t2) = g(t2) g(t2)+1 . 4.3. Aplicaciones En esta sección se presentan algunos ejemplos en los que se aplican los resultados obtenidos en la sección anterior. 83 4.3.1. Paradoja de Lindley Cuando la hipótesis nula es puntual es bien conocido que las medidas de evidencia clásicas y bayesianas pueden dar lugar a respuestas radicalmente distintas. En el célebre art́ıculo de Lindley (1957) se ilustra la posible discrepancia en el caso normal. Lindley proporciona un ejemplo para mostrar que, en una dimensión, si H0 es una hipótesis sim- ple y x es el resultado de un experimento, los dos fenómenos siguientes pueden ocurrir simultáneamente: “un test para H0 revela que x es significativo a un nivel del 5%” y “la probabilidad a posteriori de H0, dado ese x, es, para probabilidades a priori bastante pequeñas de H0, mayor que el 95 %”. Se comenzará dando la formulación matemática de dicho ejemplo tal y como lo plantea Lindley, y posteriormente se analizará con detalle este fenómeno que, aunque pueda parecer paradójico, es bastante general. Sea (x1, · · · , xm) el valor observado de una muestra aleatoria de una distribución nor- mal de media θ y varianza conocida σ2. Sea c la probabilidad a priori de que θ = θ0. Se supone que el resto de la probabilidad a priori está distribúıda uniformemente sobre algún intervalo I que contenga a θ0. Se debeŕıan considerar situaciones en las que x̄, la media aritmética de las observaciones, se encuentre dentro del intervalo I para n suficientemente grande y por lo tanto x̄− θ0 tienda a cero cuando n aumenta. Entonces, la probabilidad a posteriori de que θ = θ0 es c̄ = ce− n(x̄−θ0)2 2σ2 K , (4.13) donde K = ce− n(x̄−θ0)2 2σ2 + (1− c) ∫ I e− n(x̄−θ)2 2σ2 dθ. En virtud de las suposiciones sobre x̄ e I la integral puede ser evaludada como σ √ 2π n . Ahora, se va a suponer que el valor observado x̄ es significativo a nivel α con el test usual para la media θ0 de una distribución normal con varianza conocida, es decir, x̄ = θ0+λα σ√ n , donde λα es un número que solamente depende de α tal que Φ (λα) = 1−α, siendo Φ la función de distribución de la normal estándar. Insertando este valor de x̄ en 84 (4.13) se obtiene la siguiente probabilidad a posteriori de que θ = θ0: c̄ = ce− 1 2 λ2 α ce− 1 2 λ2 α + (1− c) σ √ 2π n . (4.14) A partir de la expresión (4.14) se puede observar que c̄ → 1 cuando n → ∞. Por lo tanto, cualquiera que sea el valor de c, se puede encontrar un valor de n, dependiente de c y de α, tal que “x̄ sea significativamente distinto de θ0 al nivel α” y “la probabilidad a posteriori de que θ = θ0 sea del 100 (1− α) %”. Además, el fenómeno persistiŕıa con casi cualquier distribución de probabilidad a priori que se concentrara únicamente sobre el valor de la hipótesis nula. Por ejemplo, si hay una cantidad c en θ = θ0 y el resto se distribuye sobre I conforme a una densidad p (θ), donde ∫ I p (θ)dθ = 1 − c, entonces, si p (θ) está acotada, c̄ todav́ıa converge a 1. Es suficiente con que p (θ) no converja a ∞ más rápidamente de lo que θ converja a θ0. Esta es la paradoja de Lindley. La interpretación usual del primer resultado es que hay una buena razón para creer que θ 6= θ0, mientras que la del segundo es que existen motivos para creer que θ = θ0. Las dos interpretaciones están en conflicto directo. Lindley argumenta que una paradoja sólo habrá sido generada si es posible mostrar que existen situaciones donde sea razonable considerar una distribución a priori de esta forma y que a su vez, un test significativo de probabilidades cola de este tipo sea comunmente utilizado. Lindley, utilizando el argumento de Savage (1954), considera la paradoja en aquellas situaciones donde la probabilidad a priori exista y tenga una concentración en el punto de la hipótesis nula. Según Lindley, como la probabilidad a posteriori vaŕıa enormemente con n para un nivel de significación fijo, en un caso extremo produciendo un resultado en conflicto directo con el nivel de significación, el grado de convicción no es aproximadamente el mismo en dos situaciones con niveles de significación iguales, es decir, “5% en una muestra pequeña hoy no significa lo mismo que 5% en una muestra más grande mañana”. Cuando el nivel de significación está fijo, Jeffreys (véase, en particular, 1948, Apéndice) evalúa la variación en la probabilidad a posteriori, observando que c̄ dado en (4.14) con- verge a 1 muy lentamente, y que para valores moderados de n, c̄ puede ser menor que c 85 con un nivel de significación prescrito, estando los dos conceptos en un acuerdo razonable. Sea A = ce− 1 2 λ2 α (1−c) √ 2π , entonces c̄ = A A + σ√ n y c̄ → 0 cuando σ√ n → ∞. Por lo tanto, en un experimento de tamaño pequeño, una significación del 5% puede dar fuerte evidencia para dudar de la hipótesis nula. Tabla 4.1: valores de c̄ calculados por Lindley (1987) para diferentes valores de t = n σ2 , cuando c = 1 2 y se utiliza un test significativo al 5%. t c̄ t c̄ t c̄ t c̄ 1 0,055 40 0,270 600 0,589 10000 0,854 2 0,076 60 0,312 800 0,623 20000 0,892 3 0,092 80 0,343 1000 0,649 40000 0,921 4 0,105 100 0,369 2000 0,723 60000 0,935 5 0,116 200 0,453 4000 0,787 80000 0,943 10 0,156 300 0,503 6000 0,819 100000 0,949 20 0,207 400 0,539 8000 0,839 ∞ 1 A continuación se reproduce el ejemplo numérico que aparece en el art́ıculo citado de Lindley. Si se toma c = 1 2 y se utiliza un test significativo al 5%, entonces λ2 α = χ2 1,α = 1,962 = 3,841 y A = 0,0584. La tabla 4.1 proporciona los valores de c̄ para diferentes valores de t = n σ2 . Si σ = 1, t = n y se puede observar que para muestras pequeñas (n ≤ 10) la probabilidad a posteriori de que θ = θ0 ha disminúıdo apreciablemente con respecto a su valor inicial 1 2 , por lo tanto la evidencia permite rechazar la validez de la hipótesis nula. Para tamaños muestrales intermedios (10 < n < 100) la probabilidad sólo ha decrecido un poco, aśı que aunque no se esté tan seguro como inicialmente sobre la 86 hipótesis nula, las dudas no son tan grandes. Cuando n alcanza un valor en torno a 300, c̄ es igual a c y el experimento, a pesar de su 5 % de significación, no ha alterado en absoluto la creencia en la hipótesis nula. Para alcanzar el fuerte contraste de la paradoja es necesario tomar n alrededor de 10000. Naturalmente, si σ es más pequeño, muestras más pequeñas seŕıan suficientes. Una vez expuestos los términos en los que se desarrolla la paradoja de Lindley, se va a comprobar que dicho fenómeno no resulta paradójico si se tiene en cuenta que, para n y α fijos, existe un valor de c, que no depende de las observaciones, para el que la conclusión que se obtiene con el método bayesiano basado en la probabilidad a posteriori dada en (4.13) es la misma que la que se obtiene con el método clásico. En primer lugar, se observa que dicha probabilidad a posteriori se puede expresar de la siguiente forma: c̄ = ( 1 + 1− c c h−1 (T (x̄, θ0)) )−1 , donde h−1 (u) = σ √ 2π n e 1 2 u y T (x̄, θ0) = n(x̄−θ0)2 σ2 . Entonces, como consecuencia inmediata del Teorema 4.2.2, el valor para el que se consigue acuerdo entre ambos métodos es c = c (n, α) = h−1 ( χ2 1,α ) h−1 ( χ2 1,α ) + 1 =  1 + 1 σ √ 2π n e− 1 2 χ2 1,α   −1 . (4.15) El argumento que utiliza Lindley para poner de manifiesto la existencia de una parado- ja es que es posible encontrar un valor de n = n (c, α) para el que el resultado que se obtiene con la probabilidad a posteriori es radicalmente distinto al del método clásico. Para su ejemplo numérico utiliza c = 1 2 y un nivel de significación del 5%, entonces si se evalúa la expresión (4.15) en c = 1 2 se puede comprobar que dicho valor sólo se obtiene para n = 2πeχ2 1,α = 292,8 ≈ 300. En general, si c y α están fijos, para que se alcance el acuerdo entre ambos métodos se debeŕıa tomar n = n (c, α) = 1− c c 2πeχ2 1,α . Por lo tanto, desde nuestro punto de vista, dicho fenómeno no resulta paradójico. 87 4.3.2. Cotas Inferiores para Distribuciones Unimodales y Simétricas Sea X = (X1, · · · , Xm)′ con distribución Nm (θ, σ2I), donde σ2 es conocida, I es la matriz identidad m×m y θ = (θ1, · · · , θm)′ desconocido. Se pretende contrastar (4.1) con una muestra de tamaño n. En esta situación el estad́ıstico de contraste usual es T ( X, θ0 ) = n σ2 ( X− θ0 )′ ( X− θ0 ) , donde X = ( X1, · · · , Xm )′ . La distribución de T ( X, θ0 ) cuando H0 es cierta es χ2 m. Por lo tanto, el p-valor correspondiente al valor observado x̄ = (x̄1, · · · , x̄m)′ es p (x̄) = P { χ2 m ≥ T (x̄, θ0) } . Si π∗ (θ) es la distribución a priori de tipo mixto dada en (4.2) con π0 calculado mediante (4.4), aplicando los resultados de Gómez-Villegas, Máın y Sanz (2004), el ı́nfimo de la probabilidad a posteriori del punto de la hipótesis nula cuando π (θ) ∈ QUS, siendo QUS la clase de distribuciones unimodales y simétricas en θ0, es ı́nf π∈QUS P (H0|x̄) =  1 + 2 m 2 Γ ( m 2 + 1 ) δ∗m e 1 2 T (x̄,θ0)   −1 , donde δ∗ = δ √ n σ2 . Si x̄ es el valor observado en una muestra de tamaño n, para δ∗ > [ 2 m 2 Γ ( m 2 + 1 ) e 1 2 T (x̄,θ0) ] 1 m se verifica que ı́nf π∈QUS P (H0|x̄) > 1 2 . Además, fijado p∗, si 2p∗ > p (x̄), para δ∗ (x̄) =  2 m 2 Γ ( m 2 + 1 ) e 1 2 T (x̄,θ0)p (x̄) 2p∗ − p (x̄)   1 m se cumple que ı́nf π∈QUS P (H0|x̄) = p(x̄) 2p∗ . 88 Tabla 4.2: valores δ∗ (p∗, n, m) = δ √ n σ2 para los que se consigue acuerdo en la clase de distribuciones a priori unimodales y simétricas. δ∗ m = 2 m = 5 m = 10 m = 20 p∗ = 0,5 2 2,78 3,64 4,88 p∗ = 0,1 4,47 4,53 5,08 6,12 p∗ = 0, 05 6,32 5,44 5,7 6,6 p∗ = 0, 01 14,14 8,13 7,28 7,7 p∗ = 0, 001 44,72 13,95 10,02 9,34 Tabla 4.3: acuerdo entre el p-valor y el ı́nfimo de la probabilidad a posteriori en t = T (x̄, θ0) = 7. t = 7 m = 2 m = 5 m = 10 m = 20 p (t) 0,0302 0,22064 0,72544 0,9967 ı́nfπ∈QusP (H0|t = 7, δ∗) m = 2 m = 5 m = 10 m = 20 p∗ = 0,5 0,0787 0,23133 0,76331 0,99791 p∗ = 0,1 0,2992 0,77584 0,98894 0,99998 p∗ = 0,05 0,46066 0,89648 0,99651 0,9999995 p∗ = 0,01 0,81027 0,98473 0,9997 0,9999998 p∗ = 0,001 0,97712 0,99897 0,999988 0,9999999 Sea t∗ tal que P {χ2 m ≥ t∗} = p∗. Entonces, como consecuencia del Teorema 4.2.2, siempre existe acuerdo entre ambos métodos y se obtiene para δ∗ = [ 2 m 2 Γ ( m 2 + 1 ) e 1 2 t∗ ] 1 m = δ∗ (t∗) . 89 En la Tabla 4.2 están calculados los valores de δ∗ que se obtienen para varios valores de m y de p∗. A modo de comprobación, en la Tabla 4.3 se comparan ambos métodos cuando el valor observado del estad́ıstico de contraste es t = T (x̄, θ0) = 7, calculando, para los valores de m de la Tabla 4.2, los p-valores correspondientes y el ı́nfimo de la probabilidad a posteriori en los valores δ∗ obtenidos en la Tabla 4.2. Por ejemplo, se puede observar que cuando m = 2 el correspondiente p-valor es p (7) = 0,0302. Por lo tanto, un clásico que utilizara p∗ = 0,05 rechazaŕıa H0, mientras que si utilizara p∗ = 0,01 aceptaŕıa H0, el mismo resultado que obtendŕıa un bayesiano utilizando, respectivamente, los valores δ∗ = 6,32 y δ∗ = 14,14 de la Tabla 4.2, puesto que en este caso ı́nfπ∈QusP (H0|t = 7, δ∗ = 6,32) = 0,46066 y ı́nfπ∈QusP (H0|t = 7, δ∗ = 14,14) = 0,81027. Se puede efectuar un estudio similar al anterior cuando las variables de la muestra tengan la misma varianza σ2, y un coeficiente de correlación común ρ, es decir cuan- do la distribución de X = (X1, · · · , Xm)′ sea normal multivariante, Nm (θ, Σ), con una estructura especial de correlación, Σ = σ2   1 ρ · · · δ δ 1 · · · δ ... ... . . . ... δ δ · · · 1   , con σ2 y ρ conocidos, puesto que en este caso ı́nf π∈QUS P (H0|x̄) =  1 + Γ ( m 2 + 1 ) δ∗m ( 2 (1− ρ)m−1 (1 + (m− 1) ρ) )m 2 e t 2   −1 , siendo t = nx̄′Σ−1x̄ (véase Gómez-Villegas, Máın y Sanz (2004)). 4.3.3. Cotas Inferiores para Mixturas de Normales con Parámetro de Escala En el mismo contexto de la sección 4.3.2, se pretende contrastar (4.1) con θ0 = 0. En este caso el estad́ıstico de contraste usual es T ( X ) = n σ2 X ′ X. 90 Aplicando los resultados de Gómez-Villegas, Máın y Sanz (2004), si m > 2, el ı́nfimo de la probabilidad a posteriori del punto de la hipótesis nula cuando π (θ) ∈ QN , siendo QN = { π ( θ|v2 ) ≈ Nm ( 0, v2I ) , π ( v2 ) función no decreciente en (0,∞) } , es ı́nf π∈QN P (H0|t) = [ 1 + 1 δ∗2 Fm−2 (t) fm (t) ]−1 , donde t = n σ2 x̄ ′x̄, δ∗ = δ √ n σ2 y Fm−2 es la función de distribución de una variable aleatoria χ2 m−2 con fm la función de densidad de una variable aleatoria χ2 m. Si x es el valor observado en una muestra de tamaño n y T (x) = t, entonces el p-valor es p (t) = P {χ2 m ≥ t}, y para δ∗ > [ Fm−2 (t) fm (t) ] 1 2 se verifica que ı́nf π∈QN P (H0|t) > 1 2 . Tabla 4.4: valores δ∗ (p∗, n, m) = δ √ n σ2 para los que se consigue acuerdo en la clase de mixturas de normales con parámetro de escala. δ∗ m = 5 m = 10 m = 15 m = 20 p∗ = 0,5 2,38 2,72 2,95 3,13 p∗ = 0,1 5,14 5,77 6,21 6,55 p∗ = 0, 05 7,15 7,96 8,52 8,97 p∗ = 0,01 15,51 17,01 18,05 18,89 p∗ = 0,001 48,02 50,63 54,3 56,48 Además, fijado p∗, para δ∗ (t) = [ Fm−2 (t) fm (t) p (t) 2p∗ − p (t) ] 1 2 se cumple que ı́nf π∈QUS P (H0|t) = p(t) 2p∗ . 91 Tabla 4.5: acuerdo entre el p-valor y el ı́nfimo de la probabilidad a posteriori para t = T (x) = 20. t = 20 m = 5 m = 10 m = 15 m = 20 p (t) 0,00125 0,02925 0,1719 0,45793 ı́nfπ∈QusP (H0|t = 20, δ∗) m = 5 m = 10 m = 15 m = 20 p∗ = 0,5 0,00304 0,06592 0,2691 0,4781 p∗ = 0,1 0,01407 0,24163 0,6205 0,8011 p∗ = 0,05 0,02689 0,3772 0,7549 0,883 p∗ = 0,01 0,1155 0,7343 0,9325 0,971 p∗ = 0,001 0,5546 0,9622 0,99206 0,9966 Sea t∗ tal que P {χ2 m ≥ t∗} = p∗. Entonces, como consecuencia del Teorema 4.2.2, siempre existe acuerdo entre ambos métodos y se obtiene para δ∗ (p∗, n, m) = [ Fm−2 (t∗) fm (t∗) ] 1 2 = δ∗ (t∗) . En la Tabla 4.4 están calculados los valores de δ∗ que se obtienen para varios valo- res de m y de p∗. Además, en la Tabla 4.5 se comparan numéricamente ambos métodos cuando el valor observado del estad́ıstico del contraste es t = T (x) = 20, calculando para los valores de m utilizados en la Tabla 4.4, los p-valores correspondientes y el ı́nfimo de la probabilidad a posteriori en los valores δ∗ obtenidos en la Tabla 4.4. Por ejemplo, se observa que cuando m = 10 el p-valor es p (10) = 0,02925. Aśı, un clásico que utilizara p∗ = 0,05 rechazaŕıa H0, mientras que si utilizara p∗ = 0,01 aceptaŕıa H0. Se puede comprobar que un bayesiano obtendŕıa éste es el mismo resultado utilizando, respectiva- mente, los valores δ∗ = 7,96 y δ∗ = 17,01 de la Tabla 4.3. Esto se debe a que, en este caso, ı́nfπ∈QusP (H0|t = 20, δ∗ = 7,96) = 0,3772 y ı́nfπ∈QusP (H0|t = 7, δ∗ = 14,14) = 0,7343. 92 4.4. Observaciones Se puede observar que los resultados obtenidos en el caṕıtulo 3 para tablas de con- tingencia r × s, particularizados en el problema de contraste dado en (2.6), se pueden considerar como una aplicación del Teorema 4.2.1 cuando el muestreo se realiza sobre r poblaciones multinomiales independientes y m = r (s− 1). Además, cuando el problema estad́ıstico consiste en contrastar H0 : θ0 = θ0 (ω) , versus H0 : θ0 6= θ0 (ω) , donde θ0 : Ω → Θ, siendo Ω = {ω = (ω1, · · · , ωq) , θ (ω) = (θ1 (ω) , · · · , θm (ω)) ∈ Θ ⊂ Rq} y q < m fijo, se pueden generalizar los teoremas de la sección 4.2. Una posibilidad es utilizar la distribución a priori π∗ (θ) = π0π1 (ω) IH0 (θ) + (1− π0) π2 (θ) IH1 (θ) , donde π1 (ω) y π2 (θ) son, respectivamente, densidades sobre Ω y Θ, y π0 es la masa a priori asignada a la hipótesis nula, ya que en este caso, al igual que en la sección 2.7, la probabilidad a posteriori de H0 tiene la forma de (4.5) para η (x1, · · · , xn) = ∫ Θ f (x1, · · · , xn|θ) π2 (θ) dθ∫ Ω f (x1, · · · , xn|θ0 (ω)) π1 (ω) dω . Otras dos posibilidades seŕıan, respectivamente, abordar este problema mediante razona- mientos similares a los de las secciones 2.7.3 y 2.7.4. 4.5. Conclusiones y Comentarios La conclusión más importante es que los p-valores y las probabilidades a posteriori se pueden reconciliar en el problema del contraste multivariante de hipótesis nula puntual dado en (4.1). Se propone asignar una masa a priori a θ0 igual a la probabilidad de una bola de radio δ centrada en θ0, calculada mediante π (θ), y utilizar la distribución a priori de 93 tipo mixto definida en (4.2). En este caso, la probabilidad a posteriori del punto de la hipótesis nula es (4.5). Esta metodoloǵıa permite desarrollar un procedimiento con el que es posible demostrar un teorema que caracteriza el acuerdo entre ambas aproximaciones en los términos de (4.8). Además, en los ejemplos estudiados en la sección 4.3 se muestra que el acuerdo es siempre posible para un valor δ∗ = δ∗ (p∗, n, m) = δ √ n σ2 . Esto se debe fundamentalmente a que el ı́nfimo de la probabilidad a posteriori sobre las clases de distribuciones consideradas respectivamente en los ejemplos mencionados es una función del estad́ıstico de contraste del método clásico usual. 94 Referencias [1] BERGER, J. O. (1985). Statiscal Decision Theory and Bayesian Analysis. Springer, New York. [2] BERGER, J. O. (1994). An overview over robust Bayesian analysis (with discussion). Test 3(1), 5-124. [3] BERGER, J. O. and BERLINER, L. M. (1986). Robust Bayes and empirical Bayes analysis with ε−contaminated priors. Ann. Statist., 14(2), 461-486. [4] BERGER, J. O., BOUKAI, B. and WANG, Y. (1997). Unified Frequentist and Bayesian Testing of a Precise Hypothesis. Statistical Science, 12(3), 133-160. [5] BERGER, J. O., BOUKAI, B. and WANG, Y. (1999). Simultaneous Bayesian- Frequentist Sequential Testing of Nested Hypothesis. Biometrika, 86, 79-92. [6] BERGER, J. O. and DELAMPADY, M. (1987). Testing Precise Hyphotheses, (with Discussion). Statistical Science, 2(3), 317-352. [7] BERGER, J. O. and SELKE, T. (1987). Testing a Point Null Hyphoteses: The Irrec- onciliability of p-Values and Evidence, (with Discussion). J. Amer. Statist. Assoc., 82, 112-139. [8] BERNARDO, J. M. (1980). A Bayesian Analysis of Classical Hypothesis Testing. In: Bernardo, J.M., DeGroot, M.H., Lindley, D.V., Smith, A.F.M., (Eds.) Bayesian Statistics. University Press, Valencia, pp. 605-647 (with discussion). 95 [9] CASELLA, G. and BERGER, R. L. (1987). Reconciling Bayesian and Frequentist Evidence in the One-Sided Testing Problem, (with Discussion). J. Amer. Statist. Assoc., 82, 106-135. [10] COW, D. R. and HINCKLEY, D. V. (1974). Theoretical Statistics. Chapman & Hall. London. [11] DEGROOT, M. H.(1974). Reaching a consensus. J. Amer. Statist. Assoc., 68, 966- 969. [12] DE LA HORRA, J. and RODRÍGUEZ-BERNAL, M. T. (2003). Bayesian robustness of the posterior predictive p-value. Commun. Statist.-Theory Meth., 32, 1493-1503. [13] DE LA HORRA, J. (2005). Reconciling classical and prior predictive p-values in the two sided location parameter testing problem. Aceptado en Test. [14] DICKEY, J. M. and LIENZ, B. P. (1970). The weighted likelihood ratio, sharp hy- pothesis about chances, the order of a Markov chain. Ann. Math. Statist., 41, 214-226. [15] EDWARDS, W. L., LINDMAN, H. and SAVAGE L. J. (1963). Bayesian Statistical Inference for Psychologycal Research. Psychol. Rev., 70, 193-248. [16] GÓMEZ-VILLEGAS, M. A. and GÓMEZ SÁNCHEZ-MANZANO, E. (1992). Bayes Factor in Testing Precise Hyphoteses. Commun. Statist-Theory Meth., 21, 1707-1715. [17] GÓMEZ-VILLEGAS, M. A. and GONZÁLEZ, B. (2005). Bayesian Analysis of Con- tingency Tables. Aceptado en Commun. Statist-Theory Meth. [18] GÓMEZ VILLEGAS, M. A., MAÍN, P. and SANZ, L. (2002). A suitable bayesian approach in testing point null hypothesis: some examples revisited. Commun. Statist.- Theory Meth., 31(2), 201-217. [19] GÓMEZ VILLEGAS, M. A., MAÍN, P. and SANZ, L. (2004). A Bayesian Analy- sis for the Multivariate Point Null Testing Problem. Technical Report Dpto. EIO-I. Universidad Complutense de Madrid. 04-01. 96 [20] GÓMEZ VILLEGAS, M. A., MAÍN, P., SANZ, L. and NAVARRO, H. (2004). Asymptotic relationships between posterior probabilities and p-values using the haz- ard rate. Statistics & Probability Letters, 66, 59-66. [21] GÓMEZ-VILLEGAS, M. A. and SANZ, L. (1998). Reconciling Bayesian and Fre- quentist Evidence in the Point Null Testing Problem. Test, 7(1), 207-216. [22] GÓMEZ-VILLEGAS, M. A. and SANZ, L. (2000). ε-contaminated priors in testing point null hypothesis: a procedure to determine the prior probability. Statistics & Probability Letters, 47, 53-60. [23] GHOSH, J. K. and MUKERJEE, R. (1992). Non-informative priors. In: Bernardo, J.M., Berger, J.O., Dawid, A.P., Smith, A.F.M. (Eds), Bayesian Statistics, vol. 4. University Press, Oxford, 195-210 (with discussion). [24] GHOSH, J. K. and RAMAMOORTHI R. V. (2003). Bayesian Nonparametrics. Springer. [25] HOWARD, J. V. (1998). The 2×2 Table: A Discussion from a Bayesian Viewpoint. Statistical Science, 13(4), 351-367. [26] HUBER, P. J. (1973). The use of Choquet capacities in statistics. Bull. Int. Statist. Inst., 45, 181-191. [27] JEFFREYS, H. (1948) Theory of Probability, 2nd ed. Oxford: Clarendon Press. [28] LEE, P. M. (1997). Bayesian Statistics: An Introduction. London: Arnold. [29] LINDLEY, D. V. (1957). A Statistical Paradox. Biometrika, 44, 187-192. [30] LINDLEY, D. V. (1998). Statistical Inference Concerning Hardy-Weinberg Equilib- rium. Bayesian Statistics, 3, 307-326. [31] MCCULLOCH, R. E. and ROSSI, P. E. (1992). Bayes factors for non-linear hypoth- esis and likelihood distributions. Biometrika, 79, 663-676. 97 [32] MUKHOPADHYAY, S. and DASGUPTA, A. (1997). A Uniform Approximation of Bayes Solutions and Posteriors: Frequentistly Valid Bayes Inference. Statistics and Decisions, 15, 51-73. [33] OH, M. S. (1988). A Bayes test for simple versus one-sided hypothesis on the mean vector of a multivariate normal distribution. Commun. Statist.-Theory Meth., 27(10), 2371-2389. [34] OH, H. S. and DASGUPTA, A. (1999). Comparison of the p-Value and Posterior Probability. J. of Statist. Planning and Inference, 76, 93-107. [35] PEARSON, E. S. (1947). The choice of statistical tests illustrated on the interpreta- tion of data classed in a 2×2 table. Biometrica, 34, 139-167. [36] PEARSON, K. (1900). On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reason- ably supposed to have arisen from random sampling. Phil. Mag., 5(50), 157-175. [37] PRATT, J. V. (1965). Bayesian Interpretation of Standard Inference Statements. J. Roy. Statist. Soc. B, 27, 169-203. [38] QUINTANA F. A. (1998). Nonparametric Bayesian Analysis for Assessing Homo- geneity in k× l Contingency Tables With Fixed Right Margin Totals. Journal of the American Statistical Association, Theory and Methods, 93(443), 1140-1149. [39] ROBERT, Ch. P. (2001). The Bayesian Choice. Springer, New York. [40] RUBIN, D. B. (1984). Bayesianly Justifiable and Relevant Frequency Calculations for the Applied Statiscian. Ann. Statist., 12, 1151-1172. [41] SAVAGE, L. J. The Foundations of Mathematics. London: Routledge and Kegan Paul. 98 [42] SIVAGANESAN, S. (1988). Range of the posterior measures for priors with arbitrary contaminations. Commun. Statist.-Theory Meth., 17, 1591-1612. [43] SIVAGANESAN, S. and Berger, J. O. (1989). Ranges of posterior measures for priors with unimodal contaminations. Ann. Statist., 17(2), 869-889. [44] SPIEGELHALTER, D. J. and SMITH, A. F. M. (1982). Bayes factors for linear and log-linear models with vague prior information. J. Roy. Statist. Soc., Ser. B, 44, 377-387. 99 ÍNDICE Prólogo Capítulo 1: Distribuciones e-Contaminadas en Tablas de Contigencia 1.1. Introducción 1.2. Formulación del Problema 1.3. Notación 1.4. Acotaciones de la Probabilidad A Posteriori 1.5. Ejemplos 1.6. Comparación con el Método Clásico 1.7. Comentarios Capítulo 2: Análisis Bayesiano de Tablas de Contigencia 2.1. Introducción 2.2. Formulación del Problema y Cálculo de la Probabilidad A Posteriori 2.3. Comparación con el Método Clásico 2.4. Tablas r x s con po Conocido 2.5. Conclusiones 2.6. Tablas r x s con po Desconocido 2.7. Tablas r x s con po = p(w) 2.8. Observaciones 2.9. Conclusiones y Comentarios Capítulo 3: Acuerdo entre la Aproximación Clásica y Bayesiana en Tablas de Contingencia 3.1. Introducción 3.2. Preliminares 3.3. Acuerdo entre la Aproximación Clásica y Bayesiana 3.4. Comparación con el Método Clásico Usual 3.5. Reparametrizaciones 3.6. Comentarios Capítulo 4: Acuerdo entre la Aproximación Clásica y Bayesiana en el Contraste de la Hipótesis Nula Puntual Multivariante 4.1. Introducción 4.2. Acuerdo entre la Aproximación Clásica y Bayesiana 4.3. Aplicaciones 4.4. Observaciones 4.5. Conclusiones y Comentarios Referencias