©Richard Lowry, 1999-
Todos los derechos reservados.


Cap’tulo 3. Introducci—n a la correlaci—n lineal y a la regresi—n
Parte 2


[Concepts & Applications of Inferential Statistics]

Traducción: Jorge Hern‡ndez Garc’a
Universidad Nacional Aut—noma de MŽxico
oulixes@hotmail.com



   Los c‡lculos que hemos realizado a travŽs de toda la Parte 1 de este cap’tulo, fueron ejecutados sobre algunos conjuntos de datos muy peque–os y simples. Conjuntos de datos m‡s grandes y complejos, ser‡n m‡s laboriosos –pero los principios generales y los procedimientos espec’ficos de c‡lculo son precisamente los mismos, de cualquier modo. Considere, por ejemplo, el conjunto de datos que hemos referido al inicio del cap’tulo, pertenecientes a la correlaci—n entre el porcentaje de quasi-graduados que presentaron el SAT versus la puntuaci—n promedio por estado en el SAT.


   La
Table 3.2
muestra los detalles del c‡lculo para este conjunto de datos. Como puede ver, se requiere de un nœmero bastante grande de operaciones separadas, muchas de las cuales resultan en valores numŽricos de muchos d’gitos. Hubo un tiempo en el no muy distante pasado, en que los estudiantes de estad’stica ten’an que realizar c‡lculos de este tipo armados con nada m‡s que papel, l‡piz y paciencia, y era una empresa realmente muy laboriosa. Pero eso era entonces y esto es ahora. Con una calculadora barata de bolsillo y un poco de pr‡ctica en su uso completo, se pueden realizar c‡lculos complejos de este tipo con una velocidad que habr’a dejado llorando de envidia a la generaci—n anterior de estudiantes de estad’stica. Con una hoja de c‡lculo para computadora, y de nuevo un poco de pr‡ctica, se puede hacer aœn m‡s r‡pido. Con software de computadora dise–ado para ello, tal como la p‡gina de correlaci—n lineal del sitio de la Internet VassarStats, se puede realizar con tan poco esfuerzo y en tan poco tiempo como el que toma introducir los valores relacionados de Xi e Yi.

   Para cualquier tasa, una vez que se realizan las operaciones requeridas para llegar a las siguientes umas (de la Tabla 3.2), el resto es simple y directo:

Sumas

Xi

Yi

 

Xi2

Yi2

 

XiYi

 1,816 

 47,627 

 102,722 

 45,598,101 

 1,650,185 


Dados estos resultados de la trituraci—n de nœmeros preliminar, se puede calcular f‡cilmente (como se muestra en la Tabla 3.2)


    SSX =
36,764.88

    SSY =
231,478.42

    SCXY =
79,672.64

    r =
0.86

    r2 =
0.74



Interpretaci—n de la correlaci—n

   La interpretaci—n de una instancia observada de correlaci—n puede tener lugar a dos niveles bastante distintos. El primero de ellos involucra una forma muy conservadora que enfatiza el hecho observado de la covariaci—n y no va m‡s all‡ de este hecho. El segundo nivel de interpretaci—n se construye sobre el primero, pero va m‡s all‡ de Žl para considerar si la relaci—n entre las dos variables correlacionadas es una relaci—n de causa y efecto
. Esta œltima es un acercamiento a la interpretaci—n potencialmente m‡s fruct’fero, pero tambiŽn es potencialmente m‡s problem‡tico.

¦Correlaci—n como Covariaci—n

   Cuando se encuentran dos variables a ser correlacionadas, el significado fundamental de este hecho es que las instancias particulares relacionadas de Xi e Yi que se han observado tienden a covariar
. El signo positivo o negativo de r, el coeficiente de correlaci—n, indica la direcci—n de la covarianza y la magnitud de r2, el coeficiente de determinaci—n, proporciona iguales medidas de intervalo y raz—n del grado de la covarianza. As’, cuando encontramos un coeficiente de correlaci—n de r=0.86 para nuestros datos del SAT 1993, el significado fundamental de este hecho numŽrico es que las instancias particulares relacionadas de Xi e Yi listados en la Tabla 3.2 muestran algœn grado de covarianza y que la direcci—n de esta covarianza es negativa o inversa. Cuando elevamos r al cuadrado para obtener el coeficiente de determinaci—n, r2=0.74, el significado fundamental de este hecho numŽrico es que el grado de covarianza es 74%. Esto es, 74% de la varianza de la variable Y est‡ acoplada con la variabilidad de X; del mismo modo, 74% de la varianza de la variable X est‡ asociada con la variabilidad de Y. Inversamente, se puede decir que 26% de la varianza de Y no est‡ acoplada con la variabilidad de X y de manera similar, que el 26% de la varianza de X no est‡ asociada con la variabilidad de Y.


   Los conceptos b‡sicos involucrados en esta interpretaci—n esencial de la covarianza, se ilustran en el siguiente diagrama. Cada uno de los c’rculos completos representa el 100% de la varianza de X o Y. En el caso de cero correlaci—n no existe tendencia a covariar para X e Y; y as’, como se ilustra con los dos c’rculos separados de arriba, no hay traslape entre la variabilidad de X y la de Y. Cualquier correlaci—n distinta de cero (positiva o negativa) reflejar‡ el hecho de que X e Y tienden efectivamente a covariar; y cuanto mayor sea el grado de covarianza, como lo mide r2
, mayor ser‡ el traslape.


   


   Los dos c’rculos de abajo ilustran el traslape de nuestra correlaci—n observada del SAT de r
=0.86, y m‡s generalmente para cualquier instancia de correlaci—n donde r sea 0.86 — +0.86. El ‡rea de traslape representa el hecho de que 74% de las varianza de Y estŽ acoplada con la variabilidad de X y vicevesa; y las ‡reas sin traslapar representan el hecho de que el 26% de la varianza de Y no estŽ relacionada a la variabilidad de X, del mismo modo que el 26% de la varianza de X no est‡ relacionada a la variabilidad de Y. Esta porci—n de la varianza sin traslape de X o Y se denomina varianza residual. En general, la proporci—n de la varianza de cualquiera de las variables que est‡ acoplada con la variabilidad de la otra, est‡ dada por r2, y la proporci—n de varianza residual de cualquiera de las variables est‡ dada por 1r2.


   Si estuviŽramos examinando la correlaci—n simplemente como una abstracci—n matem‡tica, esta interpretaci—n ser’a todo lo que realmente necesitamos. La correlaci—n es covarianza, la covarianza es correlaci—n y el resto es s—lo tema de entrar en detalles. El siguiente nivel de interpretaci—n se aventura m‡s all‡ del dominio seguro y ordenado de la abstracci—n matem‡tica y plantea la cuesti—n: ÀQuŽ tiene que ver (si es que hay algo) la correlaci—n observada entre dos variables con la realidad emp’rica? Ex nihilo nihil fit.
Traducido libremente, significa que nada viene de ningœn lugar, de manera que todo debe venir de algœn sitio. Se acepta que la correlaci—n es covarianza. La cuesti—n es, Àde d—nde viene la covarianza?


¦La cuesti—n de causa y efecto

   La correlaci—n es una herramienta y cualquier herramienta, mal empleada, es capaz de hacer da–o. Use un martillo de forma incorrecta y cavar‡ su propia tumba. Use la correlaci—n de manera incorrecta, saltando demasiado r‡pido, superficialmente y con simpleza para hacer inferencias acerca de la causa y el efecto, y llegar‡ a conclusiones falsas e insostenibles. El riesgo es tan grande, que muchos instructores de estad’stica y libros de texto disuaden activamente a los estudiantes incluso de pensar en relaciones causales en conexi—n con la correlaci—n. Regularmente esto toma la forma de una precauci—n: ÒNo se puede inferir una relaci—n causal œnicamente sobre la base de una correlaci—n observada.Ó Ocasionalmente, suena como un onceavo mandamiento: ÒÁNo inferir‡s causa sobra la base de la correlaci—n!Ó La precauci—n es correcta. El mandamiento est‡ sobreestimado.


   Si dos variables est‡n relacionadas sistem‡ticamente una con otra como causa y efecto, entonces la variaci—n en a causa producir‡ una correspondiente variaci—n en el efecto y las dos mostrar‡n de manera concordante algœn grado de correlaci—n. Existe, por ejemplo, una correlaci—n positiva muy alta entre la estatura y el peso de un humano, y por obvias razones. Entre m‡s alta es una persona, m‡s grande es la masa b‡sica del cuerpo; y para aquellos inclinados a la corpulencia, hay m‡s espacio en el marco de un cuerpo m‡s grande para agregar masa adicional. En breve, estatura y peso est‡n relacionadas una con otra como causa y efecto y la correlaci—n entre estas dos variables refleja
esta relaci—n causal. Alternativamente, se puede decir que la relaci—n causal entre estatura y peso produce la correlaci—n observada.


   Pero el hecho que una relaci—n causal entre variables pueda producir correlaciones, no implica que una relaci—n causal estŽ detr‡s de todas y cada una de las instancias de correlaci—n. Una correlaci—n observada no dice m‡s que el que dos variables covar’an. En algunos casos la covarianza refleja una relaci—n causal entre las variables y en otros casos no. El truco est‡ en determinar cu‡l es cu‡l. Una correlaci—n observada entre dos variables proporciona la evidencia para considerar la posibilidad
de una relaci—n causal –pero esta posibilidad debe ser pesada con cuidado y precauci—n en la balanza de cualquier otra informaci—n que se pudiera tener acerca de la naturaleza de las dos variables.


   Siempre que se encuentren dos variables, X e Y, a ser correlacionadas, las posibilidades b‡sicas que conciernen a la cuesti—n de causa y efecto, son las siguientes:

 

   Posibilidad 1. Para cuando haya completado los cap’tulos de este texto, le habr‡ surgido la cuesti—n general de la Posibilidad 1 tan a menudo que parecer‡ como si hubiese nacido con ella. Cuando se muestrean eventos de la naturaleza y se observa un patr—n, puede ser que el patr—n de la muestra refleje un patr—n correspondiente en la poblaci—n completa de la cual se tom— la muestra. Pero de nuevo, puede ser que el patr—n observado en la muestra sea s—lo un golpe de suerte, resultado de no m‡s que mera coincidencia. Esta es, por supuesto, la cuesti—n general de la significancia estad’stica, y una vez que haya pasado el presente cap’tulo, habr‡ escasamente una p‡gina en este texto que no lo refiera en una forma u otra. Destaparemos esta cuesti—n con un poco m‡s de detalle hacia el final de este cap’tulo. Mientras tanto, baste decir que antes de que comience incluso a pensar acerca del asunto de causa y efecto, primero necesita determinar si es razonable suponer que la correlaci—n observada viene de cualquier otra cosa m‡s que mera coincidencia. Las posibilidades restantes presuponen que esta determinaci—n ha sido v‡lidamente hecha en la afirmaci—n.

   Posibilidad 2. Primero, por supuesto, est‡ la posibilidad de que exista una relaci—n causal entre X e Y, sea directa o indirecta, de tal modo que la variaci—n en X produce variaci—n en Y.

 

X

ááááá>

Y

o alternativamente, de tal modo de la variaci—n en Y produce variaci—n en X

 

X

<ááááá

Y

En este œltimo caso, har‡ bien en cambiar las etiquetas X e Y de sus varaibles; dado que como se anot— antes, la convenci—n es reservar ÒYÓ para la variable dependiente (el efecto) y ÒXÓ para la variable independiente (la causa.)


   Para cualquier tasa, buscando determinar si una correlaci—n XY observada evidencia la existencia de una relaci—n causal, el primer paso l—gico ser’a eliminar la posibilidad de que refleje algo m‡s que una relaci—n causal entre X e Y. Recuerde que estamos suponiendo aqu’ que la cuesti—n de la significancia estad’stica ha sido ya respondida de manera afirmativa. La correlaci—n observada se supone que viene de algo m‡s que mera coincidencia; y si algo no es una relaci—n causal entre X e Y, entonces, ÀquŽ otra cosa podr’a ser posible?


   Posibilidad 3
. Si examina los registros de la ciudad de Copenhagen para los diez o veinte a–os posteriores a la segunda guerra mundial, encontrar‡ una fuerte correlaci—n positiva entre (i) la cantidad anual de cigŸe–as que anidaban en la ciudad, y (ii) la cantidad anual de bebŽs humanos nacidos en la ciudad. Salte demasiado r‡pido al supuesto de una relaci—n causal, y se encontrar‡ a s’ mismo abrumado con la conclusi—n de que las cigŸe–as traen a los bebŽs o que los bebŽs traen a las cigŸe–as. O considere este otro. Si examina las estad’sticas de vida de cualquier pa’s por un per’odo de a–os, encontrar‡ una correlaci—n positiva virtualmente perfecta entre (i) la cantidad anual de nacimientos de varones, y (ii) la cantidad anual de nacimientos de mujeres. ÀLos ni–os traes a las ni–as o es el otro modo?


   En ambos ejemplos lo que se tiene es una situaci—n en la que dos variables terminan correlacionadas, no debido a que una influencie la otra, sino m‡s bien debido a que ambas est‡n influenciadas por una tercera variable, Z, que no se est‡ considerando. Es decir, la relaci—n causal no es Xááááá>Y ni X<áááááY, sino

 

Z ááá


áááá>X


áááá>Y


   Para el ejemplo de los nacimientos de varones-mujeres, la tercera variable es simplemente la tasa anual de nacimientos. Nacen m‡s bebŽs en algunos a–os que en otros. Pero sin importar la tasa de nacimientos en cualquier a–o dado, las proporciones de varones y mujeres tienden a permanecer constantes, con nacimientos de varones levemente por encima de los nacimientos de mujeres. (En los Estados Unidos en las œltimas dŽcadas esto ha ocurrido en la vecindad de 51.25% varones y 48.75% mujeres.) As’, una tasa de nacimientos relativamente alta traer‡ consigo un nœmero relativamente alto de ambos, varones y mujeres, y una tasa de nacimientos relativamente baja traer‡ nœmeros relativamente bajos de ambos nacimientos, varones y mujeres.

 

nœmero total de nacimientosááá


áááá>nœmero de nacimientos de varones


áááá>nœmero de nacimientos de mujeres


En resumen, las cantidades anuales de nacimientos de hombres y mujeres est‡s correlacionados uno con el otro s—lo debido a que ambos est‡ correlacionados con fluctuaciones en la tasa anual de nacimientos.


   La tercera variabl para la correlaci—n entre cigŸe–as y bebŽs, no pasa la p‡gina de manera bastante conspicua, pero todo es lo mismo. Durante los diez o veinte a–os que siguieron a la segunda guerra mundial, las poblaciones de la mayor’a de las ciudades del oeste de Europa crecieron s—lidamente como resultado de migraciones desde ‡reas rurales que las rodeaban. Este brote de fecundidad se conoci— tambiŽn como el florecimiento de bebŽs de la posguerra. Es as’ como sucedi— para la ciudad de Copenhagen, que es tambiŽn hogar para las cantidades fluctuantes de cigŸe–as. A medida que la poblaci—n creci—, hubo m‡s gente que tuvo bebŽs, y por lo tanto nacieron m‡s bebŽs. TambiŽn a medida que la poblaci—n creci—, hubo m‡s construcciones edificadas para acomodarles, que en su momento provey— de m‡s lugares de anidamiento para las cigŸe–as, haciendo que se incrementara la cantidad de cigŸe–as.

 

incremento de la poblaci—n ááá


áááá>m‡s edificios
áááá> áááá>incremento del nœmero de cigŸe–as


áááá>m‡s gente que tiene bebŽs  
áááá>áááá>incremento del nœmero de bebŽs


Note que en este tipo de situaci—n no tiene sentido hablar de X como la variable independiente e Y como la variable dependiente. De hecho, X e Y son ambas independientes una de la otra y dependientes de la variable Z.


¦Interpretaci—n de la correlaci—n del SAT

   As’ pues, ÀquŽ debemos hacer, en este contexto, con nuestra correlaci—n observada entre

 

X =

Porcentaje de quasi-graduados de bachillerato dentro del estado que presentan el SAT, y

Y =

La puntuaci—n promedio combinada del estado obtenida en el SAT

que, como recordar‡, fue medido con r=0.86 y r2=0.74?

Pregunta uno: ÀEs la correlaci—n observada estad’sticamente significativa –i.e., es improbable que haya ocurrido por mera coincidencia? Por el momento tengo que pedirle que acepte mi palabra de que as’ es. Por medio de los procedimientos que examinaremos despuŽs, se ver‡ que la probabilidad de encontrar una correlaci—n tan fuerte debida a mera coincidencia para una muestra divariada de tama–o N=50 es en realidad muy peque–a. Pregunta dos: ÀExiste alguna otra cosa que una l’nea recta para la relaci—n causal Xááááá>Y que pueda considerarse plausiblemente para la correlaci—n observada? ÀEs posible, por ejemplo, que X e Y estŽn correlacionadas entre s’ s—lo debido a que ambas est‡n siendo influenciadas por una tercera variable, Z? Alternativamente, Àes posible que X e Y se estŽn influenciando una a otra rec’procamente? Creo que estar‡ de acuerdo en que la posibilidad de influencia rec’proca es improbable, igual que es dif’cil imaginar c—mo la puntuaci—n promedio SAT de un estado en un a–o dado podr’a retroactivamente influenciar el porcentaje de quasi-graduados en el estado que presentan el examen. La posibilidad de una tercera variable, Z, no puede eliminarse tan r‡pidamente, a pesar de que no es inmediatamente obvio lo que Z podr’a ser. Ciertamente existen otras variables que juegan un papel en la situaci—n, pero que no necesariamente significa que est‡n X e Y por separado, de acuerdo con el paradigma

 

Z ááá


áááá>X


áááá>Y


 


[I.e., Záááá>X y Záááá>Y
pero no Xáááá>Y ni Yáááá>X]


   Para todos los candidatos posibles Z que puedo imaginar (factores econ—micos, demogr‡ficos, geogr‡ficos, etc.), el escenario es un oen el que Z influenciar’a primero a X y entonces a Y a travŽs de X, de acuerdo con el paradigma

 

Záááá>Xáááá>Y

 


[I.e., Záááá>X y Xáááá>Y]



   Aqu’ hay un ejemplo muy obvio. Muy pocos quasi-graduados presentan el SAT por mera diversi—n. Aquellos que lo presentan, lo hacen porque est‡n solicitando ingreso a escuelas que requieren el SAT. En algunos estados, es un peque–o porcentaje el que solicita el ingreso a tales colegios, y por ello un porcentaje m‡s peque–o presenta el SAT; y en otros estados existe un porcentaje m‡s alto que solicita ingreso a tales colegios, por lo tanto un porcentaje m‡s alto que presenta el SAT. Z es el porcentaje estatal de quasi-graduados que solicita ingreso a colegios que requieren el SAT; X es el porcentaje estatal de quasi-graduados que presenta el SAT; y la correlaci—n positiva que seguramente encontrar’amos entre esas dos variables, si fuŽramos a medirla, claramente evidenciar’a una relaci—n de causa y efecto (Záááá>X.)

   En cualquier evento, de todo lo que conocemos acerca de las dos variables primarias, X e Y, en esta situaci—n, la posibilidad de una relaci—n causal directa Xáááá>Y es totalmente plausible. Imagine dos estados, A y B, cuyos respectivos porcentajes de quasi-graduados de bachillerato que presentaron el SAT son A=5% y B=65%. Ahora los quasi-graduados del estado A que presentaron el SAT pueden no representar precisamente el mejor 5% del estado, pero seguramente es m‡s probable que represente el mejor 10 — 15% que el 60 — 70%. Por otro lado, no hay manera de que el 65% que present— el examen en el estado B pudiera venir principalmente del mejor 10 — 15% de quasi-graduados en ese estado, menos aœn del mejor 25%. De hecho, casi un cuarto de ellos, no podr’a venir posiblemente siquiera del mejor 50%. As’ que aqu’ est‡ nuestra conexi—n causal presupuesta envuelta en una c‡scara de nuez: Un porcentaje m‡s peque–o de estudiantes que presenta el SAT tiende a representar la porci—n superior de lo escala de proeza acadŽmica, y tender‡ as’ a producir una puntuaci—n promedio SAT m‡s alta para el estado; mientras que un porcentaje m‡s grande de estudiantes que presenta el examen tender‡ a incluir no s—lo estudiantes cerca del tope de la escala, sino tambiŽn otros no tan cerca del tope, y tender‡ a producir una puntuaci—n promedio SAT m‡s baja para el estado.

   Suponiendo que la relaci—n cusal Xáááá>Y es como la he descrito, podr’amos vincularla de nuevo con la interpretaci—n de covarianza de la correlaci—n y observar lo siguiente (recuerde que r=0.86 y r2=0.74). De la variabilidad total que existe entre los 50 estados con respecto a la puntuaci—n SAT promedio, 74% est‡ asociado con la variabilidad en los porcentajes de quasi-graduados que presentan el SAT. En efecto, 74% de las diferencias por estado en la puntuaci—n promedio del SAT se explican por el hecho de que esos diferentes estados tienen diferentes porcentajes de quasi-graduados que presentan el examen. Y es 74% que no necesita explicarse por supuestas diferencias entre los sistemas educativos estatales –a menos que se imagine la noci—n ampliamente extendida de que los sistemas educativos m‡s efectivos son aquellos que producen los m‡s peque–os porcentajes de estudiantes que solicitan ingreso a colegios que requieren el SAT. Suponiendo que esta noci—n es tan absurda como parece, la m‡xima proporci—n de variabilidad por estado en las puntuaciones promedio del SAT que podr’an seguramente deberse a diferencias entre los sistemas educativos estatales es el 26% que no es explicado por las diferencias por estado en el porcentaje de quasi-graduados que presentan el SAT. Y por favor note que esto es s—lo la proporci—n m‡xima posible. Podr’a bien resultar que las diferencias mesurables entre los sistemas educativos estatales cuente s—lo para una fracci—n del 26% de varianza residual de Y, si es que efectivamente cuenta para alguna parte de ello.


Fin del Cap’tulo 3, Parte 2.
   
Regresar al Inicio de la Parte 2
   
Ir al Cap’tulo 3, Parte 3