©Richard Lowry, 1999-
Todos los derechos reservados.


Capítulo 3. Introducción a la correlación lineal y a la regresión
Parte 2


[Concepts & Applications of Inferential Statistics]

Traducción: Jorge Hernández García
Universidad Nacional Autónoma de México
oulixes@hotmail.com



   Los cálculos que hemos realizado a través de toda la Parte 1 de este capítulo, fueron ejecutados sobre algunos conjuntos de datos muy pequeĖos y simples. Conjuntos de datos más grandes y complejos, serán más laboriosos –pero los principios generales y los procedimientos específicos de cálculo son precisamente los mismos, de cualquier modo. Considere, por ejemplo, el conjunto de datos que hemos referido al inicio del capítulo, pertenecientes a la correlación entre el porcentaje de quasi-graduados que presentaron el SAT versus la puntuación promedio por estado en el SAT.


   La
Table 3.2
muestra los detalles del cálculo para este conjunto de datos. Como puede ver, se requiere de un número bastante grande de operaciones separadas, muchas de las cuales resultan en valores numéricos de muchos dígitos. Hubo un tiempo en el no muy distante pasado, en que los estudiantes de estadística tenían que realizar cálculos de este tipo armados con nada más que papel, lápiz y paciencia, y era una empresa realmente muy laboriosa. Pero eso era entonces y esto es ahora. Con una calculadora barata de bolsillo y un poco de práctica en su uso completo, se pueden realizar cálculos complejos de este tipo con una velocidad que habría dejado llorando de envidia a la generación anterior de estudiantes de estadística. Con una hoja de cálculo para computadora, y de nuevo un poco de práctica, se puede hacer aún más rápido. Con software de computadora diseĖado para ello, tal como la página de correlación lineal del sitio de la Internet VassarStats, se puede realizar con tan poco esfuerzo y en tan poco tiempo como el que toma introducir los valores relacionados de Xi e Yi.

   Para cualquier tasa, una vez que se realizan las operaciones requeridas para llegar a las siguientes umas (de la Tabla 3.2), el resto es simple y directo:

Sumas

Xi

Yi

 

Xi2

Yi2

 

XiYi

 1,816 

 47,627 

 102,722 

 45,598,101 

 1,650,185 


Dados estos resultados de la trituración de números preliminar, se puede calcular fácilmente (como se muestra en la Tabla 3.2)


    SSX =
36,764.88

    SSY =
231,478.42

    SCXY =
79,672.64

    r =
0.86

    r2 =
0.74



Interpretación de la correlación

   La interpretación de una instancia observada de correlación puede tener lugar a dos niveles bastante distintos. El primero de ellos involucra una forma muy conservadora que enfatiza el hecho observado de la covariación y no va más allá de este hecho. El segundo nivel de interpretación se construye sobre el primero, pero va más allá de él para considerar si la relación entre las dos variables correlacionadas es una relación de causa y efecto
. Esta última es un acercamiento a la interpretación potencialmente más fructífero, pero también es potencialmente más problemático.

¶Correlación como Covariación

   Cuando se encuentran dos variables a ser correlacionadas, el significado fundamental de este hecho es que las instancias particulares relacionadas de Xi e Yi que se han observado tienden a covariar
. El signo positivo o negativo de r, el coeficiente de correlación, indica la dirección de la covarianza y la magnitud de r2, el coeficiente de determinación, proporciona iguales medidas de intervalo y razón del grado de la covarianza. Así, cuando encontramos un coeficiente de correlación de r=0.86 para nuestros datos del SAT 1993, el significado fundamental de este hecho numérico es que las instancias particulares relacionadas de Xi e Yi listados en la Tabla 3.2 muestran algún grado de covarianza y que la dirección de esta covarianza es negativa o inversa. Cuando elevamos r al cuadrado para obtener el coeficiente de determinación, r2=0.74, el significado fundamental de este hecho numérico es que el grado de covarianza es 74%. Esto es, 74% de la varianza de la variable Y está acoplada con la variabilidad de X; del mismo modo, 74% de la varianza de la variable X está asociada con la variabilidad de Y. Inversamente, se puede decir que 26% de la varianza de Y no está acoplada con la variabilidad de X y de manera similar, que el 26% de la varianza de X no está asociada con la variabilidad de Y.


   Los conceptos básicos involucrados en esta interpretación esencial de la covarianza, se ilustran en el siguiente diagrama. Cada uno de los círculos completos representa el 100% de la varianza de X o Y. En el caso de cero correlación no existe tendencia a covariar para X e Y; y así, como se ilustra con los dos círculos separados de arriba, no hay traslape entre la variabilidad de X y la de Y. Cualquier correlación distinta de cero (positiva o negativa) reflejará el hecho de que X e Y tienden efectivamente a covariar; y cuanto mayor sea el grado de covarianza, como lo mide r2
, mayor será el traslape.


   


   Los dos círculos de abajo ilustran el traslape de nuestra correlación observada del SAT de r
=0.86, y más generalmente para cualquier instancia de correlación donde r sea 0.86 ó +0.86. El área de traslape representa el hecho de que 74% de las varianza de Y esté acoplada con la variabilidad de X y vicevesa; y las áreas sin traslapar representan el hecho de que el 26% de la varianza de Y no esté relacionada a la variabilidad de X, del mismo modo que el 26% de la varianza de X no está relacionada a la variabilidad de Y. Esta porción de la varianza sin traslape de X o Y se denomina varianza residual. En general, la proporción de la varianza de cualquiera de las variables que está acoplada con la variabilidad de la otra, está dada por r2, y la proporción de varianza residual de cualquiera de las variables está dada por 1r2.


   Si estuviéramos examinando la correlación simplemente como una abstracción matemática, esta interpretación sería todo lo que realmente necesitamos. La correlación es covarianza, la covarianza es correlación y el resto es sólo tema de entrar en detalles. El siguiente nivel de interpretación se aventura más allá del dominio seguro y ordenado de la abstracción matemática y plantea la cuestión: ņQué tiene que ver (si es que hay algo) la correlación observada entre dos variables con la realidad empírica? Ex nihilo nihil fit.
Traducido libremente, significa que nada viene de ningún lugar, de manera que todo debe venir de algún sitio. Se acepta que la correlación es covarianza. La cuestión es, ņde dónde viene la covarianza?


¶La cuestión de causa y efecto

   La correlación es una herramienta y cualquier herramienta, mal empleada, es capaz de hacer daĖo. Use un martillo de forma incorrecta y cavará su propia tumba. Use la correlación de manera incorrecta, saltando demasiado rápido, superficialmente y con simpleza para hacer inferencias acerca de la causa y el efecto, y llegará a conclusiones falsas e insostenibles. El riesgo es tan grande, que muchos instructores de estadística y libros de texto disuaden activamente a los estudiantes incluso de pensar en relaciones causales en conexión con la correlación. Regularmente esto toma la forma de una precaución: “No se puede inferir una relación causal únicamente sobre la base de una correlación observada.” Ocasionalmente, suena como un onceavo mandamiento: “ŃNo inferirás causa sobra la base de la correlación!” La precaución es correcta. El mandamiento está sobreestimado.


   Si dos variables están relacionadas sistemáticamente una con otra como causa y efecto, entonces la variación en a causa producirá una correspondiente variación en el efecto y las dos mostrarán de manera concordante algún grado de correlación. Existe, por ejemplo, una correlación positiva muy alta entre la estatura y el peso de un humano, y por obvias razones. Entre más alta es una persona, más grande es la masa básica del cuerpo; y para aquellos inclinados a la corpulencia, hay más espacio en el marco de un cuerpo más grande para agregar masa adicional. En breve, estatura y peso están relacionadas una con otra como causa y efecto y la correlación entre estas dos variables refleja
esta relación causal. Alternativamente, se puede decir que la relación causal entre estatura y peso produce la correlación observada.


   Pero el hecho que una relación causal entre variables pueda producir correlaciones, no implica que una relación causal esté detrás de todas y cada una de las instancias de correlación. Una correlación observada no dice más que el que dos variables covarían. En algunos casos la covarianza refleja una relación causal entre las variables y en otros casos no. El truco está en determinar cuál es cuál. Una correlación observada entre dos variables proporciona la evidencia para considerar la posibilidad
de una relación causal –pero esta posibilidad debe ser pesada con cuidado y precaución en la balanza de cualquier otra información que se pudiera tener acerca de la naturaleza de las dos variables.


   Siempre que se encuentren dos variables, X e Y, a ser correlacionadas, las posibilidades básicas que conciernen a la cuestión de causa y efecto, son las siguientes:

 

   Posibilidad 1. Para cuando haya completado los capítulos de este texto, le habrá surgido la cuestión general de la Posibilidad 1 tan a menudo que parecerá como si hubiese nacido con ella. Cuando se muestrean eventos de la naturaleza y se observa un patrón, puede ser que el patrón de la muestra refleje un patrón correspondiente en la población completa de la cual se tomó la muestra. Pero de nuevo, puede ser que el patrón observado en la muestra sea sólo un golpe de suerte, resultado de no más que mera coincidencia. Esta es, por supuesto, la cuestión general de la significancia estadística, y una vez que haya pasado el presente capítulo, habrá escasamente una página en este texto que no lo refiera en una forma u otra. Destaparemos esta cuestión con un poco más de detalle hacia el final de este capítulo. Mientras tanto, baste decir que antes de que comience incluso a pensar acerca del asunto de causa y efecto, primero necesita determinar si es razonable suponer que la correlación observada viene de cualquier otra cosa más que mera coincidencia. Las posibilidades restantes presuponen que esta determinación ha sido válidamente hecha en la afirmación.

   Posibilidad 2. Primero, por supuesto, está la posibilidad de que exista una relación causal entre X e Y, sea directa o indirecta, de tal modo que la variación en X produce variación en Y.

 

X

ŠŠŠŠŠ>

Y

o alternativamente, de tal modo de la variación en Y produce variación en X

 

X

<ŠŠŠŠŠ

Y

En este último caso, hará bien en cambiar las etiquetas X e Y de sus varaibles; dado que como se anotó antes, la convención es reservar “Y” para la variable dependiente (el efecto) y “X” para la variable independiente (la causa.)


   Para cualquier tasa, buscando determinar si una correlación XY observada evidencia la existencia de una relación causal, el primer paso lógico sería eliminar la posibilidad de que refleje algo más que una relación causal entre X e Y. Recuerde que estamos suponiendo aquí que la cuestión de la significancia estadística ha sido ya respondida de manera afirmativa. La correlación observada se supone que viene de algo más que mera coincidencia; y si algo no es una relación causal entre X e Y, entonces, ņqué otra cosa podría ser posible?


   Posibilidad 3
. Si examina los registros de la ciudad de Copenhagen para los diez o veinte aĖos posteriores a la segunda guerra mundial, encontrará una fuerte correlación positiva entre (i) la cantidad anual de cigüeĖas que anidaban en la ciudad, y (ii) la cantidad anual de bebés humanos nacidos en la ciudad. Salte demasiado rápido al supuesto de una relación causal, y se encontrará a sí mismo abrumado con la conclusión de que las cigüeĖas traen a los bebés o que los bebés traen a las cigüeĖas. O considere este otro. Si examina las estadísticas de vida de cualquier país por un período de aĖos, encontrará una correlación positiva virtualmente perfecta entre (i) la cantidad anual de nacimientos de varones, y (ii) la cantidad anual de nacimientos de mujeres. ņLos niĖos traes a las niĖas o es el otro modo?


   En ambos ejemplos lo que se tiene es una situación en la que dos variables terminan correlacionadas, no debido a que una influencie la otra, sino más bien debido a que ambas están influenciadas por una tercera variable, Z, que no se está considerando. Es decir, la relación causal no es XŠŠŠŠŠ>Y ni X<ŠŠŠŠŠY, sino

 

Z ŠŠŠ


ŠŠŠŠ>X


ŠŠŠŠ>Y


   Para el ejemplo de los nacimientos de varones-mujeres, la tercera variable es simplemente la tasa anual de nacimientos. Nacen más bebés en algunos aĖos que en otros. Pero sin importar la tasa de nacimientos en cualquier aĖo dado, las proporciones de varones y mujeres tienden a permanecer constantes, con nacimientos de varones levemente por encima de los nacimientos de mujeres. (En los Estados Unidos en las últimas décadas esto ha ocurrido en la vecindad de 51.25% varones y 48.75% mujeres.) Así, una tasa de nacimientos relativamente alta traerá consigo un número relativamente alto de ambos, varones y mujeres, y una tasa de nacimientos relativamente baja traerá números relativamente bajos de ambos nacimientos, varones y mujeres.

 

número total de nacimientosŠŠŠ


ŠŠŠŠ>número de nacimientos de varones


ŠŠŠŠ>número de nacimientos de mujeres


En resumen, las cantidades anuales de nacimientos de hombres y mujeres estás correlacionados uno con el otro sólo debido a que ambos está correlacionados con fluctuaciones en la tasa anual de nacimientos.


   La tercera variabl para la correlación entre cigüeĖas y bebés, no pasa la página de manera bastante conspicua, pero todo es lo mismo. Durante los diez o veinte aĖos que siguieron a la segunda guerra mundial, las poblaciones de la mayoría de las ciudades del oeste de Europa crecieron sólidamente como resultado de migraciones desde áreas rurales que las rodeaban. Este brote de fecundidad se conoció también como el florecimiento de bebés de la posguerra. Es así como sucedió para la ciudad de Copenhagen, que es también hogar para las cantidades fluctuantes de cigüeĖas. A medida que la población creció, hubo más gente que tuvo bebés, y por lo tanto nacieron más bebés. También a medida que la población creció, hubo más construcciones edificadas para acomodarles, que en su momento proveyó de más lugares de anidamiento para las cigüeĖas, haciendo que se incrementara la cantidad de cigüeĖas.

 

incremento de la población ŠŠŠ


ŠŠŠŠ>más edificios
ŠŠŠŠ> ŠŠŠŠ>incremento del número de cigüeĖas


ŠŠŠŠ>más gente que tiene bebés  
ŠŠŠŠ>ŠŠŠŠ>incremento del número de bebés


Note que en este tipo de situación no tiene sentido hablar de X como la variable independiente e Y como la variable dependiente. De hecho, X e Y son ambas independientes una de la otra y dependientes de la variable Z.


¶Interpretación de la correlación del SAT

   Así pues, ņqué debemos hacer, en este contexto, con nuestra correlación observada entre

 

X =

Porcentaje de quasi-graduados de bachillerato dentro del estado que presentan el SAT, y

Y =

La puntuación promedio combinada del estado obtenida en el SAT

que, como recordará, fue medido con r=0.86 y r2=0.74?

Pregunta uno: ņEs la correlación observada estadísticamente significativa –i.e., es improbable que haya ocurrido por mera coincidencia? Por el momento tengo que pedirle que acepte mi palabra de que así es. Por medio de los procedimientos que examinaremos después, se verá que la probabilidad de encontrar una correlación tan fuerte debida a mera coincidencia para una muestra divariada de tamaĖo N=50 es en realidad muy pequeĖa. Pregunta dos: ņExiste alguna otra cosa que una línea recta para la relación causal XŠŠŠŠŠ>Y que pueda considerarse plausiblemente para la correlación observada? ņEs posible, por ejemplo, que X e Y estén correlacionadas entre sí sólo debido a que ambas están siendo influenciadas por una tercera variable, Z? Alternativamente, ņes posible que X e Y se estén influenciando una a otra recíprocamente? Creo que estará de acuerdo en que la posibilidad de influencia recíproca es improbable, igual que es difícil imaginar cómo la puntuación promedio SAT de un estado en un aĖo dado podría retroactivamente influenciar el porcentaje de quasi-graduados en el estado que presentan el examen. La posibilidad de una tercera variable, Z, no puede eliminarse tan rápidamente, a pesar de que no es inmediatamente obvio lo que Z podría ser. Ciertamente existen otras variables que juegan un papel en la situación, pero que no necesariamente significa que están X e Y por separado, de acuerdo con el paradigma

 

Z ŠŠŠ


ŠŠŠŠ>X


ŠŠŠŠ>Y


 


[I.e., ZŠŠŠŠ>X y ZŠŠŠŠ>Y
pero no XŠŠŠŠ>Y ni YŠŠŠŠ>X]


   Para todos los candidatos posibles Z que puedo imaginar (factores económicos, demográficos, geográficos, etc.), el escenario es un oen el que Z influenciaría primero a X y entonces a Y a través de X, de acuerdo con el paradigma

 

ZŠŠŠŠ>XŠŠŠŠ>Y

 


[I.e., ZŠŠŠŠ>X y XŠŠŠŠ>Y]



   Aquí hay un ejemplo muy obvio. Muy pocos quasi-graduados presentan el SAT por mera diversión. Aquellos que lo presentan, lo hacen porque están solicitando ingreso a escuelas que requieren el SAT. En algunos estados, es un pequeĖo porcentaje el que solicita el ingreso a tales colegios, y por ello un porcentaje más pequeĖo presenta el SAT; y en otros estados existe un porcentaje más alto que solicita ingreso a tales colegios, por lo tanto un porcentaje más alto que presenta el SAT. Z es el porcentaje estatal de quasi-graduados que solicita ingreso a colegios que requieren el SAT; X es el porcentaje estatal de quasi-graduados que presenta el SAT; y la correlación positiva que seguramente encontraríamos entre esas dos variables, si fuéramos a medirla, claramente evidenciaría una relación de causa y efecto (ZŠŠŠŠ>X.)

   En cualquier evento, de todo lo que conocemos acerca de las dos variables primarias, X e Y, en esta situación, la posibilidad de una relación causal directa XŠŠŠŠ>Y es totalmente plausible. Imagine dos estados, A y B, cuyos respectivos porcentajes de quasi-graduados de bachillerato que presentaron el SAT son A=5% y B=65%. Ahora los quasi-graduados del estado A que presentaron el SAT pueden no representar precisamente el mejor 5% del estado, pero seguramente es más probable que represente el mejor 10 ó 15% que el 60 ó 70%. Por otro lado, no hay manera de que el 65% que presentó el examen en el estado B pudiera venir principalmente del mejor 10 ó 15% de quasi-graduados en ese estado, menos aún del mejor 25%. De hecho, casi un cuarto de ellos, no podría venir posiblemente siquiera del mejor 50%. Así que aquí está nuestra conexión causal presupuesta envuelta en una cáscara de nuez: Un porcentaje más pequeĖo de estudiantes que presenta el SAT tiende a representar la porción superior de lo escala de proeza académica, y tenderá así a producir una puntuación promedio SAT más alta para el estado; mientras que un porcentaje más grande de estudiantes que presenta el examen tenderá a incluir no sólo estudiantes cerca del tope de la escala, sino también otros no tan cerca del tope, y tenderá a producir una puntuación promedio SAT más baja para el estado.

   Suponiendo que la relación cusal XŠŠŠŠ>Y es como la he descrito, podríamos vincularla de nuevo con la interpretación de covarianza de la correlación y observar lo siguiente (recuerde que r=0.86 y r2=0.74). De la variabilidad total que existe entre los 50 estados con respecto a la puntuación SAT promedio, 74% está asociado con la variabilidad en los porcentajes de quasi-graduados que presentan el SAT. En efecto, 74% de las diferencias por estado en la puntuación promedio del SAT se explican por el hecho de que esos diferentes estados tienen diferentes porcentajes de quasi-graduados que presentan el examen. Y es 74% que no necesita explicarse por supuestas diferencias entre los sistemas educativos estatales –a menos que se imagine la noción ampliamente extendida de que los sistemas educativos más efectivos son aquellos que producen los más pequeĖos porcentajes de estudiantes que solicitan ingreso a colegios que requieren el SAT. Suponiendo que esta noción es tan absurda como parece, la máxima proporción de variabilidad por estado en las puntuaciones promedio del SAT que podrían seguramente deberse a diferencias entre los sistemas educativos estatales es el 26% que no es explicado por las diferencias por estado en el porcentaje de quasi-graduados que presentan el SAT. Y por favor note que esto es sólo la proporción máxima posible. Podría bien resultar que las diferencias mesurables entre los sistemas educativos estatales cuente sólo para una fracción del 26% de varianza residual de Y, si es que efectivamente cuenta para alguna parte de ello.


Fin del Capítulo 3, Parte 2.
   
Regresar al Inicio de la Parte 2
   
Ir al Capítulo 3, Parte 3