©Richard Lowry, 1999-
All rights reserved.


Cap’tulo 3. Introducci—n a la correlaci—n lineal y a la regresi—n
Parte 3


[Concepts & Applications of Inferential Statistics]

Traducción: Jorge Hern‡ndez Garc’a
Universidad Nacional Aut—noma de MŽxico
oulixes@hotmail.com


Regresi—n

   La aparici—n del tŽrmino regresi—n en este punto (literalmente, movimiento hacia atr‡s) es un poco un accidente hist—rico. Podr’a haber sido simple y f‡cilmente llamado progresi—n
. El concepto es el mismo que hemos encontrado para la correlaci—n, a pesar que ahora se ha incluido en Žl la imaginer’a visual del movimiento –esencialmente, de dos cosas, dos variables, moviŽndose juntas. Como se indic— antes, la correlaci—n y la regresi—n son dos lados de la misma moneda estad’stica. Cuando se mide la correlaci—n lineal de dos variables, lo que en efecto se est‡ haciendo es trazar una l’nea recta que mejor ajuste el promedio Òmovimiento conjuntoÓ de esas dos variables. Esa l’nea se conoce como l’nea de regresi—n, y su utilidad no es œnicamente como un dispositivo que nos ayuda a visualizar la relaci—n entre las dos variables. TambiŽn puede servir de manera muy œtil como base para hacer predicciones racionales.


   Para ilustrarlo, considere de nuevo nuestra correlaci—n del SAT de 1993. Suponiendo que la correlaci—n negativa para ese a–o es probable que ocurra en a–os subsiguientes, se est‡ ahora en posici—n de predecir la puntuaci—n promedio SAT de un estado por algœn a–o subsiguiente, antes que los resultados sean reportados, simplemente sobre la base del conocimiento del porcentaje de estudiantes dentro del estado que presentan el SAR ese a–o.


     

Si 10% de los quasi-graduados de un estado presentan el SAT, es una apuesta casi segura que la puntuaci—n promedio combinada SAT para ese estado estar‡ m‡s o menos en la vecindad de 1,010 –quiz‡ un poquito m‡s alto o m‡s bajo, pero en cualquier caso en la vecindad. Si 70% de los quasi-graduados en algœn otro estado presenta el SAT, es una apuesta casi segura que el promedio para ese estado no estar‡ cerca de 1,010, sino en algœn lugar en la vecindad de 880. El an‡lisis de regresi—n proporciona un fundamento racional para hacer tales predicciones; tambiŽn proporciona una base para especificar con precisi—n lo que queremos decir con Òen algœn lugar en la vecindad de.Ó


   Como se hizo notar antes, cuando se realizan los procedimientos de c‡lculo para la correlaci—n lineal y la regresi—n, lo que se hace esencialmente es definir la l’nea recta que mejor ajusta la distribuci—n divariada de los puntos. El criterio para Òmejor ajusteÓ es que la suma de los cuadrados de las distancias verticales entre los puntos y la l’nea de regresi—n deba ser tan peque–a como se pueda. La pendiente de la recta resultante corresponder‡ con la direcci—n de la correlaci—n (hacia arriba, +; hacia abajo, 
); y la cercan’a de los puntos alrededor de la l’nea corresponder‡ a la fuerza de la correlaci—n. Se puede imaginar la l’nea de regresi—n representando la relaci—n promedio que existe entre X e Y, tal como se observ— dentro de la muestra particular.


   La posici—n y orientaci—n de la recta de regresi—n est‡n definidas por dos cantidades, llamadas constantes de regresi—n, que pueden ser f‡cilmente derivadas a partir de los resultados de los c‡lculos ya realizados en la
Tabla 3.2. Ellas son

 

a =

El punto en que la l’nea cruza el eje Y (la Ôintercepci—nÕ); y

b =

la  tasa a la que la l’nea se eleva o declina a lo largo del eje X (la 'pendiente').


   Las f—rmulas de c‡lculo para esas dos cantidades son bastante simples y se pueden presentar sin comentario elaborado:

Para la pendiente:

 

 

 

b =

SCXY


SSX

 

 

 

y para la intercepci—n:

 

 

 

a = MY bMX

 

 


   Antes de que realicemos estos c‡lculos para los datos del SAT, creo que ser’a œtil ilustrar el proceso con un conjunto de datos m‡s simple. Para este prop—sito, considere de nuevo la asociaci—n de valores Xi e Yi que produjo la correlaci—n positiva mostrada en el ejemplo II de la Figura 3.3.

Par

Xi

Yi

 

a
b
c
d
e
f

1
2
3
4
5
6

6
2
4
10
12
8

Medias

3.5

7.0

SSX = 17.5
SSY
= 70.0
SCXY
= 23.0


Dados estos valores previamente calculados:

 


pendiente:

 

b =

SCXY


SSX

=

23.0


17.5

= +1.31

 

 

 

 

 

 


intercepci—n:

 

a

= MY bMX= 7.0 [1.31(3.5)] = 2.4



   En la siguiente gr‡fica se muestra la misma figura que aparece arriba, pero ahora construida de tal manera que enfatice la intercepci—n y la pendiente de la recta de regresi—n. La intercepci—n, que se muestra en el lado izquierdo de la gr‡fica, es el punto en que la recta de regresi—n cruza el eje vertical Y –supuesto que el eje Y est‡ alineado con el punto del eje horizontal donde X es igual a cero
. (Hay que tener cuidado con esto, porque los puntos del diagrama no siempre inician el eje X en X=0.) La pendiente de la recta de regresi—n est‡ indicada en la gr‡fica por el patr—n verde que parece una escalinata. Lo que muestra este patr—n es que para cada incremento de una unidad en el valor de X, el valor de Y se incrementa en 1.31 unidades. As’, cuando X es igual a cero, Y es igual a la intercepci—n, que es 2.4; cuando X=1.0, Y es igual a la intercepci—n m‡s 1.31(i.e., 2.4+1.31=3.71); cuando X=2.0, Y es igual a la intercepci—n m‡s 2.62 (i.e., 2.4+2.62=5.02); etc.


    


   Ahora realizamos los mismos c‡lculos para el conjunto de datos de nuestra correlaci—n del SAT de 1993. En la
Tabla 3.2 hemos llegado ya a los valores sumarios

 

media de X = 36.32
media de Y = 952.54
SSX
= 36,764.88
SSY
= 231,478.42
SCXY
= —79627.64

 

X = porcentaje de quasi-graduados que presentaron el SAT
Y = puntuaci—n promedio combinada SAT


Dados estos valores, la pendiente de la recta de regresi—n puede calcularse como

 


 

b =

SCXY


SSX

=

.79627.64


36,764.88

= 2.17

 

 

 


Y la intercepci—n como

 


 

a

= MY bMX
= 952.54
[2.17(36.32)] = 1031.35

 



   Para este conjunto de datos, la recta de regresi—n intercepta el eje vertical en el punto donde Y es igual a 1031.35, y entonces declina (
) 2.17 unidades de Y por cada unidad de X. De este modo, cuando X es igual a cero, Y es igual a 1031.35; cuando X=10, Y es igual a la intercepci—n menos 2.17x10 (i.e., 1031.3521.7=1009.65); cuando X=20, Y es igual a la intercepci—n menos 2.17x20 (i.e., 1031.3543.4=987.95); etcŽtera.




   Tal es la mec‡nica de la regresi—n de manera breve; ahora vamos a la l—gica y la estrategia de la predicci—n. Si la correlaci—n observada entre dos variables, X e Y, muestra evidencia de ser estad’sticamente significativa –el supuesto racional es que pertenece no s—lo a la muestra particular de los pares XiYi, sino a la relaci—n general entre X e Y. Y una vez que se conoce la relaci—n general entre X e Y, se est‡ en posici—n de calcular el calor de Yi que probablemente se puede asociar con algœn valor particular recientemente observado Xi. El procedimiento para hacer tal predicci—n se ilustra gr‡ficamente abajo.


    

   A partir de la correlaci—n observada en esta muestra de 1993, inferimos que la relaci—n general entre X e Y puede describirse con una recta de regresi—n que tiene intercepci—n en a
=1,031.35 y pendiente b=2.17. Supongamos ahora que, para un a–o subsiguiente un cierto estado tiene un porcentaje de quasi-graduados Xi=10% que presentan el SAT. Si se quiere predecir la puntuaci—n promedio Yi, para ese estado, la manera obvia de proceder ser’a comenzar con el valor observado Xi=10%, ir directamente a la recta de regresi—n e ir hacia la izquierda para ver d—nde corta al eje Y. Esa ser’a la predicci—n de Yi que, como puede verse en la gr‡fica, es un valor cercano a Y=1,010. Por otro lado, para Xi=50%, la predicci—n est‡ en la vecinda de Y=925.


   En la pr‡ctica, por supuesto, la predicci—n de valores Yi no se obtienen gr‡ficamente, sino mediante c‡lculos. Para cualquier correlaci—n observada entre dos variables, X e Y, el valor de la predicci—n Yi, sobre la base de una observaci—n reciente Xi, est‡ dado por la siguiente f—rmula. Note que, sin embargo, esta versi—n de la f—rmula es s—lo preliminar.
Hay algo nuevo que agregaremos un poco despuŽs.


    predicci—n Yi = a
+ bXi

   Intente esta f—rmula con cuantos valores diferentes Xi y se ver‡ que llega matem‡ticamente, por lo tanto con mayor precisi—n, al mismo resultado que si lo hubiera obtenido por el mŽtodo gr‡fico mostrado arriba. La f—rmula lo hace comenzando en a
, el punto en que la recta de regresi—n intercepta el eje Y, y moviŽndose entonces hacia arriba o hacia abajo del eje Y (dependiendo de la direcci—n de la correlaci—n) una unidad de pendiente (b) por cada unidad de X.

  para Xi = 10%

 

predicci—n Yi

= 1,031.35+(2.17 x 10)

 

 

= 1,009.65

 

  y para Xi = 50%

 

Predicci—n  Yi

= 1,031.35+(2.17 x 50)

 

 

= 922.85


   Por supuesto que no estamos estableciendo que alguno de los casos de los valores reales Yi caer‡ precisamente en los puntos que calculamos. Todo lo que racionalmente podemos aseverar es que los valores reales Yi para el caso en que Xi=10% tender‡n a aproximarse al valor de la predicci—n de la recta de regresi—n 1,009.65; estos valores reales Yi para el caso Xi=50%, tender‡n a al valor de la predicci—n de la recta de regresi—n 922.85; y as’ para cualquiera otros valores Xi que estŽn dentro del rango de valores Xi observados en la muestra. Probablemente ser‡ intuitivamente obvio que la fuerza de esta Òtendencia de aproximaci—nÓ estar‡ determinada por la fuerza de la correlaci—n observada en la muestra original. Entre m‡s fuerte sea la correlaci—n observada, m‡s cerca tender‡ la predicci—n a aproximar el valor real  Yi; e inversamente, entre m‡s dŽbil sea la correlaci—n, mayor ser‡ la tendencia de los valores reales Yi a desviarse de la predicci—n. Hace un momento indicamos que a la f—rmula para una predicci—n de Yi


    predicci—n Yi = a
+ bXi

necesitaba a–ad’rsele algo. Lo que necesita a–ad’rsele el una medida del error probable, algo que refleje la fuerza de la correlaci—n observada y por tanto, la fuerza de la tendencia que tienen los valores reales Yi a aproximarse a sus predicciones. Aunque el antecedente conceptual para este paso no estŽ disponible hasta haber cubierto algunos conceptos b‡sicos de probabilidad, es posible a estas alturas traer al menos un conocimiento pr‡ctico al respecto. Dentro del contexto de la regresi—n lineal, la medida del error probable es una cantidad denominada
error est‡ndar de la estimaci—n.

Esencialmente, es un tipo de desviaci—n est‡ndar. He aqu’ de nuevo el diagrama de puntos para la correlaci—n del SAT de 1993.


     


   Mentalmente, trate por favor de visualizar una l’nea verde que se extiende horizontalmente por debajo o por encima de cada uno de los puntos azules  de la recta de regresi—n en rojo. Cada una de esas l’neas imaginarias es una medida del grado en que los puntos asociados se desv’an (sobre el eje Y) de la recta de regresi—n. Eleve al cuadrado cada una de esas distancias, tome la suma de esos cuadrados y tendr‡ una suma de desviaciones cuadradas. En jerga estad’stica, cada desviaci—n (la l’nea verde imaginaria) se denomina residual, de manera que la suma de sus cuadrados puede denotarse como la suma de residuales cuadrados, que abreviaremos SS
residual. Para cualquier tasa, se divide la suma de desviaciones cuadradas (residuales) por N y se tendr‡ la varianza. T—mese la ra’z cuadrada de la varianza y se tendr‡ la desviaci—n est‡ndar.


   Como bien sabemos, la suma de residuales cuadrados puede obtenerse matem‡ticamente mediante la f—rmula simple

 

SSresidual=SSY x (1r2)

 

 

Recuerde que r2 es la proporci—n de variabilidad en Y que se asocia con variabilidad en X, y que 1—r2 es la proporci—n (residual) que no est‡ asociada con variabilidad en X. Por lo tanto, multiplicando SSY por 1—r2 se obtiene la cantidad residual  SSY ÒolvidadaÓ, no considerada por la correlaci—n entre  X e Y.

 


Para el ejemplo del SAT de 1993, se llega a

 

SSresidual

= 231,478.42 x (10.862)

 

 

= 60,184.38


Divida esta cantidad por N, y obtendr‡ la varianza residual de Y:


    60,184.38/50=1,203.69.

Tome la ra’z cuadrada de este œltimo valor y tendr‡ la desviaci—n est‡ndar de los residuales:


    
sqrt[1,203.69]=±34.69

   Esta desviaci—n est‡ndar de los residuales es casi, pero no muy, equivalente al error est‡ndar de la estimaci—n. La diferencia es que la cantidad que hemos reciŽn calculado es puramente descriptiva —pertenece s—lo a esta muestra particular de valores asociados XiYi— mientras que el error est‡ndar de la estimaci—n pretende ir m‡s all‡ de la muestra al dominio de eventos aœn no observados. Esta extensi—n —de la muestra particular de valores asociados XiYi a la relaci—n general entre X e Y— se logra mediante la simple divisi—n de SS
residual por N2 en lugar de N. La raz—n para este denominador N-2 tendr‡ que esperar hasta un cap’tulo posterior. Por ahora, baste decir que el error est‡ndar de la estimaci—n, que abreviaremos SE, est‡ dado por la f—rmula


    SE
= sqrt[(SSresidual/ (N2)]

Por lo tanto, para el presente ejemplo, nuestro error est‡ndar de estimaci—n es


    SE
= sqrt[60,184.38 / (502)]=±35.41

   En resumen: Sobre la base de lo que observamos en nuestra muestra de valores asociados XiYi, estimamos que si la recta de regresi—n de la muestra se aplicara a toda la poblaci—n de pares XiYi, los residuales Y de la poblaci—n tendr’an una desviaci—n est‡ndar de algo muy cercano a ±35.41.


   La siguiente versi—n del diagrama de puntos del SAT muestra c—mo se aplica todo esto a la tarea de predicci—n. Una l’nea paralela tomada a 35.41 unidades de Y sobre la recta de regresi—n dar‡ un error est‡ndar de estimaci—n de +1; una tomada por debajo a 35.41 unidades de Y dar‡ un error est‡ndar de estimaci—n de
1; y la inferencia (detalles en un cap’tulo posterior) es que el rango entre +1SE y 1SE incluir‡ aproximadamente dos tercios de los pares XiYi de la poblaci—n.

As’, cuando se predice un valor desconocido Yi de acuerdo con la f—rmula


    predicci—n Yi = a
+ bXi

el verdadero valor de Yi tiene casi dos tercios de probabilidad de caer dentro de m‡s o menos 35.41 puntos de la predicci—n, esto es, dentro de m‡s o menos 1 error est‡ndar de estimaci—n. Al hacer predicciones de este tipo, la convenci—n es no establecer la predicci—n simplemente como


    predicci—n Yi = a
+ bXi

sino m‡s bien como Ôpredicci—n YÕ m‡s o menos 1 error est‡ndar de estimaci—n.
Esto es


    predicci—n Yi = a
+ bXi±SE

   De esta forma, nuestras predicciones para la puntuaci—n promedio del SAT por estado, para los casos de 10% y 50% de quasi-graduados del estado que presentan el examen, son en su forma completa

  para Xi = 10%

 

Predicci—n Yi

= 1,031.35+(2.17 x 10)±35.41

 

 

= 1,009.65±35.41

 

  y para Xi = 50%

 

predicci—n Yi

= 1,031.35+(2.17 x 50)±35.41

 

 

= 922.85±35.41


   Es decir que, para Xi=10% predecimos que el correspondiente valor Yi tiene dos tercios de probabilidad de caer entre Y=974.24 y Y=1,045.06; para Xi=50%, predecimos que el correspondiente valor Yi tiene dos tercios de probabilidad de caer entre Y=887.44 y  Y=958.26; y as’. Supuesto que la muestra es adecuadamente representativa de la relaci—n general entre X e Y, podemos esperar que aproximadamente dos tercios del total de la Ôpoblaci—nÕ de pares XiYi estŽ dentro del rango definido por m‡s o menos 1 error est‡ndar de estimaci—n, y s—lo un tercio caer‡ fuera del rango.
Por lo tanto, cualquier predicci—n particular de la forma general

    predicci—n Yi = a + bXi±SE

tendr‡ aproximadamente dos tercios de probabilidad de atrapar en su red el valor verdadero Yi, y un tercio de probabilidad de perderlo. Otra forma de expresar este concepto es en tŽrminos de confiabilidad. Para una predicci—n hecha con regresi—n lineal de esta forma general, se puede tener casi dos tercios de confiabilidad en que el valor verdadero Yi caer‡ dentro de ±1SE
de la predicci—n. En un cap’tulo posterior examinaremos los procedimientos por medio de los cuales se puede incrementar la confiabilidad que se deber’a tener en una estimaci—n o predicci—n, a niveles mucho m‡s altos, tales como 95% — 99%.

   Pero la prueba, como se dice, es el postre. Si se examinan los datos del SAT para cualquier a–o subsiguiente a 1993, se encontrar‡ que casi dos tercios de los valores reales Yi caen efectivamente dentro del rango definido por la recta de regresi—n de la muestra de 1993, m‡s o menos 1SE. Por lo tanto, cualquier predicci—n particular de la forma

    predicci—n Yi = a + bXi±SE

tendr‡ casi dos tercios de probabilidad de caer dentro de la red.



   En la parte 2 de este cap’tulo hicimos notar brevemente que la primera pregunta a ser contestada sobre una correlaci—n observada es si surge o no de otra cosa que mera coincidencia. Es el momento de tomar esta pregunta en m‡s profundidad; sin embargo, como esta es una cuesti—n cuyas implicaciones se extienden m‡s all‡ de los confines de la correlaci—n y la regresi—n, lo haremos en un cap’tulo por separado.

*Note, sin embargo, que el Cap’tulo 3 tiene tambiŽn dos
  subcap’tulos que examinan un par de aspectos sobre
  correlaci—n no cubiertos en el cuerpo principal del
  cap’tulo.




Fin del Cap’tulo 3.

   
Regresar al Inicio del Cap’tulo 3, Parte 3
   Go to Subchapter 3a [Partial Correlation]
   Go to Subchapter 3b [Rank-Order Correlation]
   Go to Chapter 4 [A First Glance at the Question of Statistical Significance]