©Richard Lowry, 1999-
All rights reserved.


Capítulo 3. Introducción a la correlación lineal y a la regresión
Parte 3


[Concepts & Applications of Inferential Statistics]

Traducción: Jorge Hernández García
Universidad Nacional Autónoma de México
oulixes@hotmail.com


Regresión

   La aparición del término regresión en este punto (literalmente, movimiento hacia atrás) es un poco un accidente histórico. Podría haber sido simple y fácilmente llamado progresión
. El concepto es el mismo que hemos encontrado para la correlación, a pesar que ahora se ha incluido en él la imaginería visual del movimiento –esencialmente, de dos cosas, dos variables, moviéndose juntas. Como se indicó antes, la correlación y la regresión son dos lados de la misma moneda estadística. Cuando se mide la correlación lineal de dos variables, lo que en efecto se está haciendo es trazar una línea recta que mejor ajuste el promedio “movimiento conjunto” de esas dos variables. Esa línea se conoce como línea de regresión, y su utilidad no es únicamente como un dispositivo que nos ayuda a visualizar la relación entre las dos variables. También puede servir de manera muy útil como base para hacer predicciones racionales.


   Para ilustrarlo, considere de nuevo nuestra correlación del SAT de 1993. Suponiendo que la correlación negativa para ese aĖo es probable que ocurra en aĖos subsiguientes, se está ahora en posición de predecir la puntuación promedio SAT de un estado por algún aĖo subsiguiente, antes que los resultados sean reportados, simplemente sobre la base del conocimiento del porcentaje de estudiantes dentro del estado que presentan el SAR ese aĖo.


     

Si 10% de los quasi-graduados de un estado presentan el SAT, es una apuesta casi segura que la puntuación promedio combinada SAT para ese estado estará más o menos en la vecindad de 1,010 –quizá un poquito más alto o más bajo, pero en cualquier caso en la vecindad. Si 70% de los quasi-graduados en algún otro estado presenta el SAT, es una apuesta casi segura que el promedio para ese estado no estará cerca de 1,010, sino en algún lugar en la vecindad de 880. El análisis de regresión proporciona un fundamento racional para hacer tales predicciones; también proporciona una base para especificar con precisión lo que queremos decir con “en algún lugar en la vecindad de.”


   Como se hizo notar antes, cuando se realizan los procedimientos de cálculo para la correlación lineal y la regresión, lo que se hace esencialmente es definir la línea recta que mejor ajusta la distribución divariada de los puntos. El criterio para “mejor ajuste” es que la suma de los cuadrados de las distancias verticales entre los puntos y la línea de regresión deba ser tan pequeĖa como se pueda. La pendiente de la recta resultante corresponderá con la dirección de la correlación (hacia arriba, +; hacia abajo, 
); y la cercanía de los puntos alrededor de la línea corresponderá a la fuerza de la correlación. Se puede imaginar la línea de regresión representando la relación promedio que existe entre X e Y, tal como se observó dentro de la muestra particular.


   La posición y orientación de la recta de regresión están definidas por dos cantidades, llamadas constantes de regresión, que pueden ser fácilmente derivadas a partir de los resultados de los cálculos ya realizados en la
Tabla 3.2. Ellas son

 

a =

El punto en que la línea cruza el eje Y (la ‘intercepción’); y

b =

la  tasa a la que la línea se eleva o declina a lo largo del eje X (la 'pendiente').


   Las fórmulas de cálculo para esas dos cantidades son bastante simples y se pueden presentar sin comentario elaborado:

Para la pendiente:

 

 

 

b =

SCXY


SSX

 

 

 

y para la intercepción:

 

 

 

a = MY bMX

 

 


   Antes de que realicemos estos cálculos para los datos del SAT, creo que sería útil ilustrar el proceso con un conjunto de datos más simple. Para este propósito, considere de nuevo la asociación de valores Xi e Yi que produjo la correlación positiva mostrada en el ejemplo II de la Figura 3.3.

Par

Xi

Yi

 

a
b
c
d
e
f

1
2
3
4
5
6

6
2
4
10
12
8

Medias

3.5

7.0

SSX = 17.5
SSY
= 70.0
SCXY
= 23.0


Dados estos valores previamente calculados:

 


pendiente:

 

b =

SCXY


SSX

=

23.0


17.5

= +1.31

 

 

 

 

 

 


intercepción:

 

a

= MY bMX= 7.0 [1.31(3.5)] = 2.4



   En la siguiente gráfica se muestra la misma figura que aparece arriba, pero ahora construida de tal manera que enfatice la intercepción y la pendiente de la recta de regresión. La intercepción, que se muestra en el lado izquierdo de la gráfica, es el punto en que la recta de regresión cruza el eje vertical Y –supuesto que el eje Y está alineado con el punto del eje horizontal donde X es igual a cero
. (Hay que tener cuidado con esto, porque los puntos del diagrama no siempre inician el eje X en X=0.) La pendiente de la recta de regresión está indicada en la gráfica por el patrón verde que parece una escalinata. Lo que muestra este patrón es que para cada incremento de una unidad en el valor de X, el valor de Y se incrementa en 1.31 unidades. Así, cuando X es igual a cero, Y es igual a la intercepción, que es 2.4; cuando X=1.0, Y es igual a la intercepción más 1.31(i.e., 2.4+1.31=3.71); cuando X=2.0, Y es igual a la intercepción más 2.62 (i.e., 2.4+2.62=5.02); etc.


    


   Ahora realizamos los mismos cálculos para el conjunto de datos de nuestra correlación del SAT de 1993. En la
Tabla 3.2 hemos llegado ya a los valores sumarios

 

media de X = 36.32
media de Y = 952.54
SSX
= 36,764.88
SSY
= 231,478.42
SCXY
= —79627.64

 

X = porcentaje de quasi-graduados que presentaron el SAT
Y = puntuación promedio combinada SAT


Dados estos valores, la pendiente de la recta de regresión puede calcularse como

 


 

b =

SCXY


SSX

=

.79627.64


36,764.88

= 2.17

 

 

 


Y la intercepción como

 


 

a

= MY bMX
= 952.54
[2.17(36.32)] = 1031.35

 



   Para este conjunto de datos, la recta de regresión intercepta el eje vertical en el punto donde Y es igual a 1031.35, y entonces declina (
) 2.17 unidades de Y por cada unidad de X. De este modo, cuando X es igual a cero, Y es igual a 1031.35; cuando X=10, Y es igual a la intercepción menos 2.17x10 (i.e., 1031.3521.7=1009.65); cuando X=20, Y es igual a la intercepción menos 2.17x20 (i.e., 1031.3543.4=987.95); etcétera.




   Tal es la mecánica de la regresión de manera breve; ahora vamos a la lógica y la estrategia de la predicción. Si la correlación observada entre dos variables, X e Y, muestra evidencia de ser estadísticamente significativa –el supuesto racional es que pertenece no sólo a la muestra particular de los pares XiYi, sino a la relación general entre X e Y. Y una vez que se conoce la relación general entre X e Y, se está en posición de calcular el calor de Yi que probablemente se puede asociar con algún valor particular recientemente observado Xi. El procedimiento para hacer tal predicción se ilustra gráficamente abajo.


    

   A partir de la correlación observada en esta muestra de 1993, inferimos que la relación general entre X e Y puede describirse con una recta de regresión que tiene intercepción en a
=1,031.35 y pendiente b=2.17. Supongamos ahora que, para un aĖo subsiguiente un cierto estado tiene un porcentaje de quasi-graduados Xi=10% que presentan el SAT. Si se quiere predecir la puntuación promedio Yi, para ese estado, la manera obvia de proceder sería comenzar con el valor observado Xi=10%, ir directamente a la recta de regresión e ir hacia la izquierda para ver dónde corta al eje Y. Esa sería la predicción de Yi que, como puede verse en la gráfica, es un valor cercano a Y=1,010. Por otro lado, para Xi=50%, la predicción está en la vecinda de Y=925.


   En la práctica, por supuesto, la predicción de valores Yi no se obtienen gráficamente, sino mediante cálculos. Para cualquier correlación observada entre dos variables, X e Y, el valor de la predicción Yi, sobre la base de una observación reciente Xi, está dado por la siguiente fórmula. Note que, sin embargo, esta versión de la fórmula es sólo preliminar.
Hay algo nuevo que agregaremos un poco después.


    predicción Yi = a
+ bXi

   Intente esta fórmula con cuantos valores diferentes Xi y se verá que llega matemáticamente, por lo tanto con mayor precisión, al mismo resultado que si lo hubiera obtenido por el método gráfico mostrado arriba. La fórmula lo hace comenzando en a
, el punto en que la recta de regresión intercepta el eje Y, y moviéndose entonces hacia arriba o hacia abajo del eje Y (dependiendo de la dirección de la correlación) una unidad de pendiente (b) por cada unidad de X.

  para Xi = 10%

 

predicción Yi

= 1,031.35+(2.17 x 10)

 

 

= 1,009.65

 

  y para Xi = 50%

 

Predicción  Yi

= 1,031.35+(2.17 x 50)

 

 

= 922.85


   Por supuesto que no estamos estableciendo que alguno de los casos de los valores reales Yi caerá precisamente en los puntos que calculamos. Todo lo que racionalmente podemos aseverar es que los valores reales Yi para el caso en que Xi=10% tenderán a aproximarse al valor de la predicción de la recta de regresión 1,009.65; estos valores reales Yi para el caso Xi=50%, tenderán a al valor de la predicción de la recta de regresión 922.85; y así para cualquiera otros valores Xi que estén dentro del rango de valores Xi observados en la muestra. Probablemente será intuitivamente obvio que la fuerza de esta “tendencia de aproximación” estará determinada por la fuerza de la correlación observada en la muestra original. Entre más fuerte sea la correlación observada, más cerca tenderá la predicción a aproximar el valor real  Yi; e inversamente, entre más débil sea la correlación, mayor será la tendencia de los valores reales Yi a desviarse de la predicción. Hace un momento indicamos que a la fórmula para una predicción de Yi


    predicción Yi = a
+ bXi

necesitaba aĖadírsele algo. Lo que necesita aĖadírsele el una medida del error probable, algo que refleje la fuerza de la correlación observada y por tanto, la fuerza de la tendencia que tienen los valores reales Yi a aproximarse a sus predicciones. Aunque el antecedente conceptual para este paso no esté disponible hasta haber cubierto algunos conceptos básicos de probabilidad, es posible a estas alturas traer al menos un conocimiento práctico al respecto. Dentro del contexto de la regresión lineal, la medida del error probable es una cantidad denominada
error estándar de la estimación.

Esencialmente, es un tipo de desviación estándar. He aquí de nuevo el diagrama de puntos para la correlación del SAT de 1993.


     


   Mentalmente, trate por favor de visualizar una línea verde que se extiende horizontalmente por debajo o por encima de cada uno de los puntos azules  de la recta de regresión en rojo. Cada una de esas líneas imaginarias es una medida del grado en que los puntos asociados se desvían (sobre el eje Y) de la recta de regresión. Eleve al cuadrado cada una de esas distancias, tome la suma de esos cuadrados y tendrá una suma de desviaciones cuadradas. En jerga estadística, cada desviación (la línea verde imaginaria) se denomina residual, de manera que la suma de sus cuadrados puede denotarse como la suma de residuales cuadrados, que abreviaremos SS
residual. Para cualquier tasa, se divide la suma de desviaciones cuadradas (residuales) por N y se tendrá la varianza. Tómese la raíz cuadrada de la varianza y se tendrá la desviación estándar.


   Como bien sabemos, la suma de residuales cuadrados puede obtenerse matemáticamente mediante la fórmula simple

 

SSresidual=SSY x (1r2)

 

 

Recuerde que r2 es la proporción de variabilidad en Y que se asocia con variabilidad en X, y que 1—r2 es la proporción (residual) que no está asociada con variabilidad en X. Por lo tanto, multiplicando SSY por 1—r2 se obtiene la cantidad residual  SSY “olvidada”, no considerada por la correlación entre  X e Y.

 


Para el ejemplo del SAT de 1993, se llega a

 

SSresidual

= 231,478.42 x (10.862)

 

 

= 60,184.38


Divida esta cantidad por N, y obtendrá la varianza residual de Y:


    60,184.38/50=1,203.69.

Tome la raíz cuadrada de este último valor y tendrá la desviación estándar de los residuales:


    
sqrt[1,203.69]=Ī34.69

   Esta desviación estándar de los residuales es casi, pero no muy, equivalente al error estándar de la estimación. La diferencia es que la cantidad que hemos recién calculado es puramente descriptiva —pertenece sólo a esta muestra particular de valores asociados XiYi— mientras que el error estándar de la estimación pretende ir más allá de la muestra al dominio de eventos aún no observados. Esta extensión —de la muestra particular de valores asociados XiYi a la relación general entre X e Y— se logra mediante la simple división de SS
residual por N2 en lugar de N. La razón para este denominador N-2 tendrá que esperar hasta un capítulo posterior. Por ahora, baste decir que el error estándar de la estimación, que abreviaremos SE, está dado por la fórmula


    SE
= sqrt[(SSresidual/ (N2)]

Por lo tanto, para el presente ejemplo, nuestro error estándar de estimación es


    SE
= sqrt[60,184.38 / (502)]=Ī35.41

   En resumen: Sobre la base de lo que observamos en nuestra muestra de valores asociados XiYi, estimamos que si la recta de regresión de la muestra se aplicara a toda la población de pares XiYi, los residuales Y de la población tendrían una desviación estándar de algo muy cercano a Ī35.41.


   La siguiente versión del diagrama de puntos del SAT muestra cómo se aplica todo esto a la tarea de predicción. Una línea paralela tomada a 35.41 unidades de Y sobre la recta de regresión dará un error estándar de estimación de +1; una tomada por debajo a 35.41 unidades de Y dará un error estándar de estimación de
1; y la inferencia (detalles en un capítulo posterior) es que el rango entre +1SE y 1SE incluirá aproximadamente dos tercios de los pares XiYi de la población.

Así, cuando se predice un valor desconocido Yi de acuerdo con la fórmula


    predicción Yi = a
+ bXi

el verdadero valor de Yi tiene casi dos tercios de probabilidad de caer dentro de más o menos 35.41 puntos de la predicción, esto es, dentro de más o menos 1 error estándar de estimación. Al hacer predicciones de este tipo, la convención es no establecer la predicción simplemente como


    predicción Yi = a
+ bXi

sino más bien como ‘predicción Y’ más o menos 1 error estándar de estimación.
Esto es


    predicción Yi = a
+ bXiĪSE

   De esta forma, nuestras predicciones para la puntuación promedio del SAT por estado, para los casos de 10% y 50% de quasi-graduados del estado que presentan el examen, son en su forma completa

  para Xi = 10%

 

Predicción Yi

= 1,031.35+(2.17 x 10)Ī35.41

 

 

= 1,009.65Ī35.41

 

  y para Xi = 50%

 

predicción Yi

= 1,031.35+(2.17 x 50)Ī35.41

 

 

= 922.85Ī35.41


   Es decir que, para Xi=10% predecimos que el correspondiente valor Yi tiene dos tercios de probabilidad de caer entre Y=974.24 y Y=1,045.06; para Xi=50%, predecimos que el correspondiente valor Yi tiene dos tercios de probabilidad de caer entre Y=887.44 y  Y=958.26; y así. Supuesto que la muestra es adecuadamente representativa de la relación general entre X e Y, podemos esperar que aproximadamente dos tercios del total de la ‘población’ de pares XiYi esté dentro del rango definido por más o menos 1 error estándar de estimación, y sólo un tercio caerá fuera del rango.
Por lo tanto, cualquier predicción particular de la forma general

    predicción Yi = a + bXiĪSE

tendrá aproximadamente dos tercios de probabilidad de atrapar en su red el valor verdadero Yi, y un tercio de probabilidad de perderlo. Otra forma de expresar este concepto es en términos de confiabilidad. Para una predicción hecha con regresión lineal de esta forma general, se puede tener casi dos tercios de confiabilidad en que el valor verdadero Yi caerá dentro de Ī1SE
de la predicción. En un capítulo posterior examinaremos los procedimientos por medio de los cuales se puede incrementar la confiabilidad que se debería tener en una estimación o predicción, a niveles mucho más altos, tales como 95% ó 99%.

   Pero la prueba, como se dice, es el postre. Si se examinan los datos del SAT para cualquier aĖo subsiguiente a 1993, se encontrará que casi dos tercios de los valores reales Yi caen efectivamente dentro del rango definido por la recta de regresión de la muestra de 1993, más o menos 1SE. Por lo tanto, cualquier predicción particular de la forma

    predicción Yi = a + bXiĪSE

tendrá casi dos tercios de probabilidad de caer dentro de la red.



   En la parte 2 de este capítulo hicimos notar brevemente que la primera pregunta a ser contestada sobre una correlación observada es si surge o no de otra cosa que mera coincidencia. Es el momento de tomar esta pregunta en más profundidad; sin embargo, como esta es una cuestión cuyas implicaciones se extienden más allá de los confines de la correlación y la regresión, lo haremos en un capítulo por separado.

*Note, sin embargo, que el Capítulo 3 tiene también dos
  subcapítulos que examinan un par de aspectos sobre
  correlación no cubiertos en el cuerpo principal del
  capítulo.




Fin del Capítulo 3.

   
Regresar al Inicio del Capítulo 3, Parte 3
   Go to Subchapter 3a [Partial Correlation]
   Go to Subchapter 3b [Rank-Order Correlation]
   Go to Chapter 4 [A First Glance at the Question of Statistical Significance]