©Richard Lowry, 1999-
Todos los derechos reservados.


Capítulo 3. Introducción a la correlación lineal y a la regresión
Parte 1


[Concepts & Applications of Inferential Statistics]

Traducción: Jorge Hernández García
Universidad Nacional Autónoma de México
oulixes@hotmail.com



   La correlación y la regresión se refieren a la relación que existe entre dos variables, X e Y, en el caso en que cada valor particular de Xi está asociado con un valor particular de Yi.
Por ejemplo: las medidas individuales de estatura de sujetos humanos, asociadas con sus correspondientes medidas de peso; el número de horas que los estudiantes de un curso de estadística invierten estudiando antes de un examen, asociadas con sus correspondientes medidas de desempeĖo en el examen; el tiempo de clase que los estudiantes de un curso de estadística invierten bostezando y soĖando despiertos antes de un examen, asociado con sus correspondientes medidas de desempeĖo en el examen; etcétera.


   Fundamentalmente, es una variante del tema relación funcional cuantitativa
. Mientras más tengas de esta variable, más tienes de esta otra. O de manera inversa, mientras más tengas de esta variable, menos tienes de esta otra. Así: mientras más estatura tengas, tenderás a tener más peso; mientras más estudien los estudiantes antes de un examen de estadística, mayor tendencia tendrán a que les vaya bien en el examen. O inversamente, mientras más tiempo de clase inviertan los estudiantes bostezando y soĖando despiertos, menos tenderán a que les vaya bien en el examen. En el primer tipo de caso (mientras más de esto, más de aquello), estamos hablando de una correlación positiva entre las dos variables; y en el segundo tipo (mientras más de esto, menos de aquello), estamos hablando de una correlación negativa entre las dos variables.

 

   La correlación y la regresión son dos caras de la misma moneda. En la lógica subyacente, se puede comenzar con cualquiera de ellas y terminar con la otra. Comenzaremos con la correlación, puesto que es la parte de la historia correlación-regresión con la cual se está probablemente ya algo familiarizado.



Correlación

   Aquí está un ejemplo introductorio de correlación, tomado del ámbito de la educación y los asuntos públicos. Si usted es estudiante de bachillerato en los Estados Unidos, es posible que tenga un reciente y quizá dolorosa experiencia con un instrumento conocido como Prueba de Logro Escolar (SAT - Scholastic Achievement Test
), que se administra anualmente por el Comité de Examinación de Ingreso al Bachillerato (College Entrance Examination Board), que pretende medir ambos, el logro académico y la aptitud para proseguir posterior trabajo académico a nivel bachillerato. Como todos aquellos que hayan presentado el SAT recordarán bien, la carta que les informa los resultados del examen, pueden ocasionar gran júbilo o gran desesperanza. Lo que usted probablemente no notó en ese momento, sin embargo, es que la carta que usted recibió, también contribuyó al júbilo o desesperanza del secretario de educación del estado en que usted residió ese aĖo.


   Esto es debido a que cada aĖo el Comité de Examinación de Ingreso al Bachillerato anuncia públicamente los promedios alcanzados en el SAT por estado y cada aĖo, los responsables estatales de educación se regocijan o deprimen ante los detalles de este anuncio, según que los promedios de su propio estado aparezcan cerca del principio o del final de la lista. La hipótesis, por supuesto, es que las diferencias en puntuación del SAT estado por estado, reflejan diferencias subyacentes en la calidad y efectividad de los sistemas educativos de cada estado.


Y es casi seguro que existen diferencias sustanciales en las puntuaciones promedio del SAT estado por estado, aĖo tras aĖo, tras aĖo. Estas diferencias puede ilustrase con los resultados del SAT de cualquier aĖo particular tomado de las dos o tres últimas décadas, puesto que el patrón general es muy parecido de un aĖo a otro. Ilustraremos el punto con los resultados de 1993, dado que ese fue el aĖo de la muestra del SAT examinada en un importante artículo de investigación en la materia.


Powell, B., & Steelman, L. C. "Bewitched, bothered, and bewildering: The uses and abuses of SAT and ACT scores." Harvard Educational Review,66, 1, 27—54.
See also Powell, B., & Steelman, L. C. "Variations in state SAT performance: Meaningful or misleading?"
Harvard Educational Review,54, 4, 389—412.


   Entre los estados casi hasta arriba de la lista en 1993 (promedios SAT combinados de habilidad matemática y lingüística) estuvieron Iowa, pesando 1103; North Dakota, con 1101; South Dakota, con 1060, y Kansas, con 1042. Y cerca del final de la lista estuvieron los frecuentemente-difamados “cinta oxidada” estados del noeste: Connecticut, con 904; Massachusetts, con 903; New Jersey, con 892; y New York, más de 200 puntos debajo de Iowa, con 887. Usted puede imaginarse fácilmente el júbilo en DesMoines y Topeka ese día, y la desesperanza en Trenton y Albany. Seguramente la implicación es clara:  Los sistemas educativos en Iowa, North Dakota, South Dakota, y Kansas deben haber estado haciendo las cosas correctamente, mientras que los de Connecticut, Massachusetts, New Jersey, y New York deben haber estado haciendo las cosas no muy bien.

   Antes que se precipite a saltar por esta conclusión, sin embargo, regresemos a mirar los datos desde un ángulo diferente. Cuando el Comité de Examinación de Ingreso al Bachillerato anuncia los promedios anuales del SAT por estado, también relaciona el porcentaje de quasi-graduados dentro de cada estado que presentan el SAT. Esta última lista es aparentemente ofrecida sólo como marco de referencia –sin importar la tasa, se la pasa muy brevemente en el anuncio y recibe escasa cobertura por los noticieros. Eche un vistazo más de cerca sin embargo, y verá que lo que el marco de referencia proporciona es en efecto muy interesante. Aquí está la información relevante de 1993 para los ocho estados que hemos mencionado. Vea si puede detectar algún patrón.

Estado

Porcentaje que presenta el SAT

Puntuación promedio
SAT

Iowa
North Dakota
South Dakota
Kansas

5
6
6
9

1103
1101
1060
1042

Connecticut
Massachusetts
New Jersey
New York

88
81
76
74

904
903
892
887


   Mirabile dictu!
Los cuatro estados cerca del inicio de la lista tuvieron unos muy pequeĖos porcentajes de quasi-graduados que presentaron el SAT, mientras que los cuatro estados cerca del final tuvieron muy grande número de quasi-graduados que lo presentaron. Creo que estará usted de acuerdo en que esta observación hace surgir preguntas interesantes. Por ejemplo: ņPodría ser que el 5% de los quasi-graduados que presentaron el SAT en 1993 fuese el 5% de hasta arriba? ņCuál debería haber sido el promedio de puntuación SAT para Connecticut si el examen en ese estado hubiera sido presentado sólo por el mejor 5% de los quasi-graduados en lugar del (presumiblemente) 88% “mejor”? Usted puede sin duda imaginarse cualquier cantidad de variaciones sobre este tema.

   La Figura 3.1 muestra la relación entre esas dos variables –porcentaje de quasi-graduados que presentan el SAT versus puntuación promedio en el SAT– para los 50 estados. Dentro del contexto de la correlación y la regresión, un punto con coordenadas de dos variables de este tipo general es típicamente llamado un diagrama de dispersión. De cualquier manera, es simplemente una variación del tema de graficado de coordenadas cartesianas que usted habrá casi seguramente encontrado en su experiencia educativa previa. Es un método estándar para representar gráficamente la relación que existe entre dos variables, X e Y, en el caso en que cada valor particular Xi está relacionado con un valor particular Yi.

Figura 3.1. Porcentaje de quasi-graduados de bachillerato que presentan el SAT versus Puntuación promedio combinada SAT por Estado: 1993

 


   Para este ejemplo, designando el porcentaje de quasi-graduados dentro de un estado que presentan el SAT como Xi y la puntuación promedio combinada SAT como Yi, tendríamos un total de N=50 valores relacionados de Xi y Yi. De esta manera, para Iowa, Xi=5% se relacionaría con Yi=1103; para Massachusetts, Xi=81% se relacionaría con Yi=903; y así para todos los 50 estados. La lista divariada completa se vería como la siguiente, excepto que las designaciones abstractas para Xi y Yi serían ,por supuesto, remplazadas por sus valores numéricos particulares.

Estado

Xi
Porcentaje que presenta el SAT

Yi
Puntuación Promedio SAT

1i
2i

::::i

49i
50i

X1
X2

::::i

X49
X50

Y1
Y2

::::i

Y49
Y50

 

   El siguiente paso en el graficado divariado de coordenadas es trazar dos ejes en ángulo recto. Por convención, el eje horizontal es asignado a la variable X y el eje vertical a la variable Y, con valores crecientes de X de izquierda a derecha y valores crecientes de Y de abajo hacia arriba.


   Una convención adicional en el graficado divariado de coordenadas aplica sólo a aquellos casos en que una relación causal se conoce o se establece por hipótesis entre dos variables causalmente relacionadas. Al examinar la relación entre dos variables relacionadas causalmente, la variable independiente es aquella que es capaz de influenciar la otra, y la variable dependiente es aquella que es susceptible de ser influenciada por la otra. Por ejemplo, crecer más alto hará a uno tender a ser más pesado, mientras que pesar más no tendrá un efecto sistemático en que uno crezca más alto. En el ser humano, la relación entre estatura y peso, por lo tanto, la estatura es la variable independiente y el peso la variable dependiente. La cantidad de tiempo que se invierte estudiando antes de un examen puede afectar su desempeĖo subsiguiente en el examen, mientras que su desempeĖo en el examen no puede afectar retroactivamente la cantidad de tiempo previamente dedicada a estudiar. Por lo tanto, la cantidad de estudio es la variable independiente y el desempeĖo en el examen es la variable dependiente.

   En la presente muestra del SAT, el porcentaje de quasi-graduados dentro de un estado que presentaron el SAT, puede comprensiblemente afectar la puntuación promedio SAR del estado, mientras que la puntuación promedio del estado en cualquier aĖo dado no puede influenciar retroactivamente el porcentaje de quasi-graduados que presentan el examen. Así, el porcentaje de quasi-graduados que presentan el examen es la variable independiente, X, mientras que la puntuación promedio del estado es la variable dependiente, Y. En este tipo de casos, la convención es reservar el eje X para la variable independiente y el eje Y para la variable dependiente. Para casos en que la distinción entre “independiente” y “dependiente” no aplica, es indistinto qué variable se denomina X y qué variable se denomina Y.

Al designar una gráfica coordenada de este tipo, generalmente no es necesario comenzar ni el eje X ni el Y en cero. El eje X puede comenzar en o un poco por encima del menor valor observado Xi, y el eje Y puede comenzar en o un poco sobre el valor más bajo observado Yi.

 


En la Figura 3.1b, el eje X no comienza en cero, dado que cualquier valor mucho más grande que él, alejaría innecesariamente el extremo más bajo de la distribución de los valores Xi; mientras que el eje Y comienza en 800, debido a que el valor observado más bajo es 838.


   Para cualquier tasa, el mensaje claro de la Figura 3.1 es que los estados con porcentajes relativamente bajos de quasi-graduados que presentaron el SAT en 1993, tienden a tener puntuaciones promedio SAT relativamente altas, mientras que aquellos que tuvieron porcentajes relativamente altos de quasi-graduados que presentaron el SAT, tendieron a tener puntuaciones promedio SAT relativamente bajas. La relación no es una relación perfecta, aunque es sin embargo claramente visible a primera vista. Es lo mismo que mostramos antes, salvo que ahora incluimos la línea recta que forma el mejor “ajuste” de esta relación. Regresaremos al significado y derivación de esta línea un poco más tarde.

 

  

ŃCambiar!
Realmente, en este ejemplo particular, existen dos patrones algo diferentes que con los 50 puntos de los estados podrían ajustarse.

El primero es el patrón delineado por la línea sólida que baja y el segundo el es que está marcado por la línea punteada y más inclinada línea curva que puede ver si hace clic en la línea “ŃCambiar!” [Haga clic en “ŃCambiar” de nuevo para regresar a la línea recta.]

 

Una relación que puede describirse por una línea recta es llamada lineal, mientras que una que puede describirse con una curva es llamada curvilineal. Tocaremos el tema de la relación curvilineal en un capítulo posterior. Nuestra cobertua actual estará confinada a la correlación lineal.

 

   La Figura 3.2 ilustra las diferentes formas que la correlación lineal es capaz de tomar. Las posibilidades básicas son: (i) correlación positiva; (ii)  correlación negativa; y (iii) correlación cero. En el caso de la correlación cero, la gráfica de coordenadas aparecerá algo como la confusión si patrón que se muestra en la Figura 3.2a, reflejando el hecho de que no existe una tendencia sistemática para que X e Y sean asociados de ningún modo. La gráfica de una correlación positiva, en el otro extremo, reflejará la tendencia para que valores altos de Xi sean asociados con valores altos de Yi y viceversa; por lo tanto, los puntos tenderán a linearse a lo largo de una diagonal creciente, como se muestra en la Figura 3.2b. La gráfica de una correlación negativa reflejará la tendencia opuesta para que valores altos de Xi se asocien a valores bajos de Yi y viceversa; por lo tanto, los puntos tenderán a alinearse a lo largo de una diagonal decreciente, como se muestra en la Figura 3.2d.

 

   El caso límite de correlación lineal, como se ilustra en las figuras 3.2c y 3.2e, es cuando los puntos se alinean a lo largo de la diagonal como cuentas en una cuerda tensa. Este arreglo, típicamente llamado correlación perfecta, representaría el máximo grado de correlación lineal, positiva o negativa, que podría posiblemente existir entre dos variables. En el mundo real, normalmente encontrará correlaciones lineales perfectas sólo en el ámbito de los principios físicos básicos; por ejemplo, la relación entre voltaje y corriente en un circuito eléctrico con resistencia constante. Entre los menos ordenados fenómenos de las ciencias conductuales y biológicas, las correlaciones positivas y negativas son mucho más parecidas a los tipos imperfectos ilustrados en las Figuras 3.2b y 3.2d.



Medida de la correlación lineal

   La medida primaria de correlación lineal es el coeficiente de correlación producto-momento de Pearson, denotado por la letra minúscula romana r
, que toma valores desde r=+1.0 para una correlación positiva perfecta, hasta r=1.0 para una correlación negativa perfecta. El punto medio de su rango, r=0.0, corresponde a una total ausencia de correlación. Los valores que caen entre r=0.0 y r=+1.0 representan grados variables de correlación positiva, mientras que aquellas que caen entre r=0.0 y r=1.0 representan grados variables de correlación negativa.

   Una medida de correlación muy relacionada que le acompaĖa es el coeficiente de determinación, denotado r
2, que es simplemente el cuadrado del coeficiente de correlación. El coeficiente de determinación puede tomar sólo valores positivos que van desde r2=0.0 para una correlación perfecta (positiva o negativa) hasta r2=0.0 para una total ausencia de correlación. La ventaja del coeficiente de correlación, r, es que puede tener un signo positivo o negativo con el que proporciona una indicación de la dirección positiva o negativa de la correlación. La ventaja del coeficiente de determinación, r2, es que proporciona iguales medidas de intervalo y escala de razón de la fuerza de la correlación. En efecto, el coeficiente de correlación, r, nos da la verdadera dirección de la correlación (+ ó ), pero sólo la raíz cuadrada de la fuerza de la correlación; mientras que el coeficiente de determinación, r2, nosa da la verdadera fuerza de la correlación pero sin indicación de su dirección. Ambos indicadores conjuntamente hacen el trabajo completo.

   Examinaremos los detalles del cálculos de estas dos medidas en un momento, pero primero un poco más para presentar conceptos generales. La figura 3.3 muestra cuatro ejemplos específicos de r y r2, cada uno producido tomando dos conjuntos muy simples de valores X e Y, a saber,

      Xi = {1, 2, 3, 4, 5, 6}  and  Yi = {2, 4, 6, 8, 10, 12}

y asociándolos en una u otra de entre cuatro diferentes formas. En el ejemplo I, están asociados de tal manera que produzcan una correlación positiva perfecta, resultando un coeficiente de correlación r=+1.0 y un coeficiente de determinación r2=1.0. En el ejemplo II, la asociación produce una correlación positiva algo perdida que conduce a un coeficiente de correlación r=+0.66 y un coeficiente de determinación r2= 0.44. Para propósitos de interpretación, se puede traducir el coeficiente de determinación en términos de porcentajes (i.e., porcentaje= r2x100), que permitirá decir cosas tales como, por ejemplo, que la correlación en el ejemplo I (r2=1.0 ) es 100% tan fuerte como posible, dados los valores particulares de Xi e Yi, mientras que el del ejemplo II (r2=0.44 ) es sólo 44% tan fuerte como posible. Alternativamente, se podría decir que la correlación más pobre del ejemplo II es sólo 44% tan fuerte como la correlación perfecta mostrada en el ejemplo I. El significado esencial de la “fuerza de correlación” en este contexto es que tal y tal porcentaje de la variabilidad de Y está asociada con (atada a, ligada a, acoplada con) la variabilidad en X y viceversa. De este modo, para el ejemplo I, 100% de la variabilidad de Y está apareada con la variabilidad de X; mientras que en el ejemplo II, sólo 44% de la variabilidad de Y está ligada a la variabilidad de X.

Figura 3.3. Cuatro asociaciones diferente del mismo conjunto de valores de X e Y



   Las correlaciones mostradas en los ejemplos III y IV son obviamente espejo de las recién descritas. En el ejemplo III, los seis valores de Xi e Yi están asociados de tal forma que produzcan una correlación negativa perfecta, que nos conduce a un coeficiente de correlación r
=1.0 y un coeficiente de determinación r2=1.0. En el ejemplo IV, la asociación produce una correlación negativa más pobre, resultando un coeficiente de correlación r=0.66 y un coeficiente de determinación r2= 0.44. Aquí, de nuevo, se puede decir, para el ejemplo III que 100% de la variabilidad en Y está acoplada con la variabilidad de X; mientras que en el ejemplo IV, sólo 44% de la variabilidad de Y está vinculada a la variabilidad de X. Se puede ir más allá y decir que las correlaciones perfectas, positivas y negativas, en los ejemplos I y III tienen igual fuerza (ambas con r2=1.0) pero dirección opuesta; e igualmente, que las correlaciones más pobres, positivas y negativas de los ejemplos II y IV, tienen igual fuerza (ambas con r2=0.44) pero direcciones opuestas.

   Para ilustrar el siguiente punto en más detalle, nos enfocaremos por un momento en la asociación particular de los valores Xie Yi que produjeron la correlación positiva mostrada en el ejemplo II de la Figura 3.3.

Pareja

Xi

Yi

 

a
b
c
d
e
f

1
2
3
4
5
6

6
2
4
10
12
8



Cuando se realizan los procedimientos de cálculo para la correlación lineal y la regresión, lo que esencialmente se hace es definir la línea recta que mejor ajusta la distribución divariada de los puntos, como se muestra en la siguiente versión de la misma gráfica. La línea es llamada línea de regresión o recta de regresión y el criterio para “mejor ajuste” es que la suma de los cuadrados de las distancias verticales (las líneas verdes ||||) entre los puntos y la línea de regresión sean tan pequeĖos como se pueda.

 

 

 


Sucede que esta línea de mejor ajuste, en cada instancia pasará a través del punto en el cual la media de X y la media de Y intersectan la gráfica. En el presente ejemplo, la media de X es 3.5 y la media de Y es 7.0. Su punto de intersección ocurre en la convergencia de las dos líneas grises punteadas.


   Los detalles de esta línea –en particular, donde comienza en el eje Y y la tasa a la cual se inclina hacia arriba o hacia abajo- no se dibujará explícitamente hasta que consideremos el lado de regresión de la correlación y la regresión. Sin embargo, están presentes implícitamente cuando se ejecutan los procedimientos de cálculo para el lado de correlación de la moneda. Como se indicó arriba, la inclinación de la línea hacia arriba o hacia abajo, es lo que determina el signo del coeficiente de correlación (r
), positivo o negativo; y el grado en que los puntos están alineados a lo largo de la línea o alejados de ella, determina la fuerza de la correlación (r2).

   Hemos ya encontrado el concepto general de varianza
para el caso en que se describe la variación que existe entre instancias variadas de una única variable. La medida de correlación lineal requiere una extensión de este concepto para el caso en que se describe la variación conjunta que existe entre instancias divariadas asociadas de dos variables, X e Y, juntas. Hemos ya tocado el concepto general. En la correlación positiva, los valores altos de X tienden a ser asociados con valores altos de Y, y los valores bajos de X tienden a ser asociados con valores bajos de Y. En la correlación negativa es lo opuesto: valores altos de X tienden a ser asociados con valores bajos de Y, y valores bajos de X tienden a ser asociados con valores altos e Y. En ambos casos, la frase “tienden a ser asociados” es otra forma de decir que la variabilidad en X tiende a ser acoplada con la variabilidad en Y y viceversa –o, brevemente, que X e Y tienden a variar conjuntamente. La medida prima de la tendencia de dos variables, X e Y, que varían conjuntamente es una cantidad conocida como la covarianza. Sucede que no es necesario ser capaz de calcular la cantidad de covarianza por sí misma, porque lo que estamos buscando, el cálculo de r y r2, puede alcanzarse por medio de un atajo. Sin embargo, se necesitará tener al menos el concepto general de ello; así que manténgalo en la mente mientras procedemos a través de unos cuantos párrafos que siguen, que la covarianza es una medida del grado en que dos variables X e Y, varían conjuntamente.


   En su lógica subyacente, el coeficiente de correlación producto-momento de Pearson descansa en una simple razón entre (i) la cantidad de variación conjunta realmente observada entre X e Y, y (ii) la cantidad de variación conjunta que existiría si X e Y tuvieran una correlación positiva perfecta (100%). Así

 


 

r =

covarianza observada


Covarianza positiva máxima posible

 


   A medida que se produce, la cantidad arriba seĖalada como “covarianza positiva máxima posible” está determinada precisamente por las dos varianzas separadas de X e Y. Esto es por la sencilla razón de que X e Y pueden covariar, juntas, sólo en al medida que varían de manera separada. Si alguna de las dos variables tuviera cero variabilidad (por ejemplo, si los valores Xi fueran todos iguales), entonces claramente no podrían covariar. Específicamente, la varianza positiva máxima posible que puede existir entre dos variables es igual a la media geométrica de las dos varianzas separadas.

Para cualquier conjunto de n valores numéricos, a, b, c, etc., la media geométrica es la n-ésima raíz del producto de esos valores. Así, la media geométrica de a y b sería la raíz cuadrada de axb; la media geométrica de a, b y c, sería la raíz cúbica de axbxc; y así.



De este modo la relación ahora es

 


 

r =

covarianza observada


sqrt[(varianzaX) x (varianzaY)]

 


 

Recuerde que "sqrt" significa "la raíz cuadrada de."


   Aunque en principio esta relación involucra dos varianzas y una covarianza, en la práctica, a través de la magia de la manipulación algebráica, se reduce a algo que es mucho más simple de calcular. En la siguiente formulación se reconocerá inmediatamente el significado de SSX
, que es la suma de las desviaciones al cuadrado de X; por extensión, será capaz también de reconocer SSY, que es la suma de las desviaciones al cuadrado de Y.

 

Para obtener la fórmula de abajo a partir de la anterior, necesitará recordar que la varianza (s2) de un conjunto de valores, es simplemente el promedio de sus desviaciones al cuadrado: SS/N.



El tercer término, SCXY
, denota una cantidad que llamaremos suma de las co-desviaciones; y como no se puede dudar inferirlo del nombre, es bastante parecido a una suma de desviaciones cuadradas. SSX es la medida prima de variabilidad entre los valores Xi; SSY es la medida prima de variabilidad entre los valores Yi; y SCXY es la medida prima de co-variabilidad de X e Y juntas.

 


 

r =

SCXY


sqrt[SSX x SSY]

 


 

Para entender esta familiaridad, recuerde del capítulo 2 lo que se entiende precisamente por el término “desviación”.

 

 


   Para cualquier elemento del conjunto de medidas de la variable X,
    desviaciónX=Xi 
 MX


De igual forma, para cualquier elemento del conjunto de medidas de la variable Y,

    desviaciónY=Yi  MY


 

Como probablemente habrá adivinado ya, una co-desviación perteneciente a un par particular de valores XY involucra la desviaciónX del elemento Xi del par y la desviaciónY del elemento Yi del par. La forma particular en que son reunidos para formar la co-desviación es

 

 


    co-desviaciónXY = (desviaciónX) x (desviaciónY)


 

Y finalmente, la analogía entre una co-desviación y una desviación cuadrada:

 

 


Para un valor Xi, la desviación cuadrada es
   (desviaciónX) x (desviaciónX)


Para un valor Yi es
   (desviaciónY) x (desviaciónY)


Y para un par de valores Xi e Yi, la co-desviación es
   (desviaciónX) x (desviaciónY)




   Esto debería dar un sentido de los conceptos subyacentes. Sólo mantenga en la mente, sin importar la secuencia de cálculos que siga cuando calcule el coeficiente de correlación, que lo que está calculando fundamentalmente es la razón

 


 

r =

covarianza observada


Covarianza positiva máxima posible

 


la cual, para propóstios de cálculo, se reduce a

 


 

r =

SCXY


sqrt[SSX x SSY]

 



   Ahora lo esencial de esto. Aquí, de nuevo, es la asociación particular de valores Xi and Yi la que produjo la correlación positiva del ejemplo II de la Figura 3.3. Pero ahora los sometemos a un poco de trituración de números, calculando el cuadrado de cada valor Xi y Yi, junto con el producto cruzado de cada par XiYi. Esos son los elementos que se requerirán para el cálculo de las tres cantidades sumarias en la fórmula de arriba: SSX
, SSY, y SSXY.

Par

Xi

Yi

 

Xi2

Yi2

 

XiYi

 

a
b
c
d
e
f

1
2
3
4
5
6

6
2
4
10
12
8

1
4
9
16
25
36

36
4
16
100
144
64

6
4
12
40
60
48

sumas

21

42

91

364

170

 


SSX : suma de las desviaciones cuadradas para valores Xi
   Se vio en el Capítulo 2 que la suma de los cuadrados de las desviaciones para un conjunto de valores Xi puede calcularse de acuerdo con la fórmula de cálculo


En el presente ejemplo,
   N=6  [porque hay seis valores Xi]
   
Xi2 = 91
   
Xi = 21
   (
Xi)2 = (21)2 = 441
Así:
   SSX
= 91(441/6) = 17.5


SSY : suma de las desviaciones cuadradas para valores Yi
   De manera similar, la suma de desviaciones cuadradas para un conjunto de Yi puede calcularse de acuerdo con la fórmula

   


En el presente ejemplo,T
   N = 6  [porque hay seis valores Yi]
   
Yi2 = 364
   
Yi = 42
   (
Yi)2 = (42)2 = 1764
Así:
   SSY
= 364(1764/6) = 70.0


SCXY : suma de las co-desviaciones para valores asociados de Xi e YiT
   Hace un momento observamos que la suma de las co-desviaciones asociadas de valores Xi y Yi es análoga a la suma de desviaciones cuadradas para cualquiera de las variables de manera separada. Probablemente será capaz de ver que esta analogía también se extiende a la fórmula de cálculo para la suma de co-desviaciones:


De nuevo, para el presente ejemplo,T
   N = 6  [porque hay seis pares XiYi]
   Xi = 21
   Yi = 42
   (Xi)(Yi) = 21 x 42 = 882
   (XiYi) = 170
Así:
   SCXY
= 170(882/6) = 23.0



Una vez que se tienen estos preliminares,
   SSX
= 17.5, SSY = 70.0, y SCXY = 23.0
se puede calcular fácilmente el coeficiente de correlación como

 


 

r =

SCXY


sqrt[SSX x SSY]

 

 

 

=

23.0


sqrt[17.5 x 70.0]

= +0.66

 


y el coeficiente de determinación como

 


r2 = (+0.66)2 = 0.44



Para estar seguro que se tiene un sólido entendimiento de estos temas, por favor tome un momento para trabajar a su modo los detalles de la  Tabla 3.1, que le mostrará los datos y cálculos de cada uno de los ejemplos de la Figura 3.3. Recuerde que cada ejemplo comienza con los mismos valores de Xi e Yi; sólo difieren con respecto a cómo se han asociados esos valores entre sí.


Fin del Capítulo 3, Parte 1.
   
Regresar al Inicio de la Parte 1
   
Ir al Capítulo 3, Parte 2