©Richard Lowry, 1999-
Todos los derechos reservados.


Cap’tulo 3. Introducci—n a la correlaci—n lineal y a la regresi—n
Parte 1


[Concepts & Applications of Inferential Statistics]

Traducción: Jorge Hern‡ndez Garc’a
Universidad Nacional Aut—noma de MŽxico
oulixes@hotmail.com



   La correlaci—n y la regresi—n se refieren a la relaci—n que existe entre dos variables, X e Y, en el caso en que cada valor particular de Xi est‡ asociado con un valor particular de Yi.
Por ejemplo: las medidas individuales de estatura de sujetos humanos, asociadas con sus correspondientes medidas de peso; el nœmero de horas que los estudiantes de un curso de estad’stica invierten estudiando antes de un examen, asociadas con sus correspondientes medidas de desempe–o en el examen; el tiempo de clase que los estudiantes de un curso de estad’stica invierten bostezando y so–ando despiertos antes de un examen, asociado con sus correspondientes medidas de desempe–o en el examen; etcŽtera.


   Fundamentalmente, es una variante del tema relaci—n funcional cuantitativa
. Mientras m‡s tengas de esta variable, m‡s tienes de esta otra. O de manera inversa, mientras m‡s tengas de esta variable, menos tienes de esta otra. As’: mientras m‡s estatura tengas, tender‡s a tener m‡s peso; mientras m‡s estudien los estudiantes antes de un examen de estad’stica, mayor tendencia tendr‡n a que les vaya bien en el examen. O inversamente, mientras m‡s tiempo de clase inviertan los estudiantes bostezando y so–ando despiertos, menos tender‡n a que les vaya bien en el examen. En el primer tipo de caso (mientras m‡s de esto, m‡s de aquello), estamos hablando de una correlaci—n positiva entre las dos variables; y en el segundo tipo (mientras m‡s de esto, menos de aquello), estamos hablando de una correlaci—n negativa entre las dos variables.

 

   La correlaci—n y la regresi—n son dos caras de la misma moneda. En la l—gica subyacente, se puede comenzar con cualquiera de ellas y terminar con la otra. Comenzaremos con la correlaci—n, puesto que es la parte de la historia correlaci—n-regresi—n con la cual se est‡ probablemente ya algo familiarizado.



Correlaci—n

   Aqu’ est‡ un ejemplo introductorio de correlaci—n, tomado del ‡mbito de la educaci—n y los asuntos pœblicos. Si usted es estudiante de bachillerato en los Estados Unidos, es posible que tenga un reciente y quiz‡ dolorosa experiencia con un instrumento conocido como Prueba de Logro Escolar (SAT - Scholastic Achievement Test
), que se administra anualmente por el ComitŽ de Examinaci—n de Ingreso al Bachillerato (College Entrance Examination Board), que pretende medir ambos, el logro acadŽmico y la aptitud para proseguir posterior trabajo acadŽmico a nivel bachillerato. Como todos aquellos que hayan presentado el SAT recordar‡n bien, la carta que les informa los resultados del examen, pueden ocasionar gran jœbilo o gran desesperanza. Lo que usted probablemente no not— en ese momento, sin embargo, es que la carta que usted recibi—, tambiŽn contribuy— al jœbilo o desesperanza del secretario de educaci—n del estado en que usted residi— ese a–o.


   Esto es debido a que cada a–o el ComitŽ de Examinaci—n de Ingreso al Bachillerato anuncia pœblicamente los promedios alcanzados en el SAT por estado y cada a–o, los responsables estatales de educaci—n se regocijan o deprimen ante los detalles de este anuncio, segœn que los promedios de su propio estado aparezcan cerca del principio o del final de la lista. La hip—tesis, por supuesto, es que las diferencias en puntuaci—n del SAT estado por estado, reflejan diferencias subyacentes en la calidad y efectividad de los sistemas educativos de cada estado.


Y es casi seguro que existen diferencias sustanciales en las puntuaciones promedio del SAT estado por estado, a–o tras a–o, tras a–o. Estas diferencias puede ilustrase con los resultados del SAT de cualquier a–o particular tomado de las dos o tres œltimas dŽcadas, puesto que el patr—n general es muy parecido de un a–o a otro. Ilustraremos el punto con los resultados de 1993, dado que ese fue el a–o de la muestra del SAT examinada en un importante art’culo de investigaci—n en la materia.


Powell, B., & Steelman, L. C. "Bewitched, bothered, and bewildering: The uses and abuses of SAT and ACT scores." Harvard Educational Review,66, 1, 27—54.
See also Powell, B., & Steelman, L. C. "Variations in state SAT performance: Meaningful or misleading?"
Harvard Educational Review,54, 4, 389—412.


   Entre los estados casi hasta arriba de la lista en 1993 (promedios SAT combinados de habilidad matem‡tica y lingŸ’stica) estuvieron Iowa, pesando 1103; North Dakota, con 1101; South Dakota, con 1060, y Kansas, con 1042. Y cerca del final de la lista estuvieron los frecuentemente-difamados Òcinta oxidadaÓ estados del noeste: Connecticut, con 904; Massachusetts, con 903; New Jersey, con 892; y New York, m‡s de 200 puntos debajo de Iowa, con 887. Usted puede imaginarse f‡cilmente el jœbilo en DesMoines y Topeka ese d’a, y la desesperanza en Trenton y Albany. Seguramente la implicaci—n es clara:  Los sistemas educativos en Iowa, North Dakota, South Dakota, y Kansas deben haber estado haciendo las cosas correctamente, mientras que los de Connecticut, Massachusetts, New Jersey, y New York deben haber estado haciendo las cosas no muy bien.

   Antes que se precipite a saltar por esta conclusi—n, sin embargo, regresemos a mirar los datos desde un ‡ngulo diferente. Cuando el ComitŽ de Examinaci—n de Ingreso al Bachillerato anuncia los promedios anuales del SAT por estado, tambiŽn relaciona el porcentaje de quasi-graduados dentro de cada estado que presentan el SAT. Esta œltima lista es aparentemente ofrecida s—lo como marco de referencia –sin importar la tasa, se la pasa muy brevemente en el anuncio y recibe escasa cobertura por los noticieros. Eche un vistazo m‡s de cerca sin embargo, y ver‡ que lo que el marco de referencia proporciona es en efecto muy interesante. Aqu’ est‡ la informaci—n relevante de 1993 para los ocho estados que hemos mencionado. Vea si puede detectar algœn patr—n.

Estado

Porcentaje que presenta el SAT

Puntuaci—n promedio
SAT

Iowa
North Dakota
South Dakota
Kansas

5
6
6
9

1103
1101
1060
1042

Connecticut
Massachusetts
New Jersey
New York

88
81
76
74

904
903
892
887


   Mirabile dictu!
Los cuatro estados cerca del inicio de la lista tuvieron unos muy peque–os porcentajes de quasi-graduados que presentaron el SAT, mientras que los cuatro estados cerca del final tuvieron muy grande nœmero de quasi-graduados que lo presentaron. Creo que estar‡ usted de acuerdo en que esta observaci—n hace surgir preguntas interesantes. Por ejemplo: ÀPodr’a ser que el 5% de los quasi-graduados que presentaron el SAT en 1993 fuese el 5% de hasta arriba? ÀCu‡l deber’a haber sido el promedio de puntuaci—n SAT para Connecticut si el examen en ese estado hubiera sido presentado s—lo por el mejor 5% de los quasi-graduados en lugar del (presumiblemente) 88% ÒmejorÓ? Usted puede sin duda imaginarse cualquier cantidad de variaciones sobre este tema.

   La Figura 3.1 muestra la relaci—n entre esas dos variables –porcentaje de quasi-graduados que presentan el SAT versus puntuaci—n promedio en el SAT– para los 50 estados. Dentro del contexto de la correlaci—n y la regresi—n, un punto con coordenadas de dos variables de este tipo general es t’picamente llamado un diagrama de dispersi—n. De cualquier manera, es simplemente una variaci—n del tema de graficado de coordenadas cartesianas que usted habr‡ casi seguramente encontrado en su experiencia educativa previa. Es un mŽtodo est‡ndar para representar gr‡ficamente la relaci—n que existe entre dos variables, X e Y, en el caso en que cada valor particular Xi est‡ relacionado con un valor particular Yi.

Figura 3.1. Porcentaje de quasi-graduados de bachillerato que presentan el SAT versus Puntuaci—n promedio combinada SAT por Estado: 1993

 


   Para este ejemplo, designando el porcentaje de quasi-graduados dentro de un estado que presentan el SAT como Xi y la puntuaci—n promedio combinada SAT como Yi, tendr’amos un total de N=50 valores relacionados de Xi y Yi. De esta manera, para Iowa, Xi=5% se relacionar’a con Yi=1103; para Massachusetts, Xi=81% se relacionar’a con Yi=903; y as’ para todos los 50 estados. La lista divariada completa se ver’a como la siguiente, excepto que las designaciones abstractas para Xi y Yi ser’an ,por supuesto, remplazadas por sus valores numŽricos particulares.

Estado

Xi
Porcentaje que presenta el SAT

Yi
Puntuaci—n Promedio SAT

1i
2i

::::i

49i
50i

X1
X2

::::i

X49
X50

Y1
Y2

::::i

Y49
Y50

 

   El siguiente paso en el graficado divariado de coordenadas es trazar dos ejes en ‡ngulo recto. Por convenci—n, el eje horizontal es asignado a la variable X y el eje vertical a la variable Y, con valores crecientes de X de izquierda a derecha y valores crecientes de Y de abajo hacia arriba.


   Una convenci—n adicional en el graficado divariado de coordenadas aplica s—lo a aquellos casos en que una relaci—n causal se conoce o se establece por hip—tesis entre dos variables causalmente relacionadas. Al examinar la relaci—n entre dos variables relacionadas causalmente, la variable independiente es aquella que es capaz de influenciar la otra, y la variable dependiente es aquella que es susceptible de ser influenciada por la otra. Por ejemplo, crecer m‡s alto har‡ a uno tender a ser m‡s pesado, mientras que pesar m‡s no tendr‡ un efecto sistem‡tico en que uno crezca m‡s alto. En el ser humano, la relaci—n entre estatura y peso, por lo tanto, la estatura es la variable independiente y el peso la variable dependiente. La cantidad de tiempo que se invierte estudiando antes de un examen puede afectar su desempe–o subsiguiente en el examen, mientras que su desempe–o en el examen no puede afectar retroactivamente la cantidad de tiempo previamente dedicada a estudiar. Por lo tanto, la cantidad de estudio es la variable independiente y el desempe–o en el examen es la variable dependiente.

   En la presente muestra del SAT, el porcentaje de quasi-graduados dentro de un estado que presentaron el SAT, puede comprensiblemente afectar la puntuaci—n promedio SAR del estado, mientras que la puntuaci—n promedio del estado en cualquier a–o dado no puede influenciar retroactivamente el porcentaje de quasi-graduados que presentan el examen. As’, el porcentaje de quasi-graduados que presentan el examen es la variable independiente, X, mientras que la puntuaci—n promedio del estado es la variable dependiente, Y. En este tipo de casos, la convenci—n es reservar el eje X para la variable independiente y el eje Y para la variable dependiente. Para casos en que la distinci—n entre ÒindependienteÓ y ÒdependienteÓ no aplica, es indistinto quŽ variable se denomina X y quŽ variable se denomina Y.

Al designar una gr‡fica coordenada de este tipo, generalmente no es necesario comenzar ni el eje X ni el Y en cero. El eje X puede comenzar en o un poco por encima del menor valor observado Xi, y el eje Y puede comenzar en o un poco sobre el valor m‡s bajo observado Yi.

 


En la Figura 3.1b, el eje X no comienza en cero, dado que cualquier valor mucho m‡s grande que Žl, alejar’a innecesariamente el extremo m‡s bajo de la distribuci—n de los valores Xi; mientras que el eje Y comienza en 800, debido a que el valor observado m‡s bajo es 838.


   Para cualquier tasa, el mensaje claro de la Figura 3.1 es que los estados con porcentajes relativamente bajos de quasi-graduados que presentaron el SAT en 1993, tienden a tener puntuaciones promedio SAT relativamente altas, mientras que aquellos que tuvieron porcentajes relativamente altos de quasi-graduados que presentaron el SAT, tendieron a tener puntuaciones promedio SAT relativamente bajas. La relaci—n no es una relaci—n perfecta, aunque es sin embargo claramente visible a primera vista. Es lo mismo que mostramos antes, salvo que ahora incluimos la l’nea recta que forma el mejor ÒajusteÓ de esta relaci—n. Regresaremos al significado y derivaci—n de esta l’nea un poco m‡s tarde.

 

  

ÁCambiar!
Realmente, en este ejemplo particular, existen dos patrones algo diferentes que con los 50 puntos de los estados podr’an ajustarse.

El primero es el patr—n delineado por la l’nea s—lida que baja y el segundo el es que est‡ marcado por la l’nea punteada y m‡s inclinada l’nea curva que puede ver si hace clic en la l’nea ÒÁCambiar!Ó [Haga clic en ÒÁCambiarÓ de nuevo para regresar a la l’nea recta.]

 

Una relaci—n que puede describirse por una l’nea recta es llamada lineal, mientras que una que puede describirse con una curva es llamada curvilineal. Tocaremos el tema de la relaci—n curvilineal en un cap’tulo posterior. Nuestra cobertua actual estar‡ confinada a la correlaci—n lineal.

 

   La Figura 3.2 ilustra las diferentes formas que la correlaci—n lineal es capaz de tomar. Las posibilidades b‡sicas son: (i) correlaci—n positiva; (ii)  correlaci—n negativa; y (iii) correlaci—n cero. En el caso de la correlaci—n cero, la gr‡fica de coordenadas aparecer‡ algo como la confusi—n si patr—n que se muestra en la Figura 3.2a, reflejando el hecho de que no existe una tendencia sistem‡tica para que X e Y sean asociados de ningœn modo. La gr‡fica de una correlaci—n positiva, en el otro extremo, reflejar‡ la tendencia para que valores altos de Xi sean asociados con valores altos de Yi y viceversa; por lo tanto, los puntos tender‡n a linearse a lo largo de una diagonal creciente, como se muestra en la Figura 3.2b. La gr‡fica de una correlaci—n negativa reflejar‡ la tendencia opuesta para que valores altos de Xi se asocien a valores bajos de Yi y viceversa; por lo tanto, los puntos tender‡n a alinearse a lo largo de una diagonal decreciente, como se muestra en la Figura 3.2d.

 

   El caso l’mite de correlaci—n lineal, como se ilustra en las figuras 3.2c y 3.2e, es cuando los puntos se alinean a lo largo de la diagonal como cuentas en una cuerda tensa. Este arreglo, t’picamente llamado correlaci—n perfecta, representar’a el m‡ximo grado de correlaci—n lineal, positiva o negativa, que podr’a posiblemente existir entre dos variables. En el mundo real, normalmente encontrar‡ correlaciones lineales perfectas s—lo en el ‡mbito de los principios f’sicos b‡sicos; por ejemplo, la relaci—n entre voltaje y corriente en un circuito elŽctrico con resistencia constante. Entre los menos ordenados fen—menos de las ciencias conductuales y biol—gicas, las correlaciones positivas y negativas son mucho m‡s parecidas a los tipos imperfectos ilustrados en las Figuras 3.2b y 3.2d.



Medida de la correlaci—n lineal

   La medida primaria de correlaci—n lineal es el coeficiente de correlaci—n producto-momento de Pearson, denotado por la letra minœscula romana r
, que toma valores desde r=+1.0 para una correlaci—n positiva perfecta, hasta r=1.0 para una correlaci—n negativa perfecta. El punto medio de su rango, r=0.0, corresponde a una total ausencia de correlaci—n. Los valores que caen entre r=0.0 y r=+1.0 representan grados variables de correlaci—n positiva, mientras que aquellas que caen entre r=0.0 y r=1.0 representan grados variables de correlaci—n negativa.

   Una medida de correlaci—n muy relacionada que le acompa–a es el coeficiente de determinaci—n, denotado r
2, que es simplemente el cuadrado del coeficiente de correlaci—n. El coeficiente de determinaci—n puede tomar s—lo valores positivos que van desde r2=0.0 para una correlaci—n perfecta (positiva o negativa) hasta r2=0.0 para una total ausencia de correlaci—n. La ventaja del coeficiente de correlaci—n, r, es que puede tener un signo positivo o negativo con el que proporciona una indicaci—n de la direcci—n positiva o negativa de la correlaci—n. La ventaja del coeficiente de determinaci—n, r2, es que proporciona iguales medidas de intervalo y escala de raz—n de la fuerza de la correlaci—n. En efecto, el coeficiente de correlaci—n, r, nos da la verdadera direcci—n de la correlaci—n (+ — ), pero s—lo la ra’z cuadrada de la fuerza de la correlaci—n; mientras que el coeficiente de determinaci—n, r2, nosa da la verdadera fuerza de la correlaci—n pero sin indicaci—n de su direcci—n. Ambos indicadores conjuntamente hacen el trabajo completo.

   Examinaremos los detalles del c‡lculos de estas dos medidas en un momento, pero primero un poco m‡s para presentar conceptos generales. La figura 3.3 muestra cuatro ejemplos espec’ficos de r y r2, cada uno producido tomando dos conjuntos muy simples de valores X e Y, a saber,

      Xi = {1, 2, 3, 4, 5, 6}  and  Yi = {2, 4, 6, 8, 10, 12}

y asoci‡ndolos en una u otra de entre cuatro diferentes formas. En el ejemplo I, est‡n asociados de tal manera que produzcan una correlaci—n positiva perfecta, resultando un coeficiente de correlaci—n r=+1.0 y un coeficiente de determinaci—n r2=1.0. En el ejemplo II, la asociaci—n produce una correlaci—n positiva algo perdida que conduce a un coeficiente de correlaci—n r=+0.66 y un coeficiente de determinaci—n r2= 0.44. Para prop—sitos de interpretaci—n, se puede traducir el coeficiente de determinaci—n en tŽrminos de porcentajes (i.e., porcentaje= r2x100), que permitir‡ decir cosas tales como, por ejemplo, que la correlaci—n en el ejemplo I (r2=1.0 ) es 100% tan fuerte como posible, dados los valores particulares de Xi e Yi, mientras que el del ejemplo II (r2=0.44 ) es s—lo 44% tan fuerte como posible. Alternativamente, se podr’a decir que la correlaci—n m‡s pobre del ejemplo II es s—lo 44% tan fuerte como la correlaci—n perfecta mostrada en el ejemplo I. El significado esencial de la Òfuerza de correlaci—nÓ en este contexto es que tal y tal porcentaje de la variabilidad de Y est‡ asociada con (atada a, ligada a, acoplada con) la variabilidad en X y viceversa. De este modo, para el ejemplo I, 100% de la variabilidad de Y est‡ apareada con la variabilidad de X; mientras que en el ejemplo II, s—lo 44% de la variabilidad de Y est‡ ligada a la variabilidad de X.

Figura 3.3. Cuatro asociaciones diferente del mismo conjunto de valores de X e Y



   Las correlaciones mostradas en los ejemplos III y IV son obviamente espejo de las reciŽn descritas. En el ejemplo III, los seis valores de Xi e Yi est‡n asociados de tal forma que produzcan una correlaci—n negativa perfecta, que nos conduce a un coeficiente de correlaci—n r
=1.0 y un coeficiente de determinaci—n r2=1.0. En el ejemplo IV, la asociaci—n produce una correlaci—n negativa m‡s pobre, resultando un coeficiente de correlaci—n r=0.66 y un coeficiente de determinaci—n r2= 0.44. Aqu’, de nuevo, se puede decir, para el ejemplo III que 100% de la variabilidad en Y est‡ acoplada con la variabilidad de X; mientras que en el ejemplo IV, s—lo 44% de la variabilidad de Y est‡ vinculada a la variabilidad de X. Se puede ir m‡s all‡ y decir que las correlaciones perfectas, positivas y negativas, en los ejemplos I y III tienen igual fuerza (ambas con r2=1.0) pero direcci—n opuesta; e igualmente, que las correlaciones m‡s pobres, positivas y negativas de los ejemplos II y IV, tienen igual fuerza (ambas con r2=0.44) pero direcciones opuestas.

   Para ilustrar el siguiente punto en m‡s detalle, nos enfocaremos por un momento en la asociaci—n particular de los valores Xie Yi que produjeron la correlaci—n positiva mostrada en el ejemplo II de la Figura 3.3.

Pareja

Xi

Yi

 

a
b
c
d
e
f

1
2
3
4
5
6

6
2
4
10
12
8



Cuando se realizan los procedimientos de c‡lculo para la correlaci—n lineal y la regresi—n, lo que esencialmente se hace es definir la l’nea recta que mejor ajusta la distribuci—n divariada de los puntos, como se muestra en la siguiente versi—n de la misma gr‡fica. La l’nea es llamada l’nea de regresi—n o recta de regresi—n y el criterio para Òmejor ajusteÓ es que la suma de los cuadrados de las distancias verticales (las l’neas verdes ||||) entre los puntos y la l’nea de regresi—n sean tan peque–os como se pueda.

 

 

 


Sucede que esta l’nea de mejor ajuste, en cada instancia pasar‡ a travŽs del punto en el cual la media de X y la media de Y intersectan la gr‡fica. En el presente ejemplo, la media de X es 3.5 y la media de Y es 7.0. Su punto de intersecci—n ocurre en la convergencia de las dos l’neas grises punteadas.


   Los detalles de esta l’nea –en particular, donde comienza en el eje Y y la tasa a la cual se inclina hacia arriba o hacia abajo- no se dibujar‡ expl’citamente hasta que consideremos el lado de regresi—n de la correlaci—n y la regresi—n. Sin embargo, est‡n presentes impl’citamente cuando se ejecutan los procedimientos de c‡lculo para el lado de correlaci—n de la moneda. Como se indic— arriba, la inclinaci—n de la l’nea hacia arriba o hacia abajo, es lo que determina el signo del coeficiente de correlaci—n (r
), positivo o negativo; y el grado en que los puntos est‡n alineados a lo largo de la l’nea o alejados de ella, determina la fuerza de la correlaci—n (r2).

   Hemos ya encontrado el concepto general de varianza
para el caso en que se describe la variaci—n que existe entre instancias variadas de una œnica variable. La medida de correlaci—n lineal requiere una extensi—n de este concepto para el caso en que se describe la variaci—n conjunta que existe entre instancias divariadas asociadas de dos variables, X e Y, juntas. Hemos ya tocado el concepto general. En la correlaci—n positiva, los valores altos de X tienden a ser asociados con valores altos de Y, y los valores bajos de X tienden a ser asociados con valores bajos de Y. En la correlaci—n negativa es lo opuesto: valores altos de X tienden a ser asociados con valores bajos de Y, y valores bajos de X tienden a ser asociados con valores altos e Y. En ambos casos, la frase Òtienden a ser asociadosÓ es otra forma de decir que la variabilidad en X tiende a ser acoplada con la variabilidad en Y y viceversa –o, brevemente, que X e Y tienden a variar conjuntamente. La medida prima de la tendencia de dos variables, X e Y, que var’an conjuntamente es una cantidad conocida como la covarianza. Sucede que no es necesario ser capaz de calcular la cantidad de covarianza por s’ misma, porque lo que estamos buscando, el c‡lculo de r y r2, puede alcanzarse por medio de un atajo. Sin embargo, se necesitar‡ tener al menos el concepto general de ello; as’ que mantŽngalo en la mente mientras procedemos a travŽs de unos cuantos p‡rrafos que siguen, que la covarianza es una medida del grado en que dos variables X e Y, var’an conjuntamente.


   En su l—gica subyacente, el coeficiente de correlaci—n producto-momento de Pearson descansa en una simple raz—n entre (i) la cantidad de variaci—n conjunta realmente observada entre X e Y, y (ii) la cantidad de variaci—n conjunta que existir’a si X e Y tuvieran una correlaci—n positiva perfecta (100%). As’

 


 

r =

covarianza observada


Covarianza positiva m‡xima posible

 


   A medida que se produce, la cantidad arriba se–alada como Òcovarianza positiva m‡xima posibleÓ est‡ determinada precisamente por las dos varianzas separadas de X e Y. Esto es por la sencilla raz—n de que X e Y pueden covariar, juntas, s—lo en al medida que var’an de manera separada. Si alguna de las dos variables tuviera cero variabilidad (por ejemplo, si los valores Xi fueran todos iguales), entonces claramente no podr’an covariar. Espec’ficamente, la varianza positiva m‡xima posible que puede existir entre dos variables es igual a la media geomŽtrica de las dos varianzas separadas.

Para cualquier conjunto de n valores numŽricos, a, b, c, etc., la media geomŽtrica es la n-Žsima ra’z del producto de esos valores. As’, la media geomŽtrica de a y b ser’a la ra’z cuadrada de axb; la media geomŽtrica de a, b y c, ser’a la ra’z cœbica de axbxc; y as’.



De este modo la relaci—n ahora es

 


 

r =

covarianza observada


sqrt[(varianzaX) x (varianzaY)]

 


 

Recuerde que "sqrt" significa "la ra’z cuadrada de."


   Aunque en principio esta relaci—n involucra dos varianzas y una covarianza, en la pr‡ctica, a travŽs de la magia de la manipulaci—n algebr‡ica, se reduce a algo que es mucho m‡s simple de calcular. En la siguiente formulaci—n se reconocer‡ inmediatamente el significado de SSX
, que es la suma de las desviaciones al cuadrado de X; por extensi—n, ser‡ capaz tambiŽn de reconocer SSY, que es la suma de las desviaciones al cuadrado de Y.

 

Para obtener la f—rmula de abajo a partir de la anterior, necesitar‡ recordar que la varianza (s2) de un conjunto de valores, es simplemente el promedio de sus desviaciones al cuadrado: SS/N.



El tercer tŽrmino, SCXY
, denota una cantidad que llamaremos suma de las co-desviaciones; y como no se puede dudar inferirlo del nombre, es bastante parecido a una suma de desviaciones cuadradas. SSX es la medida prima de variabilidad entre los valores Xi; SSY es la medida prima de variabilidad entre los valores Yi; y SCXY es la medida prima de co-variabilidad de X e Y juntas.

 


 

r =

SCXY


sqrt[SSX x SSY]

 


 

Para entender esta familiaridad, recuerde del cap’tulo 2 lo que se entiende precisamente por el tŽrmino Òdesviaci—nÓ.

 

 


   Para cualquier elemento del conjunto de medidas de la variable X,
    desviaci—nX=Xi 
 MX


De igual forma, para cualquier elemento del conjunto de medidas de la variable Y,

    desviaci—nY=Yi  MY


 

Como probablemente habr‡ adivinado ya, una co-desviaci—n perteneciente a un par particular de valores XY involucra la desviaci—nX del elemento Xi del par y la desviaci—nY del elemento Yi del par. La forma particular en que son reunidos para formar la co-desviaci—n es

 

 


    co-desviaci—nXY = (desviaci—nX) x (desviaci—nY)


 

Y finalmente, la analog’a entre una co-desviaci—n y una desviaci—n cuadrada:

 

 


Para un valor Xi, la desviaci—n cuadrada es
   (desviaci—nX) x (desviaci—nX)


Para un valor Yi es
   (desviaci—nY) x (desviaci—nY)


Y para un par de valores Xi e Yi, la co-desviaci—n es
   (desviaci—nX) x (desviaci—nY)




   Esto deber’a dar un sentido de los conceptos subyacentes. S—lo mantenga en la mente, sin importar la secuencia de c‡lculos que siga cuando calcule el coeficiente de correlaci—n, que lo que est‡ calculando fundamentalmente es la raz—n

 


 

r =

covarianza observada


Covarianza positiva m‡xima posible

 


la cual, para prop—stios de c‡lculo, se reduce a

 


 

r =

SCXY


sqrt[SSX x SSY]

 



   Ahora lo esencial de esto. Aqu’, de nuevo, es la asociaci—n particular de valores Xi and Yi la que produjo la correlaci—n positiva del ejemplo II de la Figura 3.3. Pero ahora los sometemos a un poco de trituraci—n de nœmeros, calculando el cuadrado de cada valor Xi y Yi, junto con el producto cruzado de cada par XiYi. Esos son los elementos que se requerir‡n para el c‡lculo de las tres cantidades sumarias en la f—rmula de arriba: SSX
, SSY, y SSXY.

Par

Xi

Yi

 

Xi2

Yi2

 

XiYi

 

a
b
c
d
e
f

1
2
3
4
5
6

6
2
4
10
12
8

1
4
9
16
25
36

36
4
16
100
144
64

6
4
12
40
60
48

sumas

21

42

91

364

170

 


SSX : suma de las desviaciones cuadradas para valores Xi
   Se vio en el Cap’tulo 2 que la suma de los cuadrados de las desviaciones para un conjunto de valores Xi puede calcularse de acuerdo con la f—rmula de c‡lculo


En el presente ejemplo,
   N=6  [porque hay seis valores Xi]
   
Xi2 = 91
   
Xi = 21
   (
Xi)2 = (21)2 = 441
As’:
   SSX
= 91(441/6) = 17.5


SSY : suma de las desviaciones cuadradas para valores Yi
   De manera similar, la suma de desviaciones cuadradas para un conjunto de Yi puede calcularse de acuerdo con la f—rmula

   


En el presente ejemplo,T
   N = 6  [porque hay seis valores Yi]
   
Yi2 = 364
   
Yi = 42
   (
Yi)2 = (42)2 = 1764
As’:
   SSY
= 364(1764/6) = 70.0


SCXY : suma de las co-desviaciones para valores asociados de Xi e YiT
   Hace un momento observamos que la suma de las co-desviaciones asociadas de valores Xi y Yi es an‡loga a la suma de desviaciones cuadradas para cualquiera de las variables de manera separada. Probablemente ser‡ capaz de ver que esta analog’a tambiŽn se extiende a la f—rmula de c‡lculo para la suma de co-desviaciones:


De nuevo, para el presente ejemplo,T
   N = 6  [porque hay seis pares XiYi]
   Xi = 21
   Yi = 42
   (Xi)(Yi) = 21 x 42 = 882
   (XiYi) = 170
As’:
   SCXY
= 170(882/6) = 23.0



Una vez que se tienen estos preliminares,
   SSX
= 17.5, SSY = 70.0, y SCXY = 23.0
se puede calcular f‡cilmente el coeficiente de correlaci—n como

 


 

r =

SCXY


sqrt[SSX x SSY]

 

 

 

=

23.0


sqrt[17.5 x 70.0]

= +0.66

 


y el coeficiente de determinaci—n como

 


r2 = (+0.66)2 = 0.44



Para estar seguro que se tiene un s—lido entendimiento de estos temas, por favor tome un momento para trabajar a su modo los detalles de la  Tabla 3.1, que le mostrar‡ los datos y c‡lculos de cada uno de los ejemplos de la Figura 3.3. Recuerde que cada ejemplo comienza con los mismos valores de Xi e Yi; s—lo difieren con respecto a c—mo se han asociados esos valores entre s’.


Fin del Cap’tulo 3, Parte 1.
   
Regresar al Inicio de la Parte 1
   
Ir al Cap’tulo 3, Parte 2