El c谩lculo de una varianza muestral o desviaci贸n est谩ndar se expresa t铆picamente como una fracci贸n. El numerador de esta fracci贸n implica una suma de desviaciones al cuadrado de la media. en estad铆stica , la f贸rmula para esta suma total de cuadrados es
危 (x i - x虅) 2
aqu铆 el s铆mbolo x虅 se refiere a la media de la muestra, y el s铆mbolo 危 nos dice que sumemos las diferencias al cuadrado (x i - x虅) para todo i .
Si bien esta f贸rmula funciona para los c谩lculos, existe una f贸rmula de acceso directo equivalente que no requiere que primero calculemos la media de la muestra . esta f贸rmula de acceso directo para la suma de cuadrados es
危 (x i 2 ) - (危 x i ) 2 / n
aqu铆 la variable n se refiere al n煤mero de puntos de datos en nuestra muestra.
ejemplo de f贸rmula est谩ndar
Para ver c贸mo funciona esta f贸rmula de acceso directo, consideraremos un ejemplo que se calcula utilizando ambas f贸rmulas. supongamos que nuestra muestra es 2, 4, 6, 8. la media de la muestra es (2 + 4 + 6 + 8) / 4 = 20/4 = 5. ahora calculamos la diferencia de cada punto de datos con la media 5.
- 2 - 5 = -3
- 4 - 5 = -1
- 6 - 5 = 1
- 8 - 5 = 3
ahora cuadramos cada uno de estos n煤meros y los sumamos. (-3) 2 + (-1) 2 + 1 2 + 3 2 = 9 + 1 + 1 + 9 = 20.
ejemplo de f贸rmula de acceso directo
ahora usaremos el mismo conjunto de datos: 2, 4, 6, 8, con la f贸rmula de acceso directo para determinar la suma de cuadrados. primero cuadramos cada punto de datos y los sumamos: 2 2 + 4 2 + 6 2 + 8 2 = 4 + 16 + 36 + 64 = 120.
el siguiente paso es sumar todos los datos y cuadrar esta suma: (2 + 4 + 6 + 8) 2 = 400. dividimos esto por el n煤mero de puntos de datos para obtener 400/4 = 100.
ahora restamos este n煤mero de 120. esto nos da que la suma de las desviaciones al cuadrado es 20. este fue exactamente el n煤mero que ya hemos encontrado en la otra f贸rmula.
驴como funciona esto?
muchas personas simplemente aceptar谩n la f贸rmula al pie de la letra y no tienen idea de por qu茅 funciona esta f贸rmula. Al utilizar un poco de 谩lgebra, podemos ver por qu茅 esta f贸rmula de acceso directo es equivalente a la forma est谩ndar y tradicional de calcular la suma de las desviaciones al cuadrado.
aunque puede haber cientos, si no miles de valores en un conjunto de datos del mundo real, asumiremos que solo hay tres valores de datos: x 1 , x 2 , x 3 . lo que vemos aqu铆 podr铆a ampliarse a un conjunto de datos que tiene miles de puntos.
comenzamos se帽alando que (x 1 + x 2 + x 3 ) = 3 x虅. la expresi贸n 危 (x i - x虅) 2 = (x 1 - x虅) 2 + (x 2 - x虅) 2 + (x 3 - x虅) 2 .
ahora usamos el hecho del 谩lgebra b谩sica de que (a + b) 2 = a 2 + 2ab + b 2 . Esto significa que (x 1 - x虅) 2 = x 1 2 -2x 1 x虅 + x虅 2 . Hacemos esto para los otros dos t茅rminos de nuestra suma y tenemos:
x 1 2 -2x 1 x虅 + x虅 2 + x 2 2 -2x 2 x虅 + x虅 2 + x 3 2 -2x 3 x虅 + x虅 2 .
reorganizamos esto y tenemos:
x 1 2 + x 2 2 + x 3 2 + 3x虅 2 - 2x虅 (x 1 + x 2 + x 3 ).
reescribiendo (x 1 + x 2 + x 3 ) = 3x虅 lo anterior se convierte en:
x 1 2 + x 2 2 + x 3 2 - 3x虅 2 .
ahora desde 3x 2 = (x 1 + x 2 + x 3 ) 2 /3, nuestra f贸rmula se convierte en:
x 1 2 + x 2 2 + x 3 2 - (x 1 + x 2 + x 3 ) 2 /3
y este es un caso especial de la f贸rmula general que se mencion贸 anteriormente:
危 (x i 2 ) - (危 x i ) 2 / n
驴Es realmente un atajo?
Puede parecer que esta f贸rmula no es realmente un atajo. Despu茅s de todo, en el ejemplo anterior parece que hay tantos c谩lculos. parte de esto tiene que ver con el hecho de que solo miramos un tama帽o de muestra que era peque帽o.
A medida que aumentamos el tama帽o de nuestra muestra, vemos que la f贸rmula de acceso directo reduce el n煤mero de c谩lculos a la mitad. no necesitamos restar la media de cada punto de datos y luego cuadrar el resultado. Esto reduce considerablemente el n煤mero total de operaciones.