Atajo de fórmula de suma de cuadrados

Atajo de fórmula de suma de cuadrados

El cálculo de una varianza muestral o desviación estándar se expresa típicamente como una fracción. El numerador de esta fracción implica una suma de desviaciones al cuadrado de la media. en estadística , la fórmula para esta suma total de cuadrados es

Σ (x i - x̄) 2

aquí el símbolo x̄ se refiere a la media de la muestra, y el símbolo Σ nos dice que sumemos las diferencias al cuadrado (x i - x̄) para todo i .

Si bien esta fórmula funciona para los cálculos, existe una fórmula de acceso directo equivalente que no requiere que primero calculemos la media de la muestra . esta fórmula de acceso directo para la suma de cuadrados es

Σ (x i 2 ) - (Σ x i ) 2 / n

aquí la variable n se refiere al número de puntos de datos en nuestra muestra.

ejemplo de fórmula estándar

Para ver cómo funciona esta fórmula de acceso directo, consideraremos un ejemplo que se calcula utilizando ambas fórmulas. supongamos que nuestra muestra es 2, 4, 6, 8. la media de la muestra es (2 + 4 + 6 + 8) / 4 = 20/4 = 5. ahora calculamos la diferencia de cada punto de datos con la media 5.

  • 2 - 5 = -3
  • 4 - 5 = -1
  • 6 - 5 = 1
  • 8 - 5 = 3

ahora cuadramos cada uno de estos números y los sumamos. (-3) 2 + (-1) 2 + 1 2 + 3 2 = 9 + 1 + 1 + 9 = 20.

ejemplo de fórmula de acceso directo

ahora usaremos el mismo conjunto de datos: 2, 4, 6, 8, con la fórmula de acceso directo para determinar la suma de cuadrados. primero cuadramos cada punto de datos y los sumamos: 2 2 + 4 2 + 6 2 + 8 2 = 4 + 16 + 36 + 64 = 120.

el siguiente paso es sumar todos los datos y cuadrar esta suma: (2 + 4 + 6 + 8) 2 = 400. dividimos esto por el número de puntos de datos para obtener 400/4 = 100.

ahora restamos este número de 120. esto nos da que la suma de las desviaciones al cuadrado es 20. este fue exactamente el número que ya hemos encontrado en la otra fórmula.

¿como funciona esto?

muchas personas simplemente aceptarán la fórmula al pie de la letra y no tienen idea de por qué funciona esta fórmula. Al utilizar un poco de álgebra, podemos ver por qué esta fórmula de acceso directo es equivalente a la forma estándar y tradicional de calcular la suma de las desviaciones al cuadrado.

aunque puede haber cientos, si no miles de valores en un conjunto de datos del mundo real, asumiremos que solo hay tres valores de datos: x 1 , x 2 , x 3 . lo que vemos aquí podría ampliarse a un conjunto de datos que tiene miles de puntos.

comenzamos señalando que (x 1 + x 2 + x 3 ) = 3 x̄. la expresión Σ (x i - x̄) 2 = (x 1 - x̄) 2 + (x 2 - x̄) 2 + (x 3 - x̄) 2 .

ahora usamos el hecho del álgebra básica de que (a + b) 2 = a 2 + 2ab + b 2 . Esto significa que (x 1 - x̄) 2 = x 1 2 -2x 1 x̄ + x̄ 2 . Hacemos esto para los otros dos términos de nuestra suma y tenemos:

x 1 2 -2x 1 x̄ + x̄ 2 + x 2 2 -2x 2 x̄ + x̄ 2 + x 3 2 -2x 3 x̄ + x̄ 2 .

reorganizamos esto y tenemos:

x 1 2 + x 2 2 + x 3 2 + 3x̄ 2 - 2x̄ (x 1 + x 2 + x 3 ).

reescribiendo (x 1 + x 2 + x 3 ) = 3x̄ lo anterior se convierte en:

x 1 2 + x 2 2 + x 3 2 - 3x̄ 2 .

ahora desde 3x 2 = (x 1 + x 2 + x 3 ) 2 /3, nuestra fórmula se convierte en:

x 1 2 + x 2 2 + x 3 2 - (x 1 + x 2 + x 3 ) 2 /3

y este es un caso especial de la fórmula general que se mencionó anteriormente:

Σ (x i 2 ) - (Σ x i ) 2 / n

¿Es realmente un atajo?

Puede parecer que esta fórmula no es realmente un atajo. Después de todo, en el ejemplo anterior parece que hay tantos cálculos. parte de esto tiene que ver con el hecho de que solo miramos un tamaño de muestra que era pequeño.

A medida que aumentamos el tamaño de nuestra muestra, vemos que la fórmula de acceso directo reduce el número de cálculos a la mitad. no necesitamos restar la media de cada punto de datos y luego cuadrar el resultado. Esto reduce considerablemente el número total de operaciones.



Continuar Leyendo >

Articulos relacionados a la energia