Lo que podemos y no podemos concluir
de la significancia de una prueba estadística.
Cuando hablamos de ciencia de datos básicamente nos referimos a reunir información y testar hipótesis de forma tal que nos permita estimar cuán probable es que algo sea cierto.
La investigación o la aproximación científica a un problema nos dará evidencias sobre la probabilidad de que se produzca un fenómeno y resulta muy útil a la hora de superar las limitaciones del juicio humano. En este sentido, como hemos comentado en otro artículo, nuestro cerebro está diseñado para establecer conexiones entre distintos sucesos, dándoles un sentido. Esto es así como parte de nuestro proceso evolutivo para garantizar nuestra supervivencia.
El problema es que en demasiadas ocasiones encontramos patrones en hechos o sucesos que son completamente independientes o que son producto del azar aunque a priori parezca que esa asociación tenga sentido.
Coincidencia: cómo detectarla
Una de las limitaciones del juicio humano que la ciencia en general debe superar es la coincidencia: ¿Puede nuestra observación de un fenómeno ser simplemente fruto del azar o la suerte o es genuina, es decir, hay un determinado patrón detrás?. ¿Las diferencias en porcentajes que hay entre diferentes departamentos son por casualidad o hay algo más?.
Para poder responder a esta pregunta mediante el método científico, comenzamos basándonos en nuestras observaciones, a continuación formulamos una hipótesis y posteriormente testamos dicha hipótesis realizando un experimento o un análisis detallado. Dependiendo del valor obtenido de un parámetro denominado «p» o «p-value», podremos determinar si la existencia de diferencias son probablemente debidas al azar o no.
Significancia estadística: valor “p”
El p-value es un concepto ampliamente usado en todas las áreas de investigación que requieren de la estadística para validar sus resultados.
En 1925 el estadístico Ronald Fisher propuso la probabilidad de significación, como una especie de indicador que permitiría evaluar la significación de los resultados. Fisher sugirió que el límite o umbral que deberíamos aceptar debería establecerse en un 5% (1 sobre 20).
Dicho umbral fue más tarde denominado como el nivel de significancia y su correspondiente probabilidad (p) como p-value. Fisher argumentó que si el valor de p o p-value era superior a 0,05 (5%), entonces la probabilidad de que el resultado de un estudio o experimento fuese resultado de la suerte o el azar debería considerarse como demasiado elevado.
El valor «p» o «p-value» en la práctica: un ejemplo
Nuestra empresa del sector financiero y con presencia internacional, cuenta con un total de 1.653 empleados repartidos entre los siguientes países:

El número de empleados que se han ido durante el pasado año, calculado en forma de porcentaje sobre el total de los empleados, ha sido de un 12,8% o 211 empleados.

El analista de datos ha calculado las diferentes cifras de rotación distinguiendo la filial o país y la tabla resumen es la siguiente:

Observamos -cifras en rojo- que en las diferentes filiales de nuestra empresa hay unas diferencias, en algunos casos considerables, en las tasas de rotación del pasado año.
La cifra media de la empresa es del 12,8% pero hay filiales, como la de Suecia, en la que la cifra aumenta hasta el 22,2% o la de Italia, también por encima del 20%. Las variaciones en estas cifras pueden llevarnos a pensar que un país con una rotación del 22% se enfrenta a un problema serio, especialmente cuando se compara con la cifra media.
Sin embargo, factores aleatorios globales pueden influir en la tasa de cada país y es esperable ciertas diferencias entre éstos; de lo que se trata es de averiguar si dichas diferencias son estadísticamente significativas (en el sentido de que puede haber «algo» ¿un patrón? que explique o que cause la variación entre los países).
Hipótesis de investigación
El analista de datos plantea las siguientes hipótesis a probar:
Hipótesis nula (H0) : «Las diferencias entre los diferentes países se deben probablemente a simple azar, a circunstancias aleatorias»
Hipótesis alternativa (Ha ): » La probabilidad de que las diferencias observadas entre los países no sean aleatorias, nos invitan a creer que hay una causas detrás o patrón que se debe analizar.»
¿Cómo sabemos cuál de las hipótesis es más probable?
Aquí es donde vuelve a aparecer Fisher, el cual planteó un umbral aproximado del 5% o 0,05 del valor de o o «p-value» el cual, en este caso, se calcula mediante un test estadístico denominado chi-square o prueba de χ².

Como podemos ver, el valor de significancia «p» o «p-value» es de 0,105. Como hemos comentado anteriormente, Fisher planteó un umbral del 5% o 0,05, tal que si el valor de p o p-value era superior a 0,05 (5%), entonces la probabilidad de que el resultado de un estudio o experimento fuese resultado de la suerte o el azar debería considerarse como demasiado elevado.
En nuestro caso, 0,105 > 0,05, es decir, es mayor que 5%, con lo cual, podemos decir que, aunque las diferencias entre las diferentes cifras de rotación parezcan elevadas, lo más probable es que sean debidas a circunstancias totalmente aleatorias.
¡Una última aclaración importante!
Fisher adevrtía que este indicador debía ser utilizado con flexibilidad dentro de los procesos complejos de descripción e inferencia de la investigación científica. El p-value debía ser combinado con otras fuentes de información sobre el fenómeno en estudio y en caso de utilizar un umbral para evaluar significación, éste debía ser flexible y depender del conocimiento acumulado sobre el fenómeno en estudio. La significancia estadística no debe obviar la relevancia práctica, como explicamos en este otro artículo.
