«¡Una Guinness, por favor!» le dice un cliente al camarero, quien voltea un vaso de pinta con la marca y lo atrapa debajo del grifo. El camarero comienza un proceso de vertido de varios pasos que dura exactamente 119,5 segundos, lo que, ya sea un truco de marketing o una maravilla de la ingeniería alcohólica, se ha convertido en un ritual querido en los pubs irlandeses de todo el mundo. El resultado: una rica cerveza negra con una capa de espuma perfecta como un batido terroso.
La cervecería Guinness ha sido conocida por sus métodos innovadores desde que su fundador Arthur Guinness firmó un contrato de arrendamiento de 9.000 años en Dublín por 45 libras esterlinas al año. Por ejemplo, un matemático convertido en cervecero inventó allí una técnica química después de cuatro años de retoques que le da a la cerveza negra homónima su espuma aterciopelada. El método, que consiste en añadir gas nitrógeno a barriles y a bolitas dentro de latas de Guinness, dio lugar a las muy populares bebidas «nitro» de hoy en día para cerveza y café.
Pero la innovación más influyente que ha surgido de la cervecería, con diferencia, no tiene nada que ver con la cerveza. Fue el lugar de nacimiento de el t-pruebauno de los mas importantes técnicas estadísticas en toda la ciencia. Cuando los científicos declaran que sus hallazgos son «estadísticamente significativos», muy a menudo utilizan una t-prueba para tomar esa determinación. ¿Cómo funciona esto y por qué se originó precisamente en la elaboración de cerveza?
Sobre el apoyo al periodismo científico
Si está disfrutando este artículo, considere apoyar nuestro periodismo galardonado al suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.
A principios del siglo XX, Guinness había estado en funcionamiento durante casi 150 años y destacaba sobre sus competidores como la cervecería más grande del mundo. Hasta entonces, el control de calidad de sus productos consistía en pruebas oculares y de olfato. Pero las demandas de la expansión global motivaron a los líderes de Guinness a renovar su enfoque para lograr coherencia y rigor de grado industrial. La empresa contrató a un equipo de cerebritos y les dio libertad para realizar preguntas de investigación al servicio de la bebida perfecta. La cervecería se convirtió en un centro de experimentación para responder a una serie de preguntas: ¿De dónde vienen las mejores variedades de cebada ¿crecer? ¿Cuál es el nivel ideal de sacarina en el extracto de malta? ¿Cuánto aumentó las ventas la última campaña publicitaria?
En medio de la oleada de energía científica, el equipo enfrentó un problema persistente: interpretar sus datos frente a muestras de tamaño pequeño. Un desafío al que se enfrentaron los cerveceros tiene que ver con las flores de lúpulo, ingredientes esenciales en Guinness que imparten un sabor amargo y actúan como conservante natural. Para evaluar la calidad del lúpulo, los cerveceros midieron el contenido de resina blanda en las plantas. Digamos que consideraron que el 8 por ciento era un valor bueno y típico. Sin embargo, probar cada flor del cultivo no era económicamente viable. Entonces hicieron lo que haría cualquier buen científico y probaron muestras aleatorias De flores.
Inspeccionemos un ejemplo inventado. Supongamos que medimos el contenido de resina blanda en nueve muestras y, debido a que las muestras varían, observamos un rango de valores del 4 al 10 por ciento, con un promedio del 6 por ciento: demasiado bajo. ¿Eso significa que deberíamos tirar la cosecha? La incertidumbre surge de dos posibles explicaciones para las bajas mediciones. O el cultivo realmente contiene un contenido de resina blanda inusualmente bajo, o aunque el muestras contienen niveles bajos, la cosecha completa en realidad está bien. El objetivo de tomar muestras aleatorias es confiar en ellas como fieles representantes de toda la cosecha, pero tal vez tuvimos mala suerte al elegir muestras con niveles inusualmente bajos. (Después de todo, solo probamos nueve). En otras palabras, ¿deberíamos considerar los niveles bajos en nuestras muestras significativamente diferentes del 8 por ciento o de la mera variación natural?
Este dilema no es exclusivo de la elaboración de cerveza. Más bien, impregna toda investigación científica. Supongamos que en un ensayo médico, tanto el grupo de tratamiento como el grupo de placebo mejoran, pero al grupo de tratamiento le va un poco mejor. ¿Eso proporciona motivos suficientes para recomendar el medicamento? ¿Qué pasaría si te dijera que ambos grupos en realidad recibieron dos placebos diferentes? ¿Estaría usted tentado a concluir que el placebo del grupo con mejores resultados debe tener propiedades medicinales? ¿O podría ser que cuando haces un seguimiento de un grupo de personas, algunas de ellas mejoren naturalmente, a veces un poco y a veces mucho? Una vez más, esto se reduce a una cuestión de significancia estadística.
La teoría que subyace a estas preguntas perennes en el ámbito de las pequeñas empresas tamaños de muestra no se había desarrollado hasta que Guinness entró en escena; específicamente, no hasta que William Sealy Gosset, jefe cervecero experimental de Guinness a principios del siglo XX, inventó el t-prueba. El concepto de significación estadística es anterior a Gosset, pero los estadísticos anteriores trabajaron en el régimen de tamaños de muestra grandes. Para apreciar por qué es importante esta distinción, debemos comprender cómo se determinaría la significancia estadística.
Recuerde, las muestras de lúpulo en nuestro escenario tienen un contenido promedio de resina blanda del 6 por ciento, y queremos saber si el promedio en la cosecha completa realmente difiere del 8 por ciento deseado o si simplemente tuvimos mala suerte con nuestra muestra. Entonces haremos la pregunta: ¿Qué es la probabilidad ¿Qué observaríamos un valor tan extremo (6 por ciento) si la cosecha completa fuera de hecho típica (con un promedio de 8 por ciento)? Tradicionalmente, si esta probabilidad, llamada PAG valor, se encuentra por debajo de 0,05, entonces consideramos que la desviación es estadísticamente significativa, aunque diferentes aplicaciones requieren diferentes umbrales.
A menudo, dos factores separados afectan la PAG Valor: qué tan lejos se desvía una muestra de lo que se espera en una población y qué tan comunes son las grandes desviaciones. Piense en esto como un tira y afloja entre la señal y el ruido. La diferencia entre nuestra media observada (6 por ciento) y la deseada (8 por ciento) proporciona la señal: cuanto mayor sea esta diferencia, más probable es que el cultivo realmente tenga un bajo contenido de resina blanda. La desviación estándar entre las flores genera el ruido. La desviación estándar mide qué tan dispersos están los datos alrededor de la media; los valores pequeños indican que los datos se sitúan cerca de la media y los valores más grandes implican una variación más amplia. Si el contenido de resina blanda suele fluctuar mucho entre los cogollos (en otras palabras, tiene una desviación estándar alta), entonces tal vez el promedio del 6 por ciento en nuestra muestra no debería preocuparnos. Pero si las flores tienden a mostrar consistencia (o una desviación estándar baja), entonces el 6 por ciento puede indicar una desviación real del 8 por ciento deseado.
Para determinar un PAG valor en un mundo ideal, comenzaríamos calculando la relación señal-ruido. Cuanto mayor sea esta proporción, más confianza tendremos en la importancia de nuestros hallazgos porque una proporción alta indica que hemos encontrado una desviación verdadera. Pero, ¿qué se considera señal-ruido alta? Para considerar que un 6 por ciento es significativamente diferente de un 8 por ciento, queremos saber específicamente cuándo la relación señal-ruido es tan alta que sólo tiene un 5 por ciento de posibilidades de ocurrir en un mundo donde un contenido de resina del 8 por ciento es la norma. Los estadísticos de la época de Gosset sabían que si se realizara un experimento muchas veces, se calculara la relación señal-ruido en cada uno de esos experimentos y se representaran gráficamente los resultados, esa gráfica se parecería a una “distribución normal estándar”.la familiar curva de campana. Debido a que la distribución normal se comprende y documenta bien, puede buscar en una tabla qué tan grande debe ser la proporción para alcanzar el umbral del 5 por ciento (o cualquier otro umbral).
Gosset reconoció que este enfoque sólo funcionaba con muestras de gran tamaño, mientras que muestras pequeñas de lúpulo no garantizarían esa distribución normal. Así que tabuló meticulosamente nuevas distribuciones para muestras de menor tamaño. Ahora conocido como t-distribuciones, estas gráficas se parecen a la distribución normal en que tienen forma de campana, pero las curvas de la campana no caen tan bruscamente. Eso se traduce en la necesidad de una relación señal-ruido aún mayor para concluir que es significativo. Su t-test nos permite hacer inferencias en entornos donde antes no podíamos.
El consultor matemático John D. Cook reflexionó sobre su blog en 2008 que tal vez no debería sorprendernos que la t-La prueba se originó en una cervecería y no, digamos, en una bodega. Los cerveceros exigen consistencia en su producto, mientras que los viticultores disfrutan de la variedad. Los vinos tienen «buenos años» y cada botella cuenta una historia, pero lo que se desea es que cada trago de Guinness ofrezca el mismo sabor característico. En este caso, la uniformidad inspiró la innovación.
Gosset resolvió muchos problemas en la cervecería con su nueva técnica. El estadístico autodidacta publicó su t-prueba bajo el seudónimo de “Estudiante” porque Guinness no quería avisar a sus competidores sobre su investigación. Aunque Gosset fue pionero en el control de calidad industrial y aportó muchas otras ideas a la investigación cuantitativa, la mayoría de los libros de texto todavía llaman a su gran logro el «El libro del estudiante». t-prueba.» Puede que la historia haya descuidado su nombre, pero él podría estar orgulloso de que el t-test es una de las herramientas estadísticas más utilizadas en la ciencia hasta el día de hoy. Quizás su logro pertenezca a Records Mundiales Guinness (cuya idea fue ideada por el director general de Guinness en la década de 1950). Saludos por eso.