: Cuando la habilidad no es suficiente
Estás viendo a tu equipo dominar la posesión, duplicar la cantidad de tiros … y aún perder. ¿Es solo mala suerte?
Los fanáticos culpan a los árbitros. Los jugadores culpan a “días libres”. Los entrenadores mencionan “impulso”. Pero, ¿qué pasa si le dijimos que la aleatoriedad, no talento o tácticas, debe ser una gran variable oculta en los resultados deportivos?
Esta publicación se sumerge profundamente en Cómo la suerte influye en los deportescómo podemos intentar cuantificar la aleatoriedad utilizando datos y cómo la ciencia de datos nos ayuda a separar la habilidad del azar.
Entonces, como siempre, aquí hay un resumen rápido de lo que pasaremos hoy:
- Definición de la suerte en los deportes
- Midiendo la suerte
- Estudio de caso
- Momentos de aleatoriedad famosos
- ¿Qué pasaría si pudiéramos eliminar la suerte?
- Pensamientos finales
Definición de la suerte en los deportes
Esto podría ser controvertido, ya que diferentes personas podrían definirlo de manera diferente y todas las interpretaciones serían igualmente aceptables. Aquí está el mío: la suerte en los deportes se trata de diferencia y incertidumbre.
En otros términos, podríamos decir que la suerte es toda la varianza en los resultados no explicados por la habilidad.
Ahora, para los compañeros científicos de datos, otra forma de decirlo: la suerte es el ruido residual que nuestros modelos no pueden explicar ni predecir adecuadamente (el modelo podría ser un partido de fútbol, por ejemplo). Aquí hay algunos ejemplos:
- Un disparo de mortal vacío golpeando el poste en lugar de entrar.
- Un cable de la red de tenis que cambia la dirección de la pelota.
- Una controvertida decisión var.
- Una victoria en el cricket o el fútbol americano.
La suerte está en todas partes, no estoy descubriendo nada nuevo aquí. ¿Pero podemos medirlo?
Midiendo la suerte
Podríamos medir la suerte de muchas maneras, pero visitaremos tres que van de lo básico a avanzado.
Residuos de regresión
Por lo general, nos centramos en modelar los resultados esperados de un evento: HWO muchos goles tendrán un puntaje de equipo, que será la diferencia puntual entre dos equipos de la NBA …
No existe un modelo perfecto y no es realista apuntar a un modelo de 100%de aceptación, todos lo sabemos. Pero es precisamente esa diferencia, lo que separa nuestro modelo de uno perfecto, lo que podemos definir como residuos de regresión.
Veamos un ejemplo muy simple: queremos predecir el puntaje final de un partido de fútbol (fútbol). Utilizamos métricas como XG, Possession %, Home Advantage, Metrics de jugadores … y nuestro modelo predice que el equipo local anotará 3.1 goles y el marcador del visitante mostrará un 1.2 (obviamente, tendríamos que redondearlos porque los goles son integers en partidos reales).
Sin embargo, el resultado final es 1-0 (en lugar de 3.1-1.2 o el 3-1 redondeado). Este ruido, la diferencia entre el resultado y nuestra predicción, es el componente de la suerte Estamos hablando de.
El objetivo siempre será que nuestros modelos reduzcan este componente de suerte (error), pero también podríamos usarlo para clasificar a los equipos por rendimiento excesivo frente a esperado, por lo que los equipos están más afectados por la suerte (según nuestro modelo).
Método de Monte Carlo
Por supuesto, MC tuvo que aparecer en esta publicación. Ya tengo una publicación que profundiza más (bueno, más específicamente en Cadena de Markov Monte Carlo) Pero lo presentaré de todos modos.
El Monte Carlo El método o las simulaciones consiste en el uso de números de muestreo repetidamente para obtener resultados numéricos en forma de probabilidad de un rango de resultados de ocurrencia.
Básicamente, se usa para estimar o aproximar los posibles resultados o distribución de un evento incierto.
Para seguir con nuestro Deportes Ejemplos, digamos que un jugador de baloncesto dispara con precisión el 75% desde la línea de tiros libres. Con este porcentaje, podríamos simular 10,000 temporadas suponiendo que cada jugador mantenga el mismo nivel de habilidad y genere resultados de partidos estocásticamente.
Con los resultados, podríamos comparar los resultados predichos basados en habilidades con las distribuciones simuladas. Si vemos que el récord real de FT% del equipo se encuentra fuera del 95% del rango de simulación, entonces eso probablemente sea suerte (bueno o malo dependiendo del extremo en el que se encuentran).
Inferencia bayesiana
Con mucho, mi forma favorita de medir la suerte debido a la capacidad de los modelos bayesianos para separar la habilidad subyacente de un rendimiento ruidoso.
Supongamos que estás en un equipo de exploración de fútbol y estás revisando a un delantero muy joven del mejor equipo de la Liga Noruega local. Estás particularmente interesado en su conversión de objetivos, porque eso es lo que tu equipo necesita, y ves que marcó 9 goles en los últimos 10 juegos. ¿Es élite? ¿O afortunado?
Con un bayesiano anterior (por ejemplo, tasa de conversión promedio = 15%), actualizamos nuestra creencia después de cada partido y terminamos teniendo una distribución posterior que muestra si su rendimiento es sosteniblemente por encima del promedio o una casualidad.
Si desea entrar en el tema de la inferencia bayesiana, escribí una publicación tratando de predecir la Liga de Campeones de la temporada pasada usando estos métodos: https://towardsdatascience.com/using-bayesian-modeling-to-predict-the-champions-league-8ebb069006ba/
Estudio de caso
Vamos a ensuciarnos las manos.
El escenario es el siguiente: tenemos una temporada de remolinos redondo entre 6 equipos donde cada equipo se jugaba dos veces (en casa y lejos), cada partido generó goles esperados (XG) para ambos equipos y los objetivos reales se tomaron muestras de una distribución de Poisson alrededor de XG:
| Hogar | Lejos | xg casa | xg lejos | Meta a casa | Objetivos |
|---|---|---|---|---|---|
| Equipo A | Equipo B | 1.65 | 1.36 | 2 | 0 |
| Equipo B | Equipo A | 1.87 | 1.73 | 0 | 2 |
| Equipo A | Equipo C | 1.36 | 1.16 | 1 | 1 |
| Equipo C | Equipo A | 1.00 | 1.59 | 0 | 1 |
| Equipo A | Equipo D | 1.31 | 1.38 | 2 | 1 |
Manteniendo el lugar donde nos fuimos en la sección anterior, estimemos el verdadera capacidad de gol de objetivos de cada equipo y vea cuánto le diverge su rendimiento real, que interpretaremos como Suerte o varianza.
Usaremos un modelo bayesiano de Poisson:
- Sea λₜ la tasa de puntuación de objetivos latentes para cada equipo.
- Entonces nuestro anterior es λₜ ∼ gamma (α, β)
- Y asumimos los objetivos ∼ Poisson (λₜ), actualizando las creencias sobre λₜ usando los objetivos reales obtenidos en los partidos.
λₜ | Datos ∼ gamma (α+objetivos totales, β+coincidencias totales)
Correcto, ahora necesitamos decidir nuestros valores para α y β:
- Mi creencia inicial (sin mirar ningún dato) es que la mayoría de los equipos obtienen alrededor de 2 goles por partido. También sé que en una distribución gamma, la media se calcula usando α/β.
- Pero no tengo mucha confianza, por lo que quiero que la desviación estándar sea relativamente alta, por encima de 1 objetivo ciertamente. Nuevamente, en una distribución gamma, la desviación estándar se calcula a partir de √α/β.
Resolviendo las ecuaciones simples que surgen de estos razonamientos, encontramos que α = 2 y β = 1 son probablemente buenas suposiciones previas.
Con eso, si ejecutamos nuestro modelo, obtenemos los próximos resultados:
| Equipo | Juegos jugados | Total objetivos | Media posterior (λ) | ETS posterior | Media observada | Suerte (OBS – Post) |
|---|---|---|---|---|---|---|
| Equipo A | 10 | 14 | 1.45 | 0.36 | 1.40 | −0.05 |
| Equipo D | 10 | 13 | 1.36 | 0.35 | 1.30 | −0.06 |
| Equipo E | 10 | 12 | 1.27 | 0.34 | 1.20 | −0.07 |
| Equipo F | 10 | 10 | 1.09 | 0.31 | 1.00 | −0.09 |
| Equipo B | 10 | 9 | 1.00 | 0.30 | 0.90 | −0.10 |
| Equipo C | 10 | 9 | 1.00 | 0.30 | 0.90 | −0.10 |
¿Cómo los interpretamos?
- Todos los equipos tenían un rendimiento ligeramente inferior a sus expectativas posteriores, comunes en temporadas cortas debido a la varianza.
- Equipo B y Equipo C tenía la mayor brecha negativa de “suerte”: su puntuación real fue 0.10 goles por juego más bajos que la estimación bayesiana.
- Equipo A fue más cercano a su fuerza predicha, el equipo más de “suerte neutral”.
Este fue un ejemplo falso usando datos falsos, pero apuesto a que ya puede sentir su poder.
Ahora revisemos algunos momentos de aleatoriedad histórica en el mundo de los deportes.
Momentos de aleatoriedad famosos
Cualquier fanático de la NBA recuerda el Finales de 2016. Es el Juego 7, Cleveland juega en Warriors ‘, y están empatados en 89 con menos de un minuto restante. Kyrie Irving se enfrenta a Stephen Curry y golpea un embrague memorable 3. Entonces, los Cavaliers ganan las finales.
¿Fue esta habilidad o suerte? Kyrie es una jugadora superior, y probablemente también un buen tirador. Pero con la oposición que tenía, la presión y la presión del marcador … simplemente no podemos saber cuál era.
Moviéndose ahora al fútbol, nos enfocamos ahora en el Semis de la Liga de Campeones 2019Liverpool vs Barcelona. Este es personalmente hiriente. El Barça ganó el partido de ida en casa 3-0, pero perdió 4-0 en el Liverpool en el segundo tramo, dando a los Rojos la opción de avanzar a la final.
¿El sobrevendor del Liverpool? ¿O una anomalía estadística?
Un último ejemplo: NFL Moned Show OT Wins. Todos los resultados de los playoffs se deciden por un escenario simple 50/50 donde la moneda (suerte) tiene todo el poder de decidir.
¿Qué pasaría si pudiéramos eliminar la suerte?
¿Podemos eliminar la suerte? La respuesta es un claro no.
Sin embargo, ¿por qué tantos estamos tratando de hacerlo? Para los profesionales está claro: esta incertidumbre afecta el rendimiento. Cuanto más control pueda tener sobre todo, más podremos optimizar nuestros métodos y estrategias.
Más certeza (menos suerte), significa más dinero.
Y legítimamente lo estamos haciendo: la suerte no es removible, pero podemos disminuirlo. Es por eso que construimos modelos XG complejos, o construimos modelos de apuestas con razonamiento probabilístico.
Pero los deportes están destinados a ser impredecibles. Eso es lo que los hace emocionantes para el espectador. La mayoría no vería un juego si ya supiéramos el resultado.
Pensamientos finales
Hoy tuvimos la oportunidad de hablar sobre el papel de la suerte en los deportes, que es masivo. Comprenderlo podría ayudar a los fanáticos a evitar exagerarse. Pero también podría ayudar a la exploración y la gestión del equipo, o informar las decisiones de apuestas más inteligentes o la liga de fantasía.
En general, debemos saber que el mejor equipo no siempre gana, pero los datos pueden decirnos con qué frecuencia deberían haberlo hecho.