Predicciones de locura de marzo basada en datos | Hacia la ciencia de los datos

La locura es infamemente impredecibleuna tormenta perfecta donde los favoritos caen y los desvalidos se elevan para hacer lo imposible. Cada marzo, 64 hombres y 64 mujeres Baloncesto universitario Los equipos luchan por la gloria, mientras que millones de fanáticos, analistas y mercados de apuestas se apresuran a predecir los resultados. ¿Pero las probabilidades de elegir un soporte perfecto? 1 en 9.2 Quintillón (9 mil millones de miles de millones). Incluso si eres un experto en baloncesto, tus posibilidades apenas mejoran, tal vez 1 de cada 120 mil millones. En toda la historia del torneo, nadie lo ha hecho 100% correcto, el récord es de 49 juegos hasta el primer error. Cuando una invitación a una piscina de Madness de March aterrizó en mi bandeja de entrada, me sentí completamente perdido. Como un tipo holandés que vivía en los Estados Unidos, no tenía idea de quiénes eran los equipos y tuve que hacer un curso de accidente sobre cómo funcionó el torneo. Pero hay una cosa que sí sé: codificar.

Encontrar los datos correctos

Diferentes fuentes ofrecen diferentes formas de medir la fuerza del equipo, cada una con sus métodos. Algunas de las fuentes más utilizadas son; Calificaciones de Kenpom, Las predicciones FivethirtyEight de Nate Silverel Clasificación de la NCAA y estadísticas de equipoo incluso Vegas probabilidades y mercados de apuestas. Este último es una predicción interesante del juego, ya que tiene en cuenta un gran sentimiento diferente, ya sea solo del público o los expertos.

Cada una de estas fuentes tiene fortalezas y debilidades, algunas son más pesadas en los métodos estadísticos e incluso combinan varias fuentes de datos, por ejemplo, plata, mientras que otros usan la información de la temporada sin procesar y las tendencias históricas. Comprender estas diferencias entre las fuentes es clave al decidir qué números confiar en las predicciones de su soporte.

Antes de sumergirse en las métricas clave, es importante reconocer una limitación fundamental: en un mundo ideal, un modelo totalmente optimizado incorporaría estadísticas de juegos individuales de la temporada pasada, datos de rendimiento del jugador y tendencias históricas. Desafortunadamente, no tengo acceso a ese nivel de datos granulares, y de forma, ya que este es solo un proyecto divertido, no quiero hacer las cosas demasiado complicadas. En cambio, tuve que confiar en mi propio cerebro y utilizar proxies basados en los datos de clasificación de Kenpom. La gran pregunta sigue siendo: ¿Qué tan bien funcionará este modelo? No hago afirmaciones de que será perfecto. De hecho, la única certeza en Madura de marzo es que Estará mal. Pero al menos, este modelo proporciona una forma estructurada y basada en datos para tomar mejores decisiones, incluso con mi conocimiento limitado de los equipos de baloncesto universitario.

Las métricas clave para desbloquear un soporte ganador

Al construir un modelo predictivo para la locura de March, el desafío es decidir qué estadísticas realmente importan. No todas las estadísticas son importantes, algunos proporcionan una visión más profunda del rendimiento del equipo, mientras que otras son solo confusión. Para equilibrar el poder predictivo con simplicidad, seleccioné un puñado de métricas clave que capturan la fuerza general del equipo, la consistencia y el potencial para las molestias. Estos incluyen clasificaciones de eficiencia, suerte, impulso, tempo y volatilidad, cada uno juega un papel crucial en la simulación de resultados realistas del torneo.

Eficiencia del equipo (clasificaciones netas y calificaciones ajustadas)

Calificación neta: Esta es la diferencia entre un equipo Calificación ofensiva Y es Calificación defensiva. Esta métrica me da una medida de la fuerza general del equipo Kenpom calcula esto al calcular por cuántos puntos un equipo supera a sus oponentes por cada 100 posesiones.

Eficiencia ajustada: Sine algunas ligas o más competitivas que otras, sentí que confiar solo en la calificación neta trataría injustamente a los equipos en las competiciones. Por lo tanto, uso la competencia promedio de la conferencia como un ajuste que garantiza que los equipos que juegan en conferencias más débiles y que lo hacen realmente bien son penalizados, mientras que los equipos que enfrentan a través de los competidores obtienen una ventaja.

Cuanto más rápido te vayas, más duro te caerás

Mi lógica aquí fue que los equipos que juegan a un ritmo más rápido crean más posesiones por juego. Esto tiene la desventaja de que no solo aumenta la cantidad de oportunidades para la puntuación sino también para los errores. Este tempo más alto puede, por lo tanto, conducir a una mayor varianza en el rendimiento. Y una alta variación en el rendimiento hace que el equipo sea más propenso a escenarios de alto riesgo y de alto recompensa, lo que resulta en victorias de explosión o desembolsos impactantes. Esto permite que el equipo que esté en papel desfavorece cerrar la brecha en la diferencia de calidad y dar a sus oponentes un momento más difícil. Los equipos que dependen de los estilos de juego de alto ritmo son.

Factor de suerte

No todas las victorias y pérdidas cuentan la historia completa. Se sabe que algunos equipos ganan más juegos de los que deberían comparar las predicciones que los datos podrían dar. Mientras que otros pueden tener un rendimiento inferior, un ejemplo es que pierden juegos cercanos que deberían haberse vuelto su camino. Sin embargo, la suerte podría ser la más difícil de confiar en las métricas, como si ni siquiera confío en mi propia suerte …

Entonces, ¿cómo me dobla en el factor de la suerte? Basado en los datos de Kenpoms, la suerte mide la diferencia entre el récord real de la pérdida de un equipo y su récord esperado. Un equipo con una calificación de alta suerte ganó más juegos de lo esperado. Mientras que un equipo con suerte negativa puede haber estado en el extremo equivocado de los topeadores de timbres, mientras que en general juegan buenos juegos.

Momento: picos altos y bajos mínimos

En un mundo ideal, mediría el impulso al mirar los últimos 10-20 juegos de un equipo, identificando a los equipos que se sienten invencibles conduciendo al torneo. Pero sin acceso directo a esos datos, tuve que ser creativo y encontrar un proxy.

Defino el impulso como lo mucho que un equipo tiene un rendimiento excesivo en relación con el promedio de la liga. Comparo la calificación neta de un equipo con la media general de la liga, los equipos que están muy por encima del promedio tienen más impulso, mientras que los equipos que caen por debajo del promedio se reducen.

Fatiga: un torneo es un maratón, no un sprint

No todas las victorias tienen el mismo efecto en los niveles de energía de un equipo. Una victoria de tiempo extra que mordió un oponente fuerte podría tener graves consecuencias en comparación con una fácil victoria de dos dígitos. Para dar cuenta de esto, rescala la calificación del equipo con un factor de fatiga. Este factor se calcula mediante equipos penalizados que se predice que ganarán con un margen de probabilidad delgado.

En resumen, estos seis factores son los principales ingredientes para calcular la probabilidad si un equipo gana o pierde. Pero conocer las métricas es solo la mitad de la historia. Ahora, necesito un código que pueda simular completamente el torneo, y espero tener resultados más realistas que solo confiar en la mascota de aspecto más lindo (¡me gustan los perros!) O suposiciones basadas en semillas.

El algoritmo: simulando la locura

En resumen, mi modelo de Madness March se construye alrededor de las llamadas simulaciones de Monte Carlo, estas son simulaciones probabilísticas que convierten mis métricas de baloncesto en decenas de miles de resultados de torneo para descubrir qué equipo avanza a las próximas rondas. Así que no estoy calculando un solo soporte, mis códigos ejecutan decenas de miles de simulaciones, cada vez que juega el torneo de principio a fin en diferentes condiciones.

Foto Arif riyanto en Sin estelares

Paso 1: Generación de enfrentamientos

Los enfrentamientos de primera ronda se construyen utilizando las semillas del torneo de la NCAA, donde tuve que asegurarme de que el soporte que simule siga el resultado en los emparejamientos de equipo adecuados. Para esto, uso las reglas de siembra, emparejando equipos como 1 semilla frente a 16 semillas, 8 semillas frente a 9 semillas, etc., al igual que en el torneo real.

Paso 2: Probabilidades de ganancia de computación

Cada juego se simula utilizando una función de probabilidad logística. Esto significa que cada juego tiene algún tipo de nivel complejo de incertidumbre, en lugar de simplemente favorecer la semilla más alta cada vez. La probabilidad entonces depende de la métrica clave que describí anteriormente: Fuerza ajustada del equipo, volatilidad, estilo de juego, efectos de fatiga y suerte. Por último, agregué un generador molesto, ya que esto dibujé aleatoriamente un número de una distribución en T lateral pesada, estas distribuciones son excelentes para imitar eventos raros y agrega un poco más de ruido a las predicciones. Cada factor tiene su propio factor de peso que puedo elegir para hacer ciertos efectos más o menos importantes y se calcula una probabilidad combinada total.

Paso 3: Ejecutando el torneo

El simulador luego se ejecuta en dos modos, el primer modo puede determinar el soporte más probable; El modelo simula cada juego en una redonda de miles de veces. Después de cada ronda, calcula la frecuencia con la que un equipo gana o pierde, y calcula una certeza; La relación entre el número de victorias con el número de juegos jugados, esto será importante para encontrar potenciales molestias. Los ganadores siguen adelante y se forman nuevos enfrentamientos y el ciclo se repite para las siguientes rondas.

El segundo modo calcula las predicciones de campeón, esto significa que, en lugar de ejecutar cada juego decenas de miles de veces, ejecuto entre paréntesis decenas de miles de veces y luego cuento con la frecuencia con la que cada equipo lo gana todo.

Paso 4: Análisis de resultados

Después de las decenas de miles de torneos simulados, el modelo resume los resultados y me deja analizar los resultados:

• Probabilidades de campeonato (Con qué frecuencia cada equipo lo gana todo)

• Final Four Probabilidades (¿Quién lo hace profundamente en el soporte)

• Posibilidades mayores de malestar (Que las semillas más bajas logran victorias impactantes)

En lugar de simplemente adivinar a los ganadores, el modelo cuantifica qué equipos son lo más probable Para avanzar o ganar el campeonato, obtengo un porcentaje contando sus exitosos en comparación con las simulaciones totales que realizó el código.

La predicción base

Entonces, en la parte divertida, ¿cómo elijo para March Madness?

Coronando a un campeón

Para mis cuatro mejores campeones que encontré; Duke, Florida, Auburn y Houston. ¡En comparación con las oficinas de apuestas, esto parece bastante razonable! No es sorprendente que estos cuatro equipos también tengan las más altas probabilidades de llegar a la Final Four y son las semillas más altas que entran en el torneo. Si no tienes uno de estos cuatro como tu ganador … ¡podrías estar en problemas!

Decidir el soporte

Una vez que tengo el soporte completo y el posible campeón, el trabajo solo está comenzando. ¿Quién será las grandes molestias este año? Y aquí es donde las cosas se ponen interesantes, como sabe cualquiera que alguna vez participó en estos desafíos de los soportes. Por un lado, quieres contar en juegos que tengan un ganador muy claro e identifique un puñado de juegos cerrados que podrían ir en cualquier dirección y rodar el dado. Después de todo, March Madness no se trata de obtener todas las selecciones correctas, se trata de elegir las sorpresas correctas.

Elige tus trastornos

Entonces, la pregunta más difícil sigue siendo, ¿cómo se ve la historia de Cenicienta de este año? Cada torneo, un equipo de más bajo sembrado sorprende el campo, reventando los soportes en todas partes. Pero, ¿puedo predecir qué equipos tienen más probabilidades de lograr un malestar?

Para encontrar capturas potenciales, me concentré en dos conjuntos de equipos:

1. Equipos que se predicen que vencen a su oponente de mayor clasificación

Se proyecta que algunos equipos en mi modelo ganarán su juego, mientras que su oponente tiene una semilla más alta. ¡Estas son selecciones Slam-Dunk para un malestar! Para dar algunos ejemplos que salieron de mi simulación final;

Memphis [5] Vs Colorado St. [12] -> Colorado St. [12]

Mississippi St. [8] vs Baylor [9] -> Baylor [9]

2. ¿Se proyecta que el juego esté cerca?

Esto es más complicado y se reducirá a la suerte. Cualquier juego en el que el modelo le da al desvalido al menos un 40% de posibilidades de que me identifique como un posible malestar. Un buen ejemplo específico de esto es Connecticut [8] Vs Oklahoma [9] -> Connecticut [8] que realmente es un lanzamiento de monedas en mi simulación. ¿Cuál de estas potenciales molestias para elegir como molestias reales? Eso se debe a un cambio de moneda.

Al final del día, March Madness prospera en el caos. Puede usar datos, probabilidad y rendimiento pasado para hacer selecciones más inteligentes, pero a veces las molestias más grandes se reducen a nada más que suerte. Elija sabiamente …

Envolviendo: lo que aprendí

Este proyecto fue una profunda inmersión para encontrar orden en el caos de March Madness, combinando mi conocimiento de la ciencia de datos con la imprevisibilidad del baloncesto universitario. Me divertí mucho construyendo mi, y si hay una cosa que he aprendido, es que no necesitas código para calcular la probabilidad de estar equivocado. Estar equivocado es un 100% dado. La verdadera pregunta es: ¿Estás menos equivocado que todos los demás? Hay tantas incertidumbres que no he tenido en cuenta o es imposible de evitar. Las molestias se producirán, las historias de Cenicienta se desarrollarán, y ningún modelo puede predecir completamente la locura.

Si quieres echar un vistazo a mi código: https://github.com/jordydavelaar/marchmadsim

Una palabra de precaución: El código que desarrollé fue solo un proyecto de fin de semana divertido, y este artículo está destinado a ser asesoramiento educativo, no financiero. Las apuestas deportivas son muy arriesgadas, y aunque los datos pueden proporcionar información, no puede predecir el futuro. Apuesto de manera responsable y busque ayuda si la necesita. Llame al 1–800-Gambler.

Reconocimiento: Mientras escribía mi código, utilicé el LLM CHATGPT, los datos utilizados para hacer predicciones fueron pagados y vinieron de Kenpom.

Predicciones de locura de marzo basada en datos | Hacia la ciencia de los datos

ByEquipo de 7 minutos

Encontrar los datos correctos

Las métricas clave para desbloquear un soporte ganador

Eficiencia del equipo (clasificaciones netas y calificaciones ajustadas)

Cuanto más rápido te vayas, más duro te caerás

Factor de suerte

Momento: picos altos y bajos mínimos

Fatiga: un torneo es un maratón, no un sprint

El algoritmo: simulando la locura

La predicción base

Coronando a un campeón

Decidir el soporte

Elige tus trastornos

Envolviendo: lo que aprendí

By Equipo de 7 minutos

Related Post

Conozca Memory OS: una pila de memoria de código abierto de 6 capas construida sobre Hermes Agent

Garantizar la integridad de los datos con hash criptográfico y la cadena de bloques Ethereum

Escapar del valle de las opciones en BI

You missed

El papamóvil llega mientras se realizan los preparativos finales para la visita papal ⋆ Madrid Metropolitan

Waka Flocka publica un breve mensaje después de revelar que está embarazada

¿Tienen la cúrcuma y la curcumina algún beneficio real para la salud?

Junts pone en marcha las primarias para elegir a su candidato en Barcelona el 21 de junio