Tan diferente como similar
En mi Próximas fronteras en la ciencia de datos del entretenimiento artículo sobre Hacia la ciencia de datos, me refiero a cómo se puede aplicar la ciencia de datos en varias fases del ciclo de vida del contenido, desde la luz verde hasta la producción y el lanzamiento. Aunque es fácil conceptualizar cómo las aplicaciones de la ciencia de datos pueden diferir entre, por ejemplo, decidir qué scripts deben recibir luz verde y determinar cómo se pueden optimizar los costos de producción, puede haber marcadas diferencias incluso entre contextos que, a primera vista, pueden parecer relativamente similares.
Hace aproximadamente un año y medio, comencé un nuevo trabajo en un importante estudio de cine. Viniendo del lado de la tecnología de transmisión del negocio, esperaba que las cosas fueran más o menos similares, excepto que esta vez estaría trabajando exclusivamente con datos de películas en lugar de datos de películas y TV. Al predecir qué tan populares serán las cosas usando datos, ¿qué tan diferentes podrían ser las cosas?
Vaya, no tenía ni idea.
El negocio es totalmente diferente. Las preguntas son diferentes, las partes interesadas son diferentes, los datos son diferentes, etc. Por eso quería escribir este artículo con dos objetivos en mente. El primer objetivo más obvio es mostrar a los aspirantes y jóvenes profesionales de datos del entretenimiento cómo el trabajo de la ciencia de datos puede diferir entre contextos teatrales y de streaming. Pero me imagino que este tipo de dinámica puede manifestarse en muchas industrias diferentes, donde crees que estarás haciendo en gran medida lo mismo para predecir Y usando X que siempre hiciste, solo para descubrir que son interpretaciones completamente diferentes de X e Y, por lo que El segundo objetivo más amplio es brindarles a los profesionales de datos en todos los campos una idea de cómo, aunque dos trabajos pueden parecer funcionalmente similares en un grado notable en la superficie, pueden ser totalmente diferentes de varias maneras una vez que realmente comienzas a profundizar en los datos y la información. preguntas de negocios que tenemos entre manos.
Dicho esto, a continuación se presentan algunas de mis observaciones clave después de dar el salto de la ciencia de datos del entretenimiento en streaming a la ciencia de datos del entretenimiento teatral. Me salto algunos de los puntos más descarados que “no son obvios” (oh, no hay estrenos de programas de televisión en cines, qué sorpresa), pero menciono algunas de las principales tendencias. Y, por supuesto, nada de esto es una declaración bíblica de verdad; YMMV basado en empresa, liderazgo de equipo y similares. Además, aunque la ciencia de datos puede desempeñar un papel en las primeras fases del ciclo de vida del contenido de entretenimiento, como mencioné anteriormente, este artículo se deriva de mi experiencia con procesos posteriores más cercanos al lanzamiento. Si alguna vez parezco un poco ambiguo, es deliberadamente porque no quiero derramar nada de la salsa secreta;)
Alcance de los datos
La más obvia es la diferencia en el alcance de los datos. En la ciencia de datos teatrales, la principal unidad de análisis es la película, tal vez el país cinematográfico, ¡y hay un número limitado de películas que se estrenan en un país determinado en un año determinado!
Esto no quiere decir que nunca trabaje con conjuntos de datos más grandes que vienen en niveles más granulares en el lado teatral; Estos conjuntos de datos generalmente están vinculados al título o algún elemento del título y, a menudo, se trabaja con ellos y se procesan de alguna manera para generar información relevante para el título. Pero la conclusión es que debido a que el espacio del título es más pequeño de forma predeterminada, el alcance de los datos es más pequeño. Espero que algún día podamos obtener una visión más granular a nivel individual sobre el consumo en el ámbito teatral que es posible en el dominio del streaming, pero al menos como es ahora, ese no es el caso.
No* Datos históricos
En el streaming, la gran mayoría de las veces (con la obvia excepción de los lanzamientos exclusivos en streaming), tendrás una cantidad significativa de datos históricos con los que trabajar. ¿Cuánto recaudó el título en taquilla? ¿Cómo fue el revuelo en las redes sociales cuando salió? ¿Cómo le fue al título en Rotten Tomatoes?
No tienes este lujo en el espacio teatral. Claro, hasta cierto punto puedes apoyarte en la historia de componentes particulares, ya sea elenco, equipo, género o alguna combinación, pero incluso entonces esos puntos de datos generalmente no serán tan claramente vinculables a un título en particular como los datos históricos literales. Además, tales comparaciones pueden estar plagadas de preocupaciones de subjetividad y factores de confusión exógenos; ¿Cómo se decide qué títulos son realmente comparables a otros? ¿Qué papel juega el marketing y las diferencias en las campañas de marketing en la percepción del público sobre la similitud entre títulos?
*Sí, las series y franquicias son una media excepción a esta regla, pero confiar demasiado en las presunciones de secuelas y similitudes puede resultar contraproducente. Sí, en muchos casos, el desempeño de un predecesor puede ser una estimación visual decente de su sucesor, pero las franquicias pueden perder fuerza con el tiempo o extenderse demasiado (nuevos personajes/tramas y vínculos débiles con títulos pasados) más allá del reconocimiento, de modo que el desempeño del título anterior puede no tener sentido a la hora de predecir el rendimiento de títulos más nuevos.
Datos muy particulares
Proveniente del territorio tecnológico de transmisión de startups con un equipo de datos dirigido por gente de tecnología, pasé mucho tiempo investigando qué conjuntos de datos podrían ser útiles para nuestras necesidades. En el transcurso de dicho trabajo, encontré muchos conjuntos de datos oscuros que se ajustaban a diversas necesidades e investigué cómo podríamos recopilar de forma económica datos que los proveedores vendían por un precio alto (por ejemplo, ¿cómo podemos obtener datos de búsqueda de Google sin pagar una licencia costosa? ).
En el aspecto teatral, los estándares y convenciones parecen mucho más establecidos. Existen ciertos conjuntos de datos o tipos de conjuntos de datos de consumidores y redes sociales que utilizan más o menos todos en la industria. Por ejemplo, si bien la escucha social podría venir a la mente como una fuente de datos contemporánea obvia, existen importantes proveedores establecidos que brindan datos detallados sobre los consumidores antes y después del lanzamiento de los títulos, y algunos de estos proveedores han existido durante décadas. Este es el tipo de conjuntos de datos de los que muchos fuera del espacio teatral inmediato tal vez nunca hayan oído hablar, pero cuando estás en el espacio, es de lo único de lo que hablas.
Sin ventanas (o una ventana única)
En el espacio del streaming, la ventana de disponibilidad (y, hasta cierto punto, la naturaleza de la disponibilidad) es un factor enorme en los análisis. Estas ventanas pueden interactuar con una variedad de contenidos (por ejemplo, ¿el título trata sobre Navidad y la ventana es una ventana navideña?) y factores a nivel de mercado (por ejemplo, ¿el título se muestra de manera destacada en la página principal?).
Como puede imaginar, estas preocupaciones están menos presentes en la ciencia de datos teatral o, más precisamente, a menos que esté haciendo un modelado previo relacionado con “¿deberíamos hacer este título?” o “¿cuándo deberíamos lanzar este título?” Cualquier inquietud sobre los factores de ventana ya se ha decidido para usted en forma de una fecha de lanzamiento (probable) en el momento en que se involucra. Solo hay una ventana de la que preocuparse (a menos que tenga que preocuparse por las fechas de lanzamiento escalonadas, y eso es otro juego de pelota), y los poderes fácticos ya han decidido cuándo será. Ahora debe hacer todo lo posible para proporcionar toda la información útil que pueda en el contexto de esa ventana.
Mayor énfasis en el negocio
Durante mi tiempo en el lado del streaming, era fácil tratar los títulos y los números de me gusta de la audiencia porque teníamos datos sobre cientos de miles de ellos, pero esa filosofía también se reflejaba en la metodología. Era común no sólo generar estadísticas resumidas, sino también convertir todo en algún tipo de incrustación vectorial (es decir, una serie de números que abarcan algún conjunto de dimensiones no observables por humanos), incluso si eso sucedía a costa de la interpretabilidad; Realmente no significa nada poder decir: “La dimensión de contenido 2 es la variable más importante del modelo”.
En el aspecto teatral, hay un mayor enfoque en el negocio, más allá de los números. Los datos no están ahí solo por los números, sino por los conocimientos prácticos que pueden proporcionar a varias partes interesadas de la organización, muchas de las cuales no son científicos de datos ni trabajan con datos en el día a día. Hacer predicciones precisas es importante, pero igual de importante es la interpretabilidad, y no hay prisa por tirarla por la ventana sólo por reducir el error del modelo en una pequeña fracción de un porcentaje. A su vez, me siento más conectado tanto con la empresa como con el público en el trabajo que hago.
Conclusiones y conclusiones clave
He tocado varios temas anteriores en el contexto de mi salto del streaming al cine dentro de la industria del entretenimiento, pero los temas subyacentes implican hacer preguntas relevantes para cualquiera que salte entre dos trabajos vagamente similares en la misma industria. Entonces, para resumir, antes de asumir que su próximo trabajo será en gran medida más de lo mismo que su último trabajo, según las diferencias entre la ciencia de datos en streaming y la ciencia de datos teatrales que menciono anteriormente, aquí hay algunas preguntas sobre las que vale la pena reflexionar más profundamente mientras piensa. sobre las similitudes y diferencias entre su último trabajo y su próximo trabajo:
- Alcance de los datos: ¿Cuál es la unidad de datos? ¿Con qué frecuencia se agregan los datos y con cuántas unidades cada vez? Como resultado, ¿qué tamaño tiene el conjunto de datos y qué herramientas se necesitan para manejarlo?
- Disponibilidad de datos históricos: ¿Qué tipo de datos históricos están disponibles, si es que hay alguno? ¿Los datos históricos disponibles se ajustan directamente o implican algún tipo de agregación, imputación o análisis de similitud?
- Fuentes de datos: ¿Qué fuentes de datos se utilizan? ¿Las fuentes de datos utilizadas son más relevantes en general o son muy específicas del contexto? ¿Cuánto espacio hay para experimentar con nuevas fuentes de datos o dejar de lado las fuentes de datos existentes? ¿Cuáles son los conjuntos de datos convencionales establecidos que todo el mundo utiliza?
- Elementos de tiempo: ¿Cuál es el período de tiempo relevante para la pregunta particular que debe responder? ¿Cómo se decide? ¿Es singular o múltiple, fijo o cambiante? ¿Cómo se debe tener en cuenta el tiempo y los factores asociados (por ejemplo, estacionalidad, vacaciones, etc.) en el trabajo? ¿Es un período de tiempo particular de mayor interés para la empresa que otro?
- Énfasis empresarial: ¿Quién es la audiencia? Teniendo esto en cuenta, ¿cuál es el equilibrio entre precisión e interpretabilidad que es necesario lograr? ¿Y cómo afecta eso a su vez el tipo de funciones que le resultan útiles? ¿Cómo influye el ritmo del negocio en el ritmo del trabajo?
Claramente, me contrataron para mi puesto actual porque mi conjunto de habilidades es relevante para las tareas laborales y lo que hago es similar a lo que hacía antes, pero la ciencia de datos en el lado teatral en comparación con el lado de la transmisión es de alguna manera tan diferente como es. similar. Como explico anteriormente, los datos son diferentes, los procesos son diferentes y las expectativas son diferentes. Espero que este artículo te haya resultado útil si esperas ingresar al apasionante campo de la ciencia de datos del entretenimiento o si estás pensando en cambiar a un trabajo similar pero diferente en cualquier industria en la que te encuentres.
Al momento de escribir este artículo, Danny Kim (PhD, Universidad de Pensilvania; Forbes 30 Under 30 2022) es científico de datos senior en el equipo de análisis e información de marketing de Sony Pictures Entertainment Motion Picture Group. Danny trabajó anteriormente en Whip Media y Paramount Pictures, y es alumno de las Escuelas de Comunicación Annenberg en Penn y USC; La escuela Wharton; y la Escuela de Artes Cinematográficas de la USC.
Ciencia de datos de entretenimiento: streaming versus cine fue publicado originalmente en Hacia la ciencia de datos en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.