¿Más grande = mejor?
En IA, lo más grande suele ser mejor, si hay suficientes datos para alimentar estos grandes modelos. Sin embargo, con datos limitados, Los modelos más grandes son más propensos a sobreajustarse.. El sobreajuste ocurre cuando el modelo memoriza patrones de los datos de entrenamiento que no se generalizan bien a ejemplos de datos del mundo real. Pero hay otra manera de abordar esto que encuentro aún más convincente en este contexto.
Suponga que tiene un pequeño conjunto de datos de espectrogramas y está decidiendo entre un modelo CNN pequeño (100k parámetros) o un CNN grande (10 millones de parámetros). Recuerda eso Cada parámetro del modelo es efectivamente un número aproximado derivado del conjunto de datos de entrenamiento.. Si lo pensamos de esta manera, es obvio que es más fácil para un modelo obtener 100.000 parámetros correctos que lograr 10 millones.
Al final, ambos argumentos llevan a la misma conclusión:
Si los datos son escasos, considere construir modelos más pequeños que se centren sólo en los patrones esenciales.
Pero, ¿cómo podemos lograr modelos más pequeños en la práctica?
No rompas nueces con un mazo
Mi viaje de aprendizaje en Music AI ha estado dominado por el aprendizaje profundo. Hasta hace un año, había resuelto casi todos los problemas utilizando grandes redes neuronales. Si bien esto tiene sentido para tareas complejas como el etiquetado de música o el reconocimiento de instrumentos, no todas las tareas son tan complicadas.
Por ejemplo, se puede construir un estimador de BPM o un detector de claves decente sin ningún aprendizaje automático analizando el tiempo entre inicios o correlacionando cromagramas con perfiles clave, respectivamente.
Incluso para tareas como el etiquetado de música, no siempre tiene que ser un modelo de aprendizaje profundo. He logrado buenos resultados en el etiquetado del estado de ánimo a través de un clasificador simple de K-vecino más cercano en un espacio de incrustación (por ejemplo, CLAP).
Si bien la mayoría de los métodos de última generación en Music AI se basan en el aprendizaje profundo, Se deben considerar soluciones alternativas ante la escasez de datos..
Preste atención al tamaño de entrada de datos
Más importante que la elección de modelos suele ser la elección de los datos de entrada. En Music AI, rara vez utilizamos formas de onda sin procesar como entrada debido a la ineficiencia de los datos. Al transformar formas de onda en espectrogramas (mel), podemos disminuir la dimensionalidad de los datos de entrada. por un factor de 100 o más. Esto es importante porque las grandes entradas de datos normalmente requieren modelos más grandes y/o más complejos para procesarlas.
Para minimizar el tamaño de la entrada del modelo, podemos tomar dos rutas
- Usar fragmentos de música más pequeños
- Usar representaciones musicales más comprimidas/simplificadas.
Usar fragmentos de música más pequeños
Usar fragmentos musicales más pequeños es especialmente efectivo si el resultado que nos interesa es global, es decir, se aplica a cada sección de la canción. Por ejemplo, podemos suponer que el género de una pista se mantiene relativamente estable a lo largo de la misma. Por eso, podemos usar fácilmente fragmentos de 10 segundos en lugar de pistas completas (o los muy comunes fragmentos de 30 segundos) para una tarea de clasificación de género.
Esto tiene dos ventajas:
- Los fragmentos más cortos generan menos puntos de datos por ejemplo de entrenamiento, lo que le permite utilizar modelos más pequeños.
- Al dibujar tres fragmentos de 10 segundos en lugar de uno de 30 segundos, podemos triplicar el número de observaciones de entrenamiento. En definitiva, esto significa que podemos construir modelos que requieran menos datos y, al mismo tiempo, alimentarlos con más ejemplos de entrenamiento que antes.
Sin embargo, hay dos peligros potenciales aquí. En primer lugar, el tamaño del fragmento debe ser lo suficientemente largo para que sea posible una clasificación. Por ejemplo, incluso los humanos luchan con la clasificación de géneros cuando se les presentan fragmentos de 3 segundos. Debemos elegir cuidadosamente el tamaño del fragmento y ver esta decisión como un hiperparámetro de nuestra solución de IA.
En segundo lugar, No todos los atributos musicales son globales.. Por ejemplo, si una canción incluye voces, esto no significa que no haya secciones instrumentales. Si cortamos la pista en fragmentos realmente cortos, introduciríamos muchos ejemplos con etiquetas falsas en nuestro conjunto de datos de entrenamiento.
Usar representaciones musicales más eficientes
Si estudiaste Música AI hace diez años (cuando todo esto se llamaba “Recuperación de información musical”), aprendiste sobre cromagramas, MFCC e histogramas de ritmo. Estas funciones artesanales se diseñaron para que los datos musicales funcionen con los enfoques tradicionales de aprendizaje automático. Con el auge del aprendizaje profundo, podría parecer que estas características han sido completamente reemplazado por espectrogramas (mel).
Los espectrogramas comprimen la música en imágenes sin mucha pérdida de información, haciéndolas ideal en combinación con modelos de visión por computadora. En lugar de diseñar funciones personalizadas para diferentes tareas, ahora podemos usar la misma representación y modelo de datos de entrada para la mayoría de los problemas de Music AI, siempre que tenga decenas de miles de ejemplos de entrenamiento para alimentar estos modelos.
Cuando los datos son escasos, queremos comprimir la información tanto como sea posible para facilitar que el modelo extraiga patrones relevantes de los datos. Considere estas cuatro representaciones musicales a continuación y dígame cuál le ayuda a identificar la clave musical más rápido.
Si bien los espectrogramas mel se pueden utilizar como entrada para sistemas de detección clave (y posiblemente deberían serlo si se tienen suficientes datos), un cromagrama simple promediado a lo largo de la dimensión temporal revela esta información específica mucho más rápido. Es por eso que los espectrogramas requieren modelos complejos como las CNN, mientras que un cromagrama puede analizarse fácilmente mediante modelos tradicionales como la regresión logística o los árboles de decisión.
En resumen, la combinación establecida de espectrograma + CNN sigue siendo muy eficaz para muchos problemas, siempre que se disponga de datos suficientes. Sin embargo, con conjuntos de datos más pequeños, podría tener sentido revisar algunas técnicas de ingeniería de características de MIR o desarrollar sus propias representaciones de tareas específicas.