Startup israelí de inteligencia artificial aiOla ha presentado una innovación revolucionaria en reconocimiento de voz con el lanzamiento de Medusa susurranteEste nuevo modelo, que se basa en Whisper de OpenAI, ha logrado un notable aumento del 50% en la velocidad de procesamiento, lo que supone un avance significativo en el reconocimiento automático de voz (ASR). Whisper-Medusa de aiOla incorpora una novedosa arquitectura de “atención multicabezal” que permite la predicción simultánea de múltiples tokens. Este desarrollo promete revolucionar la forma en que los sistemas de IA traducen y comprenden el habla.
La introducción de Whisper-Medusa representa un avance significativo con respecto al modelo Whisper ampliamente utilizado y desarrollado por OpenAI. Si bien Whisper ha establecido el estándar en la industria con su capacidad para procesar habla compleja, incluidos varios idiomas y acentos, casi en tiempo real, Whisper-Medusa lleva esta capacidad un paso más allá. La clave de esta mejora radica en su mecanismo de atención de múltiples cabezas; esto permite que el modelo prediga diez tokens en cada paso en lugar del estándar. Este cambio arquitectónico da como resultado un aumento del 50% en la velocidad de predicción de habla y el tiempo de ejecución de generación sin comprometer la precisión.
aiOla destacó la importancia de lanzar Whisper-Medusa como una solución de código abierto. De esta manera, aiOla pretende fomentar la innovación y la colaboración dentro de la comunidad de IA, alentando a los desarrolladores e investigadores a contribuir y desarrollar su trabajo. Este enfoque de código abierto conducirá a más mejoras y refinamientos de velocidad, lo que beneficiará a diversas aplicaciones en diversos sectores, como la atención médica, la tecnología financiera y los sistemas de IA multimodales.
Las capacidades únicas de Whisper-Medusa son particularmente significativas en el contexto de los sistemas de IA compuestos, que tienen como objetivo comprender y responder a las consultas de los usuarios casi en tiempo real. La velocidad y la eficiencia mejoradas de Whisper-Medusa lo convierten en un recurso valioso cuando la conversión rápida y precisa de voz a texto es crucial. Esto es especialmente relevante en aplicaciones de IA conversacional, donde las respuestas en tiempo real pueden mejorar en gran medida la experiencia y la productividad del usuario.
El proceso de desarrollo de Whisper-Medusa implicó modificar la arquitectura de Whisper para incorporar el mecanismo de atención de múltiples cabezas. Este enfoque permite que el modelo preste atención de manera conjunta a la información de diferentes subespacios de representación en otras posiciones, utilizando múltiples “cabezas de atención” en paralelo. Esta técnica innovadora no solo acelera el proceso de predicción, sino que también mantiene el alto nivel de precisión por el que se conoce a Whisper. Señalaron que mejorar la velocidad y la latencia de los modelos de lenguaje grandes (LLM) es más fácil que los sistemas ASR debido a la complejidad de procesar señales de audio continuas y manejar ruido o acentos. Sin embargo, el enfoque novedoso de aiOla ha abordado con éxito estos desafíos, lo que dio como resultado un modelo que casi duplica la velocidad de predicción.
El entrenamiento de Whisper-Medusa implicó un enfoque de aprendizaje automático llamado supervisión débil. aiOla congeló los componentes principales de Whisper y utilizó transcripciones de audio generadas por el modelo como etiquetas para entrenar módulos de predicción de tokens adicionales. La versión inicial de Whisper-Medusa emplea un modelo de 10 cabezas, con planes de expandirse a una versión de 20 cabezas capaz de predecir 20 tokens a la vez. Esta escalabilidad mejora aún más la velocidad y la eficiencia del modelo sin comprometer la precisión.
Whisper-Medusa se ha probado en casos de uso de datos empresariales reales para garantizar su rendimiento en escenarios del mundo real; la empresa aún está explorando oportunidades de acceso temprano con socios potenciales. El objetivo final es permitir tiempos de respuesta más rápidos en aplicaciones de voz, allanando el camino para respuestas en tiempo real. Imagine un asistente virtual como Alexa que reconozca y responda a comandos en segundos, lo que mejorará significativamente la experiencia y la productividad del usuario.
En conclusión, Whisper-Medusa de aiOla está preparada para impactar sustancialmente en el reconocimiento de voz. Al combinar una arquitectura innovadora con un enfoque de código abierto, aiOla está impulsando las capacidades de los sistemas ASR, haciéndolos más rápidos y eficientes. Las posibles aplicaciones de Whisper-Medusa son enormes y prometen mejoras en varios sectores y allanan el camino para sistemas de IA más avanzados y receptivos.
Revisar la Modelo y GitHub. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit
Encuentra lo próximo Seminarios web sobre IA aquí
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.