Nvidia ha presentado Periquito tdt 0.6bun modelo de reconocimiento automático de voz automático (ASR) de última generación que ahora está completamente de código abierto en Cara abrazada. Con 600 millones de parámetrosa Licencia CC-by-4.0 comercialmente permisivay un asombroso Factor en tiempo real (RTF) de 3386este modelo establece un nuevo punto de referencia para el rendimiento y la accesibilidad en la IA del habla.
Velocidad y precisión
En el corazón del periquito de TDT 0.6b, la apelación está su Velocidad inigualable y calidad de transcripción. El modelo puede transcribir 60 minutos de audio en solo un segundouna actuación que es Más de 50 veces más rápido que muchos modelos ASR abiertos existentes. En la cara abrazada Abierta tabla de clasificación ASRPerakete v2 logra un Tasa de error de palabras de 6.05% (WER)-el mejor entre modelos abiertos.
Este rendimiento representa un salto significativo para las aplicaciones de habla de grado empresarial, incluida la transcripción en tiempo real, el análisis basado en la voz, la inteligencia del centro de llamadas e indexación de contenido de audio.
Descripción técnica
TDT 0.6B se basa en una arquitectura basada en transformador con datos de transcripción de alta calidad y optimizado para inferencia en el hardware NVIDIA. Aquí están los aspectos más destacados:
- Modelo de codificador de codificador de parámetros de 600m
- Núcleos cuantificados y fusionados Para una máxima eficiencia de inferencia
- Optimizado para TDT (Transductor Decoder Transformer) arquitectura
- Soporte formato de marca de tiempo precisa, formato numéricoy restauración de puntuación
- Pioneros transcripción de la canción a la canciónuna capacidad rara en los modelos ASR
La inferencia de alta velocidad del modelo está impulsada por Nvidia’s Tensor y Cuantificación FP8permitiéndole alcanzar un factor en tiempo real de RTF = 3386lo que significa que procesa audio 3386 veces más rápido que en tiempo real.
Liderazgo de referencia
En el Abrazando la cara de la cara ASR—En punto de referencia estandarizado para evaluar modelos de habla en conjuntos de datos públicos – PARAKEET TDT 0.6B lidera con el Los más bajos se registraron entre los modelos de código abierto. Esto lo posiciona muy por encima de modelos comparables como Whisper de Operai y otros esfuerzos impulsados por la comunidad.
Este rendimiento hace que el perakete v2 no solo sea un líder en calidad sino también en preparación del despliegue para aplicaciones sensibles a la latencia.
Más allá de la transcripción convencional
El periquito no se trata solo de velocidad y tasa de error de palabras. NVIDIA ha incrustado capacidades únicas en el modelo:
- Transcripción de la canción a la canción: Desbloquea la transcripción para contenido cantado, expandiendo los casos de uso en la indexación de música y las plataformas de medios.
- Formato numérico y de marca de tiempo: Mejora la legibilidad y la usabilidad en contextos estructurados como notas de reuniones, transcripciones legales y registros de salud.
- Restauración de puntuación: Mejora la legibilidad natural para aplicaciones NLP aguas abajo.
Estas características elevan la calidad de las transcripciones y reducen la carga de la edición de postprocesamiento o humano, especialmente en implementaciones de grado empresarial.
Implicaciones estratégicas
El lanzamiento de Paraket TDT 0.6b representa otro paso en la inversión estratégica de Nvidia en Infraestructura de IA y Liderazgo de ecosistema abierto. Con un fuerte impulso en los modelos fundamentales (por ejemplo, Nemotron para el lenguaje y Bionemo para el diseño de proteínas), Nvidia se está posicionando como una compañía de IA de pila completa, desde GPU hasta modelos de última generación.
Para la comunidad de desarrolladores de IA, este lanzamiento abierto podría convertirse en la nueva base para construir interfaces de habla en todo, desde dispositivos inteligentes y asistentes virtuales hasta agentes multimodales de IA.
Empezando
TDT 0.6B de INMAJE Cara abrazadacompleto con pesos de modelo, tokenizador y scripts de inferencia. Se ejecuta de manera óptima en las GPU de NVIDIA con Tensorrt, pero el soporte también está disponible para entornos de CPU con rendimiento reducido.
Ya sea que esté creando servicios de transcripción, anotando conjuntos de datos de audio masivos o integrando voz en su producto, el periquito TDT 0.6b ofrece una alternativa de código abierto convincente a las API comerciales.
Mira el Modelo en la cara abrazada. Además, no olvides seguirnos Gorjeo.
Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.