NVIDIA FUENTES ABIERTAS PARAKEET TDT 0.6B: Lograr un nuevo estándar para el reconocimiento automático de voz ASR y transcribe una hora de audio en un segundo

Nvidia ha presentado Periquito tdt 0.6bun modelo de reconocimiento automático de voz automático (ASR) de última generación que ahora está completamente de código abierto en Cara abrazada. Con 600 millones de parámetrosa Licencia CC-by-4.0 comercialmente permisivay un asombroso Factor en tiempo real (RTF) de 3386este modelo establece un nuevo punto de referencia para el rendimiento y la accesibilidad en la IA del habla.

Velocidad y precisión

En el corazón del periquito de TDT 0.6b, la apelación está su Velocidad inigualable y calidad de transcripción. El modelo puede transcribir 60 minutos de audio en solo un segundouna actuación que es Más de 50 veces más rápido que muchos modelos ASR abiertos existentes. En la cara abrazada Abierta tabla de clasificación ASRPerakete v2 logra un Tasa de error de palabras de 6.05% (WER)-el mejor entre modelos abiertos.

Este rendimiento representa un salto significativo para las aplicaciones de habla de grado empresarial, incluida la transcripción en tiempo real, el análisis basado en la voz, la inteligencia del centro de llamadas e indexación de contenido de audio.

Descripción técnica

TDT 0.6B se basa en una arquitectura basada en transformador con datos de transcripción de alta calidad y optimizado para inferencia en el hardware NVIDIA. Aquí están los aspectos más destacados:

Modelo de codificador de codificador de parámetros de 600m
Núcleos cuantificados y fusionados Para una máxima eficiencia de inferencia
Optimizado para TDT (Transductor Decoder Transformer) arquitectura
Soporte formato de marca de tiempo precisa, formato numéricoy restauración de puntuación
Pioneros transcripción de la canción a la canciónuna capacidad rara en los modelos ASR

La inferencia de alta velocidad del modelo está impulsada por Nvidia’s Tensor y Cuantificación FP8permitiéndole alcanzar un factor en tiempo real de RTF = 3386lo que significa que procesa audio 3386 veces más rápido que en tiempo real.

Liderazgo de referencia

En el Abrazando la cara de la cara ASR—En punto de referencia estandarizado para evaluar modelos de habla en conjuntos de datos públicos – PARAKEET TDT 0.6B lidera con el Los más bajos se registraron entre los modelos de código abierto. Esto lo posiciona muy por encima de modelos comparables como Whisper de Operai y otros esfuerzos impulsados por la comunidad.

Datos basados en el 5 de mayo 2025

Este rendimiento hace que el perakete v2 no solo sea un líder en calidad sino también en preparación del despliegue para aplicaciones sensibles a la latencia.

Más allá de la transcripción convencional

El periquito no se trata solo de velocidad y tasa de error de palabras. NVIDIA ha incrustado capacidades únicas en el modelo:

Transcripción de la canción a la canción: Desbloquea la transcripción para contenido cantado, expandiendo los casos de uso en la indexación de música y las plataformas de medios.
Formato numérico y de marca de tiempo: Mejora la legibilidad y la usabilidad en contextos estructurados como notas de reuniones, transcripciones legales y registros de salud.
Restauración de puntuación: Mejora la legibilidad natural para aplicaciones NLP aguas abajo.

Estas características elevan la calidad de las transcripciones y reducen la carga de la edición de postprocesamiento o humano, especialmente en implementaciones de grado empresarial.

Implicaciones estratégicas

El lanzamiento de Paraket TDT 0.6b representa otro paso en la inversión estratégica de Nvidia en Infraestructura de IA y Liderazgo de ecosistema abierto. Con un fuerte impulso en los modelos fundamentales (por ejemplo, Nemotron para el lenguaje y Bionemo para el diseño de proteínas), Nvidia se está posicionando como una compañía de IA de pila completa, desde GPU hasta modelos de última generación.

Para la comunidad de desarrolladores de IA, este lanzamiento abierto podría convertirse en la nueva base para construir interfaces de habla en todo, desde dispositivos inteligentes y asistentes virtuales hasta agentes multimodales de IA.

Empezando

TDT 0.6B de INMAJE Cara abrazadacompleto con pesos de modelo, tokenizador y scripts de inferencia. Se ejecuta de manera óptima en las GPU de NVIDIA con Tensorrt, pero el soporte también está disponible para entornos de CPU con rendimiento reducido.

Ya sea que esté creando servicios de transcripción, anotando conjuntos de datos de audio masivos o integrando voz en su producto, el periquito TDT 0.6b ofrece una alternativa de código abierto convincente a las API comerciales.

Mira el Modelo en la cara abrazada. Además, no olvides seguirnos Gorjeo.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

NVIDIA FUENTES ABIERTAS PARAKEET TDT 0.6B: Lograr un nuevo estándar para el reconocimiento automático de voz ASR y transcribe una hora de audio en un segundo

ByEquipo de 7 minutos

Velocidad y precisión

Descripción técnica

Liderazgo de referencia

Más allá de la transcripción convencional

Implicaciones estratégicas

Empezando

By Equipo de 7 minutos

Related Post

Ollama frente a LM Studio frente a llama.cpp: ¿Qué tiempo de ejecución de IA local debería utilizar en 2026?

Cómo una base de datos médica desarrollada en el MIT evolucionó hasta convertirse en un estándar global de intercambio de datos | Noticias del MIT

Ingeniería rápida versus ingeniería de bucle versus ingeniería de gráficos: qué cambia en cada capa

You missed

Usher se pone atrevido en ‘The R&B Tour’ luego del drama de un fan

Cómo resucitar un pozo geotérmico

Un hombre enloquecido paga el precio máximo después de llevar un cuchillo a un tiroteo con agentes del condado de Los Ángeles (VIDEO) * The Gateway Pundit * por Cullen Linebarger

Residentes de Las Mimosas lanzan petición por disminución ‘inaceptable’ de servicios básicos – The Leader