TILDE AI Liberturas Tildeopen LLM: un modelo de idioma grande de código abierto con más de 30 mil millones de parámetros y apoya la mayoría de los idiomas europeos

Empresa de tecnología de idioma letón Tilde ha lanzado Tildeopen LLMun modelo de lenguaje grande de código abierto (LLM) especialmente diseñado para Idiomas europeoscon un fuerte enfoque en idiomas nacionales y regionales subrepresentados y más pequeños. Es un salto estratégico hacia la equidad lingüística y la soberanía digital dentro de la UE.

Under the Hood: arquitectura, capacitación y gobernanza

  • La liberación pública ocurrió en 3 de septiembre de 2025cuando Tilde desplegó el modelo gratuito para los usuarios a través de Cara abrazada.
  • Construido como un Transformador de decodificador denso de 30 mil millones de parámetrosel modelo está disponible bajo una licencia permisiva (CC-by-4.0) e incluye un amplio soporte lingüístico, desde letón y lituano hasta ucraniano, turco y más allá.
  • La capacitación ocurrió en las supercomputadoras de la UE: Lumi (Finlandia) y JÚPITERaprovechando 2 millones de horas de GPU otorgado a través de la Comisión Europea Gran desafío de AI grande.
  • Detalle técnico fino: capacitado a través de los scripts GPT-NOOX inspirados en Eleutherai en todo Actualizaciones de 450kconsumidor ~ 2 billones de tokens. La capacitación incluyó un muestreo de tres etapas: uniforme en todos los idiomas, distribución natural para aumentar los idiomas de alto volumen de datos y un barrido de uniforme final para el equilibrio.
  • Hyperparameters: 60 capas, incrustación de tamaño 6144, 48 cabezales de atención, ventana de contexto token 8192, activaciones de Swiglu, codificación posicional de la cuerda, normas de capas RMSNorm.

Equidad del lenguaje y soberanía de datos

  • Los modelos convencionales se apoyan en gran medida en el inglés y otros idiomas importantes, causando un rendimiento sesgado al tratar con idiomas bálticos, eslavos u otros idiomas europeos más pequeños. Esta subrepresentación conduce a una gramática pobre, frases incómodas y alucinaciones.
  • Tildeopen resuelve esto incrustando un “Tokenizer equitativo”diseñado para representar el texto de manera similar, independientemente del lenguaje, la reducción del recuento de tokens y el aumento de la eficiencia de inferencia para idiomas menos representados.
  • Crucialmente, las organizaciones pueden anfitrión—En centros de datos locales o nubes seguras que cumplen con la UE, lo que garantiza la adherencia a GDPR y otros mandatos de protección de datos. Esto aborda las preocupaciones de soberanía vinculadas a los modelos alojados en Estados Unidos o Asia.

Horizonte estratégico: de prototipo a infraestructura europea de IA

  • Tildeopen es un modelo de “base” fundamental. Se espera que sus próximas versiones más especializadas (por ejemplo, modelos de traducción ajustados de instrucciones) se construyan sobre este núcleo.
  • También es un momento de siembra geográfica: Letonia, a través de Tilde, se posiciona como un exportador de tecnologíacon aspiraciones para escalar la infraestructura europea de IA al tiempo que preserva la diversidad lingüística.
  • Para la investigación, el movimiento refleja una investigación más amplia sobre el comportamiento del modelo multilingüe: todavía existen los pasos. Las evaluaciones muestran que incluso las LLM abiertas fuertes pueden alucinar o retrasarse en precisión léxica para los idiomas bálticos, lo que refuerza la necesidad de un desarrollo localizado.

Resumen

Tildeopen LLM Reframas de la EU AI, no como el cumplimiento regulatorio, sino como administración técnica. Es un modelo de alta capacidad con arquitectura transparente, implementación escalable y un feroz compromiso con la equidad lingüística. No se complace en exageración; Ofrece sustancia.


Preguntas frecuentes

P1: ¿Qué es Tildeopen LLM?
Tildeopen es un Modelo de lenguaje grande multilingüe de 30b-parámetro capacitado en supercomputadoras de la UE, optimizadas para idiomas europeos, especialmente las subrepresentadas.

P2: ¿En qué se diferencia de los LLM principales?
A diferencia de los modelos globales que priorizan el inglés, Tildeopen usa un tokenizador equitativo y capacitación equilibrada para garantizar una representación y precisión justas en idiomas europeos más pequeños.

P3: ¿Pueden las organizaciones auto-anotar el modelo?
Sí. Tildeopen es de código abierto bajo CC-By-4.0 y se puede implementar en centros de datos locales o nubes compatibles con la UE para cumplir GDPR y soberanía de datos requisitos.

P4: ¿Cuáles son los principales casos de uso?
Servicios gubernamentales, traducción, educación, asistentes de IA, tecnologías del habla y atención al cliente multilingüe, cualquier dominio que requiera Procesamiento de lenguaje europeo preciso.


Mira el Modelo en la cara abrazada y Detalles técnicos aquí. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Max es analista de IA en MarktechPost, con sede en Silicon Valley, quien da forma activamente al futuro de la tecnología. Enseña robótica en Brainvyne, combate el spam con CONTRYEMAIL y aprovecha la IA diariamente para traducir los avances tecnológicos complejos en ideas claras y comprensibles