Screenshot 2024 06 12 At 12.55.33 Pm.png

Gboard, la aplicación de teclado móvil de Google, funciona según el principio de decodificación estadística. Este enfoque es necesario debido a la inexactitud inherente de la entrada táctil, a menudo denominada problema del «dedo gordo», en pantallas pequeñas. Los estudios han demostrado que sin decodificar, la tasa de error para cada letra puede llegar al 8 o 9 por ciento. Para garantizar una experiencia de escritura fluida, Gboard incorpora una variedad de funciones de corrección de errores. Algunas de estas funciones son activas y automáticas, mientras que otras requieren que el usuario realice acciones manuales adicionales y seleccione.

La finalización de palabras, las predicciones de la siguiente palabra, la autocorrección activa (AC) y la corrección de clave activa (KC) funcionan juntas para facilitar al usuario la escritura corrigiendo errores y ofreciendo múltiples palabras candidatas en la barra de sugerencias o en línea. así como redacción inteligente. La corrección de errores en la última o más palabras confirmadas se admite mediante postcorrección (PC).

En lo que respecta a la experiencia del usuario, los métodos actuales de rectificación en Gboard tienen dos limitaciones distintas. En primer lugar, los modelos de corrección en el dispositivo, como la corrección clave activa (KC), la autocorrección activa (AC) y la postcorrección (PC), son compactos y rápidos, pero tienen problemas con errores más complejos que requieren contextos de mayor duración. Como resultado, los usuarios aún necesitan escribir lentamente y con precisión para evitar activar estos modelos. Además, los usuarios deben reparar sistemáticamente las palabras que cometen utilizando correctores gramaticales y ortográficos, dos de las capacidades de corrección pasiva de varios pasos. Este proceso puede ser exigente mental y visualmente, ya que los usuarios deben controlar cuidadosamente sus palabras y corregir los errores secuencialmente después de cometerlos. Esto puede provocar una disminución en la velocidad de escritura. Una estrategia común entre los usuarios de Gboard que escriben rápidamente es ignorar las palabras que ya han escrito y concentrarse únicamente en el teclado. Las personas que son «rápidas y descuidadas» cuando escriben y luego pasan a correcciones de errores de nivel superior a veces piden una oración o una función de corrección de nivel superior para ayudarlas.

En un estudio reciente de Google se introdujo una nueva función llamada Corrección. Esta función está diseñada para abordar las quejas más comunes de los que escriben rápido, proporcionando un impulso significativo a su productividad. Ofrece reparación de problemas a nivel de oración y párrafo con una sola pulsación, lo que facilita a los usuarios corregir errores en su texto. El campo de la corrección de errores gramaticales (GEC), que incluye la corrección de pruebas, tiene una rica historia de estudio que abarca soluciones basadas en reglas, métodos estadísticos y modelos de redes neuronales. Los modelos de lenguaje grandes (LLM) tienen una increíble capacidad de crecimiento, lo que presenta una nueva oportunidad de encontrar correcciones de alta calidad para la gramática a nivel de oraciones.

El sistema detrás de la función Proofread se compone de cuatro componentes principales: producción de datos, diseño de métricas, ajuste de modelos y servicio de modelos. Estos componentes trabajan juntos para garantizar la efectividad de la función. Se realizan varios procedimientos para garantizar que la distribución de datos sea lo más cercana posible al dominio de Gboard. Esto se logra a través de una arquitectura sintética de errores meticulosamente construida que incorpora errores de teclado comúnmente cometidos para imitar las entradas de los usuarios. Los investigadores han incluido varias medidas que cubren diferentes aspectos para evaluar más a fondo el modelo. Dado que las respuestas nunca son realmente únicas, especialmente en ejemplos extensos, la métrica se considera la estadística más importante para comparar la calidad del modelo, junto con la verificación de existencia de errores gramaticales y la verificación del mismo significado basada en los LLM. Finalmente, para que el LLM se dedicara a la función de revisión, aplicaron el enfoque InstructGPT de utilizar el ajuste fino supervisado seguido del ajuste del aprendizaje por refuerzo (RL). Se descubrió que la fórmula propuesta para reforzar el aprendizaje y adaptar las tareas de reescritura mejoraba enormemente el rendimiento de revisión de los modelos básicos. Construyen su función sobre el LLM PaLM2-XS de tamaño mediano, que puede acomodarse en un solo TPU v5 después de una cuantificación de 8 bits para reducir el costo de servicio.

Estudios anteriores muestran que la latencia mejora aún más mediante el uso de segmentación, decodificación especulativa y claves de depósito. Ahora que el modelo propuesto está disponible, decenas de miles de consumidores de Pixel 8 cosecharán los beneficios. La producción cuidadosa de datos sintéticos, muchas fases de ajuste fino supervisado y ajuste RL nos permiten lograr un modelo de alta calidad. Los investigadores sugieren la Recompensa Global y la Recompensa Directa en la etapa de ajuste de RL, lo que mejora enormemente el modelo. Los resultados demuestran que el ajuste de RL puede disminuir eficazmente los errores gramaticales, lo que lleva a una reducción relativa del 5,74 por ciento en el índice Bad del modelo PaLM2-XS. Después de optimizar el modelo mediante cuantificación, depósitos, segmentación de entrada y decodificación especulativa, lo implementan en TPU v5 en la nube con una latencia altamente optimizada. Según los hallazgos, la decodificación especulativa redujo la latencia media en un 39,4 por ciento.

Este estudio no solo demuestra la naturaleza innovadora de los LLM para mejorar la UX, sino que también abre un mundo de posibilidades interesantes para futuras investigaciones. Utilizar datos de usuarios reales, adaptarse a varios idiomas, brindar soporte personalizado para diferentes estilos de escritura y desarrollar soluciones que protejan la privacidad en los dispositivos son áreas que podrían explorarse, generando nuevas ideas e innovaciones en el campo.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.