Consejos sobre el uso inteligente de los LLM.  Diez de mis publicaciones de LinkedIn sobre LLM |  de Lak Lakshmanan |  enero de 2024

Diez de mis publicaciones de LinkedIn sobre LLM

1. No determinismo en los LLM

Los mejores casos de uso de LLM son aquellos en los que se utiliza LLM como herramienta en lugar de exponerlo directamente. Como Richard Seroter dice, ¿cuántos chatbots necesitas?

Sin embargo, este caso de uso de reemplazar páginas de productos estáticas por resúmenes de productos personalizados es como muchos otros casos de uso de LLM en el sentido de que enfrenta riesgos únicos debido al no determinismo. Imagine que un cliente lo demanda dentro de un año, diciendo que compró el producto porque su resumen del producto afirmaba (erróneamente) que el producto era ignífugo y su casa se quemó. La única forma de protegerse sería tener un registro de cada resumen generado y los costos de almacenamiento se acumularán rápidamente…

Una forma de evitar este problema (y lo que sugiero) es generar un conjunto de plantillas utilizando LLM y usar un modelo ML para elegir qué plantilla servir. Esto también tiene la ventaja de permitir la supervisión humana del texto generado, por lo que no está a merced de una ingeniería rápida. (Esta es, por supuesto, solo una forma de utilizar los LLM para crear de manera eficiente diferentes sitios web para diferentes segmentos de clientes; cuanto más cambian las cosas, más riman con las ideas existentes).

Muchos casos de uso de LLM son así: tendrás que reducir el comportamiento no determinista y el riesgo asociado mediante una arquitectura cuidadosa.

2. Problemas de derechos de autor con los LLM

El New York Times está demandando a OpenAI y Microsoft por el uso de los artículos del Times. Esto va mucho más allá de demandas anteriores, afirmando que:

1. OpenAI utilizó millones de artículos y les dio una mayor ponderación, reconociendo así implícitamente la importancia del contenido del Times.

2. Las reseñas de Wirecutter se reproducen palabra por palabra, pero sin los enlaces de afiliados. Esto crea un producto competitivo.

3. GenAI imita el estilo expresivo del Times, lo que lleva a la dilución de la marca.

4. El valor de la tecnología es de billones de dólares para Microsoft y miles de millones de dólares para OpenAI según el aumento de sus límites de mercado.

5. Producir resúmenes detallados no es transformador dado que el trabajo original se creó con un gasto considerable.

La demanda también persigue la estructura corporativa de Open AI, la naturaleza de las estrechas colaboraciones con Open AI en las que Microsoft confió para construir la plataforma informática de Azure y la selección de conjuntos de datos.

https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

El archivo completo tiene 69 páginas, es muy legible y tiene muchos ejemplos. Recomiendo encarecidamente leer el PDF completo que está vinculado desde el artículo.

No soy abogado, así que no voy a opinar sobre los méritos de la demanda. Pero si gana el NYTimes, esperaría que:

1. El costo de las API de LLM aumentará ya que los proveedores de LLM tendrán que pagar a sus fuentes. Esta demanda afecta a la formación y la calidad del servicio base, no sólo cuando los artículos del NYTimes se reproducen durante la inferencia. Por lo tanto, los costos aumentarán en todos los ámbitos.

2. Los LLM de código abierto no podrán utilizar Common Crawl (donde el NYTimes es la cuarta fuente más común). La calidad de su conjunto de datos se degradará y les resultará más difícil igualar las ofertas comerciales.

3. Protege los modelos de negocio asociados a la producción de contenidos únicos y de alta calidad.

4. El SEO privilegiará aún más ser la primera o segunda autoridad más alta en un tema. A otros les resultará difícil conseguir tráfico orgánico. Espere que los costos de adquisición de clientes a través de anuncios aumenten.

3. No utilice un LLM directamente; Utilice un marco de creación de bots

Un percance en un concesionario Chevy

demuestra por qué nunca debes implementar el chatbot en tu sitio web directamente sobre una API LLM o con un GPT personalizado: tendrás dificultades para domar a la bestia. También habrá todo tipo de ataques adversarios contra los que gastarás una gran cantidad de dólares de programador en protegerte.

¿Qué deberías hacer? Utilice un marco de creación de bots de nivel superior, como Google Dialogflow o Amazon Lex. Ambos tienen un modelo de lenguaje incorporado y responderán solo a un número limitado de intenciones. Ahorrándote así una lección costosa.

4. Gemini demuestra la confianza de Google en su equipo de investigación

https://www.linkedin.com/posts/valliappalakshmanan_what-a-lot-of-people-seem-to-be-missing-is-activity-7139380381916545024-Ki3a

Lo que mucha gente parece extrañar es la confianza helada que el liderazgo de Google tenía en su equipo de investigación.

Ponte en la piel de los ejecutivos de Google hace un año. Ha perdido la ventaja de ser el primero en actuar frente a las nuevas empresas que han lanzado al mercado tecnología que usted consideraba demasiado arriesgada. Y necesitas responder.

¿Apostaría a que su equipo de investigación sería capaz de construir un modelo *único* que superaría a OpenAI, Midjourney, etc.? ¿O dividirías tus apuestas y construirías múltiples modelos? [Gemini is a single model that has beat the best text model on text, the best image model on images, the best video model on video, and the best speech model on speech.]

Ahora imagina que tienes dos laboratorios de clase mundial: Google Brain y Deep Mind. ¿Los combinarías y le dirías a 1000 personas que trabajaran en un solo producto? ¿O cubriría la apuesta haciendo que trabajen en dos enfoques diferentes con la esperanza de que uno tenga éxito? [Google combined the two teams calling it Google Deep Mind under the leadership of Demis, the head of Deep Mind, and Jeff Dean, the head of Brain, became chief scientist.]

Tiene un chip de aprendizaje automático personalizado desarrollado internamente (el TPU). Mientras tanto, todos los demás están construyendo modelos con chips de uso general (GPU). ¿Doblas tu ficha interna o cubres tus apuestas? [Gemini was trained and is being served fromTPUs.]

En cada una de estas decisiones, Google optó por hacer todo lo posible.

5. ¿Quién está invirtiendo realmente en Gen AI?

Estimaciones de Omdia de envíos de H100:

Una buena manera de dejar atrás el revuelo publicitario en tecnología es observar quién está invirtiendo realmente en nueva capacidad. Por lo tanto, las estimaciones de Omdia sobre los envíos de H100 son un buen indicador de quién está ganando en Gen AI.

Meta y Microsoft compraron 150.000 H100 cada uno en 2023, mientras que Google, Amazon y Oracle compraron 50.000 unidades cada uno. (El uso interno de Google y Anthropic están en TPU, por lo que su gasto en Gen AI es mayor de lo que indicarían los 50k).

¿Sorpresas?
1. Apple brilla por su ausencia.
2. Tengo mucha curiosidad por saber qué está haciendo Meta. ¿Busca un gran anuncio allí?
3. Oracle está codo a codo con AWS.

Las mejoras en la velocidad de los chips hoy en día no provienen de incluir más transistores en un chip (limitación física). En cambio, provienen de la optimización para tipos de modelos de ML específicos.

Por lo tanto, H100 obtiene aceleraciones de inferencia 30 veces superiores a A100 (la generación anterior) en cargas de trabajo de transformadores al (1) cambiar dinámicamente entre representaciones de 8 y 16 bits para diferentes capas de una arquitectura de transformador (2) aumentar la velocidad de red entre GPU, lo que permite el paralelismo del modelo (necesario). para LLM), no solo paralelismo de datos (suficiente para cargas de trabajo de imágenes). No gastaría $30,000 por chip a menos que sus modelos ML tuvieran este conjunto específico de necesidades específicas.

De manera similar, el A100 mejoró con respecto al V100 mediante el uso de un tipo de coma flotante de precisión de 10 bits especialmente diseñado que equilibra la velocidad y la precisión en cargas de trabajo de incrustación de imágenes y texto.

Entonces, saber qué chips está comprando una empresa le permite adivinar en qué cargas de trabajo de IA está invirtiendo una empresa (en una primera aproximación: el H100 también tiene instrucciones de hardware para algunos problemas de genómica y optimización, por lo que no está 100% claro).

6. A la gente le gusta el contenido generado por IA, hasta que les dices que lo es.

Fascinante estudio del MIT:

1. Si tienes contenido, algunos generados por IA y otros generados por humanos, ¡la gente prefiere el de IA! Si cree que el contenido generado por IA es insulso y mediocre, usted (y yo) somos una minoría. Esto es similar a cómo la mayoría de la gente prefiere la comida en las cadenas de restaurantes: la insulsa funciona para más personas.

2. Si etiqueta el contenido como generado por IA o por humanos, la gente prefiere el contenido humano. Esto se debe a que ahora puntúan más alto el contenido generado por humanos y mantienen las mismas puntuaciones para la IA. Hay algún tipo de señalización de virtudes o favoritismo de especie.

En base a esto, cuando los artistas piden que se etiquete el arte generado por IA o los escritores piden que el texto generado por IA esté claramente marcado, ¿se trata simplemente de una súplica especial? ¿Están los artistas y escritores presionando para obtener un trato preferencial?

No el LLM, sino mi primer amor en la IA (los métodos de pronóstico del tiempo) están teniendo su momento.

Además de GraphCast, existen otros modelos globales de pronóstico del tiempo basados ​​en aprendizaje automático que se ejecutan en tiempo real. Imme Ebert-Uphoff El grupo de investigación los muestra uno al lado del otro (con el pronóstico meteorológico numérico del ECMWF y GFS como control) aquí:

https://lnkd.in/gewVAjMy

La verificación en paralelo en un entorno como el Experimento de Primavera del Centro de Predicción de Tormentas es esencial antes de que estos pronósticos se empleen en la toma de decisiones. No estoy seguro de cuál sería el equivalente para los pronósticos globales, pero dicha evaluación es necesaria. Estoy muy feliz de ver que CIRA está brindando la capacidad.

7. Los LLM se están estancando

No me impresionó mucho después del día de desarrollo de OpenAI.

8. Economía del software Gen AI

Hay dos características únicas asociadas con el software Gen AI: (1) el costo computacional es alto porque necesita GPU para entrenamiento/inferencia (2) el foso de datos es bajo porque los modelos más pequeños ajustados con datos comparativamente pequeños pueden igualar el rendimiento de modelos más grandes . Teniendo esto en cuenta, es posible que ya no se aplique la expectativa habitual de que el software tenga un coste marginal bajo y proporcione enormes economías de escala.

9. ¡Ayuda! Mi libro es parte del conjunto de datos de capacitación de LLM.

https://www.linkedin.com/posts/valliappalakshmanan_seems-that-the-training-dataset-for-many-activity-7112508301090705409-McD_/

Muchos de los LLM del mercado incluyen un conjunto de datos llamado Books3 en su corpus de formación. El problema es que este corpus incluye copias pirateadas de libros. Utilicé una herramienta creada por el autor del artículo de Atlantic.

para comprobar si alguno de mis libros está en el corpus. Y de hecho, parece que uno de los libros lo es.

Fue una publicación humorística, pero captura el verdadero dilema, ya que nadie escribe libros técnicos (toda la audiencia tiene unos pocos miles de copias) para ganar dinero.

10. Una forma de detectar hechos alucinados en texto generado por LLM

https://www.linkedin.com/posts/valliappalakshmanan_bard-just-rolled-out-a-verify-with-google-activity-7109990134770528256-Zzji

Debido a que los LLM son máquinas de autocompletar, elegirán la siguiente frase más probable según el texto anterior. Pero ¿qué pasa si no hay suficientes datos sobre un tema? Entonces, la siguiente frase “más probable” es un promedio de muchos artículos diferentes en el área general, por lo que es probable que la oración resultante sea objetivamente incorrecta. Decimos que el LLM ha “alucinado” un hecho.

Esta actualización de Bard aprovecha la relación entre la frecuencia en el conjunto de datos de entrenamiento y las alucinaciones para marcar áreas del texto generado que probablemente sean objetivamente incorrectas.

Sígueme en LinkedIn: https://www.linkedin.com/in/valliappalakshmanan/