Los generalistas también pueden cavar profundamente

En la serie Spotlight de autor, los editores de TDS chatan con miembros de nuestra comunidad sobre su carrera profesional en ciencia de datos y IA, su escritura y sus fuentes de inspiración. Hoy estamos encantados de compartir nuestra conversación con Ida Silfverskiöld.

IDA es una generalista, educada como economista y autodidacta en ingeniería de software. Tiene una formación profesional en gestión de productos y marketing, lo que significa que tiene una rara combinación de habilidades de productos, marketing y desarrollo. En los últimos años, ha estado enseñando y construyendo en el espacio LLM, PNL y de la visión por computadora, cavando en áreas como AI agente, estrategias de cadena de pensamiento y economía de los modelos de alojamiento.


Estudió economía, luego aprendió a codificar y se movió a través del producto, el crecimiento y ahora la construcción práctica de IA. ¿Qué perspectiva te da ese camino generalista que a veces los especialistas a veces pierden?

No estoy seguro.

Las personas consideran que los generalistas tienen un conocimiento superficial, pero los generalistas también pueden cavar profundamente.

Veo generalistas como personas con múltiples intereses y un impulso para comprender el todo, no solo una parte. Como generalista, observa la tecnología, el cliente, los datos, el mercado, el costo de la arquitectura, etc. Le da una ventaja para moverse a través de temas y aún así hacer un buen trabajo.

No digo que los especialistas no puedan hacer esto, pero los generalistas tienden a adaptarse más rápido porque están acostumbrados a recoger las cosas rápidamente.

Has estado escribiendo mucho sobre sistemas de agente últimamente. ¿Cuándo superan los “agentes” superan los patrones más simples de LLM + RAG, y cuándo estamos excediendo las cosas?

Depende del caso de uso, pero en general arrojamos IA a muchas cosas que probablemente no lo necesiten. Si puede controlar el sistema programáticamente, debe hacerlo. Los LLM son excelentes para traducir el lenguaje humano en algo que una computadora puede entender, pero también introducen imprevisibilidad.

En cuanto a RAG, agregar un agente significa agregar costos, por lo que hacerlo solo por tener un agente no es una gran idea. Puede trabajar alrededor del uso de modelos más pequeños como enrutadores (pero esto agrega trabajo). Agregué un agente a un sistema de trapo una vez porque sabía que habría preguntas sobre cómo construirlo también para “actuar”. Entonces, de nuevo, depende del caso de uso.

Cuando dice que la IA de agente necesita “evaluaciones“¿Cuál es su lista de métricas de referencia? ¿Y cómo decide cuál usar?

No diría que siempre necesitas evals, pero las empresas los pedirán, por lo que es bueno saber qué equipos miden para la calidad del producto. Si muchas personas utilizarán un producto, asegúrese de tener algunos en su lugar. Investigué bastante aquí para comprender los marcos y las métricas que se han definido.

Sin embargo, las métricas genéricas probablemente no sean suficientes. Necesita algunos personalizados para su caso de uso. Entonces las Evals difieren por aplicación.

Para un copiloto de codificación, puede rastrear qué porcentaje de finalizaciones acepta un desarrollador (tasa de aceptación) y si el chat completo alcanzó el objetivo (integridad).

Para los agentes de comercio, puede medir si el agente eligió los productos correctos y si las respuestas se basan en los datos de la tienda.

Las métricas relacionadas con la seguridad y la seguridad también son importantes, como el sesgo, la toxicidad y lo fácil que es romper el sistema (jailbreaks, fugas de datos).

Para el trapo, vea mi artículo donde desglose las métricas habituales. Personalmente, solo he configurado métricas para RAG hasta ahora.

Podría ser interesante mapear cómo las diferentes aplicaciones de IA configuran evals en un artículo. Por ejemplo, Shopify Sidekick para agentes de comercio y otras herramientas, como asistentes de investigación legal.

En tu Aplicaciones de trapo de agente Artículo, creó un agente flojo que tiene en cuenta el conocimiento de la compañía (con llameAndex y modal). ¿Qué elección de diseño terminó importando más de lo esperado?

La parte de recuperación es donde te atascarás, específicamente fragmentando. Cuando trabaja con aplicaciones RAG, divide el proceso en dos. La primera parte se trata de obtener la información correcta, y hacerlo bien es importante porque no puede sobrecargar a un agente con demasiada información irrelevante. Para hacerlo preciso, los trozos deben ser bastante pequeños y relevantes para la consulta de búsqueda.

Sin embargo, si hace que los trozos sean demasiado pequeños, corre el riesgo de darle a la LLM muy poco contexto. Con trozos que son demasiado grandes, el sistema de búsqueda puede volverse impreciso.

Configuré un sistema que fragmentó en función del tipo de documento, pero en este momento tengo una idea para usar la expansión del contexto después de la recuperación.

Otra opción de diseño que debe tener en cuenta es que, aunque la recuperación a menudo se beneficia de la búsqueda híbrida, puede no ser suficiente. La búsqueda semántica puede conectar cosas que responden la pregunta sin usar la redacción exacta, mientras que los métodos escasos pueden identificar palabras clave exactas. Pero los métodos dispersos como BM25 están basados ​​en token de forma predeterminada, por lo que BM25 simple no coincidirá con sustras.

Por lo tanto, si también desea buscar sustras (parte de las ID de producto, ese tipo de cosas), debe agregar una capa de búsqueda que también admite coincidencias parciales.

Hay más, pero me arriesgo a que esto se convierta en un artículo completo si sigo adelante.

En sus proyectos de consultoría en los últimos dos años, ¿qué problemas han surgido con mayor frecuencia para sus clientes y cómo se dirige a ellos?

Los problemas que veo son que la mayoría de las empresas están buscando algo personalizado, lo cual es ideal para los consultores, pero construir internamente está plagado de complejidades, especialmente para las personas que no lo han hecho antes. Vi ese número de 95% del Estudio del MIT sobre los proyectos fallando, y no me sorprende. Creo que los consultores deberían ser buenos en ciertos casos de uso en los que puedan implementar y ajustar rápidamente el producto para los clientes, ya que ya han aprendido cómo hacerlo. Pero veremos qué pasa.

Has escrito en TDS sobre tantos temas diferentes. ¿De dónde vienen sus ideas de artículo? ¿Trabajo del cliente, herramientas que desea probar o sus propios experimentos? ¿Y qué tema o problema es lo más importante para ti en este momento?

Un poco de todo, francamente. Los artículos también me ayudan a fundamentar mi propio conocimiento, llenando las piezas faltantes que todavía no ha investigado yo mismo. En este momento estoy investigando un poco sobre cómo los modelos más pequeños (de tamaño mediano, alrededor de 3B-7B) pueden usarse en sistemas de agentes, seguridad y específicamente cómo mejorar el trapo.

Zoom en el zoom: ¿Cuál es el cultivo de equipos de capacidad no obvios en los próximos 12-18 meses (técnico o cultural) para convertirse genuinamente en productores en lugar de solo AI-Busy?

Probablemente aprenda a construir en el espacio (especialmente para los empresarios): solo conseguir un LLM para hacer algo de manera consistente es una forma de comprender cuán impredecibles son los LLM. Te hace un poco más humilde.

Para obtener más información sobre el trabajo de Ida y mantenerse actualizado con sus últimos artículos, puede seguirla TDS o LinkedIn.