Planificación anticipada para la evaluación de proyectos de IA

Lo que hay que encontrar en las empresas en este momento: hay un producto o característica propuesta que implicaría el uso de IA, como un agente basado en LLM, y comienzan las discusiones sobre cómo definir el alcance del proyecto y construirlo. Producto e Ingeniería tendrán grandes ideas sobre cómo esta herramienta podría ser útil y cuánto entusiasmo puede generar para el negocio. Sin embargo, si estoy en esa sala, lo primero que quiero saber después de proponer el proyecto es “¿cómo vamos a evaluar esto?” A veces, esto dará lugar a preguntas sobre si la evaluación de la IA es realmente importante o necesaria, o si esto puede esperar hasta más tarde (o nunca).

Esta es la verdad: sólo necesitas evaluaciones de IA si quieres saber si funciona. Si se siente cómodo construyendo y enviando sin conocer el impacto en su negocio o sus clientes, entonces puede omitir la evaluación; sin embargo, la mayoría de las empresas no estarían de acuerdo con eso. Nadie quiere pensar que construye cosas sin estar seguro de si funcionan.

Entonces, hablemos de lo que necesita antes de comenzar a crear IA, para que esté listo para evaluarla.

El objetivo

Esto puede parecer obvio, pero ¿qué se supone que debe hacer tu IA? ¿Cuál es su propósito y cómo se verá cuando esté funcionando?

Quizás se sorprenda de cuántas personas se aventuran a crear productos de IA sin una respuesta a esta pregunta. Pero realmente importa que nos detengamos y pensemos detenidamente en esto, porque saber lo que nos imaginamos cuando imaginamos el éxito de un proyecto es necesario para saber cómo establecer medidas de ese éxito.

También es importante dedicar tiempo a esta pregunta antes de comenzar, porque puede descubrir que usted y sus colegas/líderes en realidad no están de acuerdo sobre la respuesta. Con demasiada frecuencia, las organizaciones deciden agregar IA a su producto de alguna manera, sin definir claramente el alcance del proyecto, porque la IA se percibe como valiosa en sus propios términos. Luego, a medida que avanza el proyecto, el conflicto interno sobre lo que es el éxito surge cuando las expectativas de una persona se cumplen y las de otra no. Esto puede ser un verdadero desastre y sólo saldrá a la luz después de que se haya dedicado una gran cantidad de tiempo, energía y esfuerzo. La única forma de solucionar este problema es acordar de antemano, explícitamente, lo que está tratando de lograr.

KPI

Sin embargo, no se trata sólo de crear una imagen mental de un escenario en el que este producto o característica de IA esté funcionando. Esta visión debe descomponerse en formas mensurables, como KPI, para que luego podamos construir las herramientas de evaluación necesarias para calcularlos. Si bien los datos cualitativos o ad hoc pueden ser de gran ayuda para obtener color o hacer una “prueba de olfateo”, hacer que las personas prueben la herramienta de IA ad hoc, sin un plan y un proceso sistemáticos, no producirá suficiente información correcta para generalizar sobre el éxito del producto.

Cuando confiamos en las vibraciones, “parece estar bien” o “nadie se queja”, para evaluar los resultados de un proyecto, es a la vez perezoso e ineficaz. Recopilar los datos para obtener una imagen estadísticamente significativa de los resultados del proyecto a veces puede ser costoso y llevar mucho tiempo, pero la alternativa son conjeturas pseudocientíficas sobre cómo funcionaron las cosas. No se puede confiar en que las verificaciones aleatorias o los comentarios que se ofrecen voluntariamente sean verdaderamente representativos de las experiencias generales que tendrán las personas. Las personas habitualmente no se molestan en contar sus experiencias, buenas o malas, por lo que es necesario preguntarles de manera sistemática. Además, los casos de prueba de una herramienta basada en LLM no se pueden crear sobre la marcha: es necesario determinar qué escenarios le interesan, definir pruebas que los capturen y ejecutarlos suficientes veces para tener confianza en el rango de resultados. La definición y ejecución de las pruebas se realizará más adelante, pero es necesario identificar los escenarios de uso y comenzar a planificarlos ahora.

Establezca las porterías antes del partido

También es importante pensar en la evaluación y medición antes de comenzar para que usted y sus equipos no se sientan tentados, explícita o implícitamente, a jugar con los números. Determinar sus KPI después de construir el proyecto o después de implementarlo puede llevar naturalmente a elegir métricas que sean más fáciles de medir, más fáciles de lograr, o ambas. En la investigación en ciencias sociales, existe un concepto que diferencia entre lo que se puede medir y lo que realmente importa, conocido como “validez de la medición”.

Por ejemplo, si desea medir la salud de las personas para un estudio de investigación y determinar si su intervención mejoró su salud, debe definir lo que quiere decir con “salud” en este contexto, desglosarlo y tomar bastantes medidas de los diferentes componentes que incluye la salud. Si, en lugar de hacer todo ese trabajo y gastar tiempo y dinero, simplemente midiera la altura y el peso y calculara el IMC, no tendría validez de medición. El IMC puede, según su perspectiva, tener alguna relación con la salud, pero ciertamente no es una medida integral del concepto. La salud no se puede medir únicamente con algo como el IMC, aunque es barato y fácil determinar la altura y el peso de las personas.

Por esta razón, una vez que haya descubierto cuál es su visión del éxito en términos prácticos, debe formalizarla y dividir su visión en objetivos mensurables. Es posible que más adelante sea necesario desglosar más los KPI que defina o hacerlos más granulares, pero hasta que comience el trabajo de desarrollo de la creación de su herramienta de inteligencia artificial, habrá una cierta cantidad de información que no podrá conocer. Antes de comenzar, haga todo lo posible para establecer los objetivos a los que apunta y cúmplalos.

Piense en el riesgo

Particularmente en el uso de tecnología basada en LLM, creo que tener una conversación muy honesta entre su organización sobre la tolerancia al riesgo es extremadamente importante antes de comenzar. Recomiendo poner la conversación sobre riesgos al comienzo del proceso porque, al igual que definir el éxito, esto puede revelar diferencias de pensamiento entre las personas involucradas en el proyecto, y esas diferencias deben resolverse para que un proyecto de IA avance. Esto puede incluso influir en cómo define el éxito y también afectará los tipos de pruebas que cree más adelante en el proceso.

Los LLM no son deterministas, lo que significa que, dada la misma información, pueden responder de manera diferente en diferentes situaciones. Para una empresa, esto significa que está aceptando el riesgo de que la forma en que un LLM responda a una entrada en particular pueda ser novedosa, indeseable o simplemente extraña de vez en cuando. No siempre se puede garantizar con seguridad que un agente de IA o un LLM se comportará de la manera esperada. Incluso si se comporta como se espera 99 de cada 100 veces, es necesario descubrir cuál será el carácter de ese centésimo caso, comprender los modos de falla o error y decidir si puede aceptar el riesgo que representa; esto es parte de para qué sirve la evaluación de la IA.

Conclusión

Me doy cuenta de que esto puede parecer mucho. ¡Te estoy dando una lista completa de cosas por hacer antes de que alguien escriba una línea de código! Sin embargo, la evaluación de proyectos de IA es más importante que para muchos otros tipos de proyectos de software debido al carácter no determinista inherente de los LLM que describí. Producir un proyecto de IA que genere valor y mejore el negocio requiere un escrutinio minucioso, una planificación y una autoevaluación honesta sobre lo que espera lograr y cómo manejará lo inesperado. A medida que avance con la creación de evaluaciones de IA, podrá pensar en qué tipo de problemas pueden ocurrir (alucinaciones, uso indebido de herramientas, etc.) y cómo determinar cuándo suceden, para poder reducir su frecuencia y estar preparado para cuando ocurran.

Lea más de mi trabajo en www.stephaniekirmer.com

Planificación anticipada para la evaluación de proyectos de IA

ByEquipo de 7 minutos

El objetivo

KPI

Establezca las porterías antes del partido

Piense en el riesgo

Conclusión

By Equipo de 7 minutos

Related Post

Databricks Open-Sources Omnigent: un metaarnés que compone, gobierna y comparte agentes de inteligencia artificial en Claude Code, Codex y Pi

Resolver el problema de probabilidad de cadenas 3Blue1Brown (sin IA)

Una implementación de codificación en MONAI para la segmentación del bazo en 3D de extremo a extremo utilizando UNet en volúmenes de TC médicos

You missed

El universo puede ser un holograma, una extraña “mancha fría” en el Atlántico y una rara bacteria de Lyme encontrada en Nueva York

Los centros de datos están en la boleta electoral: esta candidata de Pensilvania ganó sus primarias manteniéndolos como prioridad

‘El mar no es tuyo’ – Campaña contra las conductas antisociales en las costas de Mallorca

Príncipe William, Kate Middleton, Príncipe Andrés