Me pidieron que hiciera algo nuevo en el trabajo: dado un volcado de datos de texto no estructurado, envíenos un informe detallado en PDF con información sobre lo que dicen los clientes sobre nuestros productos este trimestre.
Entonces escribí un mensaje claro. Le dio a Claude un conjunto detallado de instrucciones. Le alimenté el conjunto de datos. Me dio una salida. Lo entregué.
Pero cuando la parte interesada y yo revisamos en profundidad el resultado final, notamos algunas cosas cada vez más inquietantes.
Claude estaba confiadamente equivocado.
No está mal, está mal, como hechos alucinantes surgidos de la nada. Más bien… exceso de confianza equivocado. Generaría un informe de información trimestral y diría algo como:
“El sentimiento negativo en el departamento de Vestidos aumentó un 23 % este trimestre, lo que indica un cambio significativo en la satisfacción del cliente que justifica la atención inmediata del equipo de producto”.
Suena genial. Excepto que ese aumento fue impulsado casi en su totalidad por un único artículo popular que se lanzó a mediados del trimestre con un defecto de tamaño conocido. Un producto. No todo el departamento.
Claudio no tenía idea. Y mi mensaje no le dijo que le importara.
Una habilidad de informe de revisión de clientes trimestral
Voy a explicarle una habilidad de Claude que creé y que genera un informe trimestral sobre la opinión del cliente a partir de un texto de reseña de producto no estructurado, entregado en formato PDF a las partes interesadas.
Obviamente, no compartiré el conjunto de datos real que analicé en el trabajo. El conjunto de datos que estoy usando es el conjunto de datos de Reseñas de ropa de comercio electrónico para mujeres de Kaggle (licencia CC0). Contiene 23.000 reseñas de clientes reales y anónimas en los departamentos de ropa (partes superiores, vestidos, partes inferiores, chaquetas y más) con texto, calificaciones de estrellas y metadatos de productos. Las referencias a la empresa en las reseñas se han reemplazado por “minorista”.
La habilidad debería:
Lea una sección filtrada de reseñas del trimestre actual. Agrúpelas por departamento. Identifique tendencias e inquietudes. Escriba un resumen profesional en PDF para el equipo de liderazgo del producto.
Aquí está el mensaje original:
Usted es un analista de datos que genera un informe trimestral sobre la opinión del cliente para un minorista de comercio electrónico de ropa femenina. Teniendo en cuenta las reseñas de los clientes de este trimestre (incluido el texto de la reseña, las calificaciones de estrellas y el departamento), escriba un informe profesional de las partes interesadas que incluya:
– Un resumen general del sentimiento para el trimestre.
– Temas clave por departamento (Tops, Vestidos, Bottoms, Chaquetas)
– 2-3 ideas destacadas del texto de revisión
– Una breve recomendación para el equipo de producto.
Sea profesional y claro.
Cuando haya terminado con esta tarea, cree una habilidad titulada análisis de revisiones y guarde sus instrucciones allí.
Cómo se ve realmente “confiadamente equivocado”
Aquí hay un ejemplo de lo que Claude produjo con la ingenua habilidad anterior, en un trimestre donde el departamento de Vestidos tuvo una afluencia de críticas negativas:
“El sentimiento negativo en el departamento de Vestidos aumentó significativamente este trimestre, y los clientes frecuentemente citan problemas de ajuste y talla. Esto sugiere que los estándares de tallas del minorista pueden estar desviándose de las expectativas de los clientes, una tendencia que, si no se aborda, podría erosionar la lealtad a la marca en esta categoría clave”.
¿La verdadera explicación? Un vestido (un solo SKU) se lanzó en la semana 7 con un problema de calidad del lote. Las reseñas se referían casi en su totalidad a ese único elemento. El resto del departamento de Vestidos estaba funcionando bien.
Claude no necesariamente inventó nada. Simplemente no tenía contexto de por qué existía el patrón. Y sin ese contexto, hizo lo que hacen los LLM: llenó el vacío con la narrativa que sonaba más plausible.
La solución: 4 líneas que DEBES incluir
Línea 1: Dile a Claude qué contexto falta
NO tiene acceso a calendarios de lanzamiento de productos, registros de inventario, campañas promocionales o historial de nivel de SKU individual. NO atribuya las tendencias a nivel de departamento a causas de toda la marca. Informe los patrones que observe en el texto; No explique por qué existen a menos que las propias revisiones lo dejen claro.
Esta única instrucción elimina una enorme categoría de error confiado. Sin ella, Claude siempre buscará una narrativa estratégica porque eso es lo que hace un buen analista, y Claude está tratando de ser un buen analista.
El problema es que un buen analista también sabe lo que no sabe. Dicen: “Estamos viendo quejas sobre tallas elevadas en vestidos este trimestre. Esto puede deberse únicamente a un lanzamiento reciente, pero necesitaríamos datos a nivel de SKU para confirmarlo”. Claude no dirá eso a menos que tú se lo digas.
Línea 2: Defina lo que realmente significa “significativo”
A Claude le encanta la palabra significativo. Lo usa todo el tiempo. Y casi nunca lo define.
Solo marque un cambio de sentimiento como “significativo” si representa un cambio de más de 15 puntos porcentuales en la proporción positiva/negativa en comparación con el trimestre anterior, O si un tema aparece en más del 20% de las reseñas en un departamento determinado. Para señales más pequeñas, utilice lenguaje como “ligero aumento” o “aumento menor”. No utilice la palabra “notable” o “significativo” para nada que esté por debajo de estos umbrales. Informe siempre el valor numérico real del turno junto con su reclamo.
Puede ajustar los umbrales del 15 % y 20 % según lo que tenga sentido para sus datos. La cuestión es anclar el lenguaje de Claude a algo real.
Sin esto, Claude calificará de “significativo” tanto un aumento de 3 reseñas en las quejas como una caída genuina del sentimiento de 30 puntos. Sus partes interesadas comenzarán a desconectarse. Y cuando suceda algo realmente significativo, no lo sabrán.
Línea 3: Forzar un calificador de confianza en cada percepción
Antes de cada conocimiento, incluya una etiqueta de confianza entre paréntesis: [Data-Supported], [Possible]o [Speculative].
Usar [Data-Supported] solo cuando la información se deriva directamente del texto de revisión proporcionado. Usar [Possible] cuando la idea es una inferencia razonable del texto. Usar [Speculative] cuando se hacen suposiciones sobre causas o contexto que no están presentes en las revisiones mismas.
Cuando agregué esta línea por primera vez, esperaba principalmente [Data-Supported] etiquetas. Lo que en realidad obtuve fue una combinación de los tres, lo que me dijo exactamente cuánto había estado Claude llenando vacíos en mis informes anteriores sin que yo me diera cuenta.
Un ejemplo de cómo se ve el resultado después de agregar esta línea:
Ahora sus partes interesadas pueden ver exactamente qué es sólido y qué es una suposición. Ese es un informe mucho más honesto.
Línea 4: Requerir que Claude establezca los límites del análisis
Al final del informe, incluya una sección llamada “Lo que este informe no puede decirle”. Enumere 2 o 3 cosas que serían necesarias para sacar conclusiones más sólidas, por ejemplo, desgloses de reseñas a nivel de SKU, tasas de devolución o datos de compras repetidas.
Esta línea obliga a Claude a reconocer los límites de su propio análisis. Y les brinda a sus partes interesadas una hoja de ruta clara sobre qué preguntas investigar más a fondo, que en realidad es lo más valioso que puede hacer un analista.
Aquí está el resultado:
Cómo utilizar Claude para perfeccionar la habilidad
Escribir una habilidad una vez no es suficiente. Debe probarlo y mejorarlo de la misma manera que iteraría en un modelo.
Paso 1: ejecute la habilidad en ejemplos conocidos.
Filtre el conjunto de datos a una ventana de tiempo en la que ya sepa lo que sucedió. (Un trimestre con retirada de producto, promoción estacional, período con tasas de devolución inusualmente altas, etc.) Vea lo que dice Claude. ¿Utiliza correctamente la palabra “significativo”? ¿Indica hechos/estadísticas donde debería?
Paso 2: proporcione a Claude su propia producción y pídale que la audite.
Claude sabe detectar su propio exceso de confianza cuando le pides explícitamente que lo busque.
Aquí hay un informe trimestral sobre la opinión del cliente generado por un analista de IA. Revise todos los conocimientos de este informe y marque aquellos que:
– Hacer afirmaciones causales sin evidencia directa en el texto de revisión.
– Utilizar palabras como “significativo” o “notable” sin justificación
– Atribuir problemas de productos individuales a tendencias de toda la marca.
– Supongamos que el contexto no está presente en el conjunto de datos (calendarios de lanzamiento,
inventario, historial de compras)
Para cada elemento marcado, sugiera una versión revisada que tenga una cobertura más adecuada.
Paso 3: agregue una cláusula para cada falla que encuentre.
Cada vez que Claude produzca un informe con una idea claramente errónea o demasiado confiada, pídale que agregue una nueva restricción a su habilidad. Con el tiempo, tu habilidad se convierte prácticamente en un registro de todo lo que Claude hace mal.
Una palabra de precaución
Agregar restricciones a su habilidad a veces puede hacer que Claude produzca un resultado en el que cada oración termine con “… aunque se necesitarían datos adicionales para confirmar esto”.
Eso tampoco sirve.
El objetivo es una confianza calibrada donde la fuerza del lenguaje de Claude coincida con la fuerza de la evidencia. Si encuentra que Claude se vuelve demasiado indeciso, puede agregar una restricción de contrapeso:
No sobrecalifiques cada afirmación. Si un patrón aparece de forma clara y consistente en muchas revisiones, indíquelo claramente e incluya referencias a los datos detrás del patrón. Calificadores de reserva para reclamaciones genuinamente inciertas o especulativas.
Conclusión
Claude es impresionante generando informes de aspecto profesional, lo que a veces puede ser el problema.
El esmalte oculta el exceso de confianza. Sus partes interesadas ven un formato limpio y un lenguaje autorizado, y asumen que los conocimientos son sólidos incluso cuando no lo son.
Las cuatro líneas que he recorrido hasta aquí no hacen que Claude sea menos capaz. Lo hacen más honesto. Y en el contexto periodístico, la honestidad es más valiosa que la impresionante.
Lea más sobre para qué otros casos de uso es bueno Claude aquí, incluida la creación de paneles, la depuración y la redacción de documentación:
→ 3 habilidades de Claude que todo científico de datos necesitará en 2026
Gracias por leer
Conéctate conmigo en LinkedIn
¡Cómprame un café para apoyar mi trabajo!