Diez observaciones de datos e inteligencia artificial para el otoño de 2025

En el último trimestre de 2025, es hora de dar un paso atrás y examinar las tendencias que darán forma a los datos y la IA en 2026.

Si bien los titulares pueden centrarse en los lanzamientos de los últimos modelos y las guerras de referencias, están lejos de ser los acontecimientos más transformadores sobre el terreno. El verdadero cambio se está produciendo en las trincheras, donde los científicos de datos, los ingenieros de datos + IA y los equipos de IA/ML están activando estos complejos sistemas y tecnologías para la producción. Y, como era de esperar, el impulso hacia la producción de IA (y sus consiguientes vientos en contra) están dirigiendo el barco.

Aquí están las diez tendencias que definen esta evolución y lo que significan de cara al último trimestre de 2025.

1. Los “líderes de datos e inteligencia artificial” están en aumento

Si ha estado en LinkedIn recientemente, es posible que haya notado un aumento sospechoso en la cantidad de datos + títulos de IA en su suministro de noticias, incluso entre los miembros de su propio equipo.

No, no hubo ninguna reestructuración que no supieras.

Si bien se trata en gran medida de un cambio voluntario entre aquellos tradicionalmente categorizados como profesionales de datos o IA/ML, este cambio en los títulos refleja una realidad sobre el terreno que Monte Carlo ha estado discutiendo durante casi un año: los datos y la IA ya no son dos disciplinas separadas.

Desde los recursos y habilidades que necesitan hasta los problemas que resuelven, los datos y la IA son dos caras de una moneda. Y esa realidad está teniendo un impacto demostrable en la forma en que tanto los equipos como las tecnologías han estado evolucionando en 2025 (como pronto verá).

2. El BI conversacional está de moda, pero necesita un control de temperatura

La democratización de los datos ha sido una tendencia de una forma u otra durante casi una década, y el BI conversacional es el último capítulo de esa historia.

La diferencia entre BI conversacional y cualquier otra herramienta de BI es la velocidad y elegancia con la que promete cumplir esa visión utópica, incluso para los usuarios del dominio menos técnicos.

La premisa es simple: si puedes pedirlo, puedes acceder a él. Es beneficioso tanto para los propietarios como para los usuarios… en teoría. El desafío (como ocurre con todos los esfuerzos de democratización) no es la herramienta en sí, sino la confiabilidad de lo que se está democratizando.

Lo único peor que los malos insights es que los malos insights se entreguen rápidamente. Conecte una interfaz de chat a una base de datos no gobernada y no sólo acelerará el acceso, sino que acelerará las consecuencias.

3. La ingeniería de contexto se está convirtiendo en una disciplina central

Los costos de insumos para los modelos de IA son aproximadamente entre 300 y 400 veces mayores que los resultados. Si sus datos de contexto están plagados de problemas como metadatos incompletos, HTML no eliminado o matrices vectoriales vacías, su equipo enfrentará sobrecostos masivos mientras los procesa a escala. Es más, el contexto confuso o incompleto también es un problema importante de confiabilidad de la IA, con nombres de productos ambiguos y una fragmentación deficiente que confunde a los recuperadores, mientras que pequeños cambios en las indicaciones o modelos pueden conducir a resultados dramáticamente diferentes.

Lo que no sorprende que la ingeniería de contexto se haya convertido en la palabra de moda más comentada para los equipos de datos + IA a mediados del año 2025. La ingeniería de contexto es el proceso sistemático de preparación, optimización y mantenimiento de datos de contexto para modelos de IA. Los equipos que dominen el monitoreo del contexto ascendente (garantizando un corpus e incorporaciones confiables antes de que se enfrenten a costosos trabajos de procesamiento) obtendrán resultados mucho mejores de sus modelos de IA. Pero no funcionará en un silo.

La realidad es que la visibilidad de los datos contextuales por sí sola no puede abordar la calidad de la IA, y tampoco pueden hacerlo las soluciones de observabilidad de la IA, como las evaluaciones. Los equipos necesitan un enfoque integral que brinde visibilidad de todo el sistema en producción, desde los datos de contexto hasta el modelo y sus resultados. Un enfoque sociotécnico que combine datos + IA es el único camino hacia una IA confiable a escala.

4. La brecha en el entusiasmo por la IA se amplía

El último informe del MIT lo dice todo. La IA tiene un problema de valor. Y la culpa recae –al menos en parte– en el equipo ejecutivo.

“Todavía tenemos mucha gente que cree que la IA es mágica y que hará lo que quieras sin pensarlo”.

Esa es una cita real y se hace eco de una historia común para los equipos de datos + IA.

Un ejecutivo que no entiende la tecnología establece la prioridad El proyecto no proporciona valor El piloto se descarta Enjuagar y repetir

Las empresas están gastando miles de millones en pilotos de IA sin una comprensión clara de dónde o cómo la IA generará impacto, y está teniendo un impacto demostrable no sólo en el desempeño de los pilotos, sino también en el entusiasmo de la IA en general.

Obtener valor debe ser la primera, segunda y tercera prioridad. Eso significa dotar a los equipos de datos + IA que entienden tanto la tecnología como los datos que la impulsarán con la autonomía para abordar problemas comerciales reales y los recursos para hacer que esos casos de uso sean confiables.

5. Descifrar el código de los agentes frente a los flujos de trabajo de los agentes

Si bien las aspiraciones agentes han estado alimentando la maquinaria exagerada durante los últimos 18 meses, el debate semántico entre “IA agente” y “agentes” finalmente se llevó a cabo en el terreno sagrado de la sección de comentarios de LinkedIn este verano.

En el centro de la cuestión se encuentra una diferencia material entre el desempeño y el costo de estas dos tácticas aparentemente idénticas pero sorprendentemente divergentes.

Los agentes de propósito único son caballos de batalla para tareas específicas y bien definidas donde el alcance es claro y los resultados predecibles. Implementarlos para trabajos concentrados y repetitivos. Los flujos de trabajo agentes abordan procesos desordenados de varios pasos dividiéndolos en componentes manejables. El truco consiste en dividir los grandes problemas en tareas discretas que los modelos más pequeños puedan manejar y luego utilizar modelos más grandes para validar y agregar resultados.

Imagen: Agentes de observabilidad de Montecarlo

Por ejemplo, el agente de resolución de problemas de Monte Carlo utiliza un flujo de trabajo agente para orquestar cientos de subagentes para investigar las causas fundamentales de los problemas de calidad de los datos y la IA.

6. La calidad de la integración está en el centro de atención y la supervisión está justo detrás

A diferencia de los productos de datos de antaño, la IA en sus diversas formas no es determinista por naturaleza. No siempre lo que entra es lo que sale. Entonces, desmitificar cómo se ve el bien en este contexto significa medir no sólo los resultados, sino también los sistemas, el código y los insumos que los alimentan.

Las incrustaciones son uno de esos sistemas.

Cuando las incrustaciones no logran representar el significado semántico de los datos de origen, la IA recibirá el contexto incorrecto independientemente de la base de datos vectorial o el rendimiento del modelo. Precisamente por eso incorporar la calidad se está convirtiendo en una prioridad de misión crítica en 2025.

Las interrupciones de incrustación más frecuentes son problemas de datos básicos: matrices vacías, dimensionalidad incorrecta, valores vectoriales corruptos, etc. El problema es que la mayoría de los equipos solo descubrirán estos problemas cuando una respuesta sea obviamente inexacta.

Un cliente de Monte Carlo captó el problema perfectamente: “No tenemos ninguna idea de cómo se generan las incrustaciones, cuáles son los nuevos datos y cómo afectan el proceso de capacitación. Tenemos miedo de cambiar los modelos de incrustación porque no sabemos cómo lo afectará el reentrenamiento. ¿Tenemos que volver a entrenar nuestros modelos que usan este material? ¿Tenemos que empezar de nuevo por completo?”

A medida que se enfocan las dimensiones clave de calidad y desempeño, los equipos están comenzando a definir nuevas estrategias de monitoreo que pueden respaldar las integraciones en la producción; incluyendo factores como dimensionalidad, consistencia e integridad del vector, entre otros.

7. Las bases de datos vectoriales necesitan una revisión de la realidad

Las bases de datos vectoriales no son nuevas para 2025. Lo que SÍ es nuevo es que los equipos de datos + IA están comenzando a darse cuenta de que las bases de datos vectoriales en las que han estado confiando podrían no ser tan confiables como pensaban.

Durante los últimos 24 meses, las bases de datos vectoriales (que almacenan datos como vectores de alta dimensión que capturan significado semántico) se han convertido en la infraestructura de facto para las aplicaciones RAG. Y en los últimos meses, también se han convertido en una fuente de consternación para los equipos de datos + IA.

Las incrustaciones van a la deriva. Las estrategias de fragmentación cambian. Los modelos integrados se actualizan. Todo este cambio crea una degradación silenciosa del rendimiento que a menudo se diagnostica erróneamente como alucinaciones y envía a los equipos a costosas madrigueras para resolverlas.

El desafío es que, a diferencia de las bases de datos tradicionales con monitoreo incorporado, la mayoría de los equipos carecen de la visibilidad necesaria en la búsqueda de vectores, las incrustaciones y el comportamiento de los agentes para detectar los problemas de los vectores antes del impacto. Es probable que esto conduzca a un aumento en la implementación de monitoreo de bases de datos vectoriales, así como otras soluciones de observabilidad para mejorar la precisión de la respuesta.

8. Las arquitecturas de modelos líderes priorizan la simplicidad sobre el rendimiento.

El panorama de alojamiento de modelos de IA se está consolidando en torno a dos claros ganadores: Databricks y AWS Bedrock. Ambas plataformas están teniendo éxito al incorporar capacidades de IA directamente en la infraestructura de datos existente en lugar de requerir que los equipos aprendan sistemas completamente nuevos.

Databricks gana con una estrecha integración entre el entrenamiento, la implementación y el procesamiento de datos del modelo. Los equipos pueden ajustar los modelos en la misma plataforma donde residen sus datos, eliminando la complejidad de mover datos entre sistemas. Mientras tanto, AWS Bedrock tiene éxito gracias a su amplitud y seguridad de nivel empresarial, ofreciendo acceso a múltiples modelos básicos de Anthropic, Meta y otros, al tiempo que mantiene estrictos estándares de cumplimiento y gobernanza de datos.

¿Qué está causando que otros se queden atrás? Fragmentación y complejidad. Las plataformas que requieren un extenso trabajo de integración personalizado o que obligan a los equipos a adoptar cadenas de herramientas completamente nuevas están perdiendo frente a soluciones que se adaptan a los flujos de trabajo existentes.

Los equipos eligen plataformas de IA basándose en la simplicidad operativa y las capacidades de integración de datos en lugar del rendimiento del modelo en bruto. Los ganadores entienden que el mejor modelo es inútil si es demasiado complicado de implementar y mantener de manera confiable.

9. El Protocolo de contexto modelo (MCP) es el MVP

Model Context Protocol (MCP) ha surgido como el revolucionario “USB-C para IA”, un estándar universal que permite que las aplicaciones de IA se conecten a cualquier fuente de datos sin integraciones personalizadas.

En lugar de crear conectores separados para cada base de datos, CRM o API, los equipos pueden usar un protocolo para brindar a los LLM acceso a todo al mismo tiempo. Y cuando los modelos pueden extraer datos de múltiples fuentes sin problemas, brindan respuestas más rápidas y precisas.

Los primeros usuarios ya están informando de importantes reducciones en la complejidad de la integración y el trabajo de mantenimiento al centrarse en una única implementación de MCP que funcione en todo su ecosistema de datos.

Como beneficio adicional, MCP también estandariza la gobernanza y el registro, requisitos importantes para la implementación empresarial.

Pero no espere que MCP permanezca estático. Muchos líderes de datos e inteligencia artificial esperan que surja un Protocolo de contexto de agente (ACP) durante el próximo año, que maneje escenarios de intercambio de contexto aún más complejos. Los equipos que adopten MCP ahora estarán preparados para estos avances a medida que evolucione el estándar.

10. Los datos no estructurados son el nuevo oro (pero ¿es el oro de los tontos?)

La mayoría de las aplicaciones de IA se basan en datos no estructurados (como correos electrónicos, documentos, imágenes, archivos de audio y tickets de soporte) para proporcionar el rico contexto que hace que las respuestas de IA sean útiles.

Pero si bien los equipos pueden monitorear los datos estructurados con herramientas establecidas, los datos no estructurados han operado durante mucho tiempo en un punto ciego. El monitoreo tradicional de la calidad de los datos no puede manejar archivos de texto, imágenes o documentos de la misma manera que rastrea las tablas de la base de datos.

Soluciones como el monitoreo de datos no estructurados de Monte Carlo están abordando esta brecha para los usuarios al incorporar controles de calidad automatizados a los campos de texto e imágenes en Snowflake, Databricks y BigQuery.

De cara al futuro, el seguimiento de datos no estructurados será tan estándar como los controles tradicionales de calidad de los datos. Las organizaciones implementarán marcos de calidad integrales que traten todos los datos (estructurados y no estructurados) como activos críticos que requieren monitoreo y gobernanza activos.

Imagen: Montecarlo

Mirando hacia el 2026

Si algo nos ha enseñado 2025 hasta ahora es que los equipos que ganan con IA no son los que tienen los mayores presupuestos ni las demostraciones más llamativas. Los equipos que ganan la carrera de la IA son los equipos que han descubierto cómo ofrecer una IA fiable, escalable y digna de confianza en producción.

Los ganadores no se hacen en un entorno de prueba. Están hechos en manos de usuarios reales. Ofrezca soluciones de IA adoptables y ofrecerá valor de IA demostrable. Es así de simple.