evaluar - 7 minutos

Deje de evaluar los LLM con “verificaciones de ambiente”

May 16, 2026 Equipo de 7 minutos

gerente. Su equipo acaba de pasar tres semanas refactorizando la cadena de mensajes para el agente de investigación de IA interno de su empresa. Implementan la nueva versión en un…

Política

La Armada acoge en Madrid a 35 jefes de marinas europeas para evaluar amenazas en el desorden internacional

May 6, 2026 Equipo de 7 minutos

“Los desafíos al orden internacional exigen una respuesta coordinada”, explica el almirante general Antonio Piñeiro, jefe de Estado Mayor de la Armada (AJEMA) en una nota difundida por esa rama…

Inteligencia artificial

ServiceNow Research presenta EnterpriseOps-Gym: un punto de referencia de alta fidelidad diseñado para evaluar la planificación agente en entornos empresariales realistas

March 18, 2026 Equipo de 7 minutos

Los modelos de lenguajes grandes (LLM) están pasando de ser conversacionales a agentes autónomos capaces de ejecutar flujos de trabajo profesionales complejos. Sin embargo, su implementación en entornos empresariales sigue…

Inteligencia artificial

Una guía de codificación para instrumentar, rastrear y evaluar aplicaciones LLM utilizando modelos TruLens y OpenAI

February 23, 2026 Equipo de 7 minutos

def normalize_ws(s: str) -> str: devolver re.sub(r”\s+”, ” “, s).strip() RAW_DOCS =

Inteligencia artificial

Cómo construir una tubería Crescendo Red-Teaming de múltiples vueltas para evaluar y probar la seguridad de LLM utilizando Garak

January 14, 2026 Equipo de 7 minutos

En este tutorial, construimos un arnés de equipo rojo avanzado de estilo crescendo de múltiples giros utilizando Garak para evaluar cómo se comportan los modelos de lenguaje grandes bajo una…

Ciéncia

NIH acuerda evaluar subvenciones científicas estancadas

December 31, 2025 Equipo de 7 minutos

30 de diciembre de 2025 2 minutos de lectura Agréganos en GoogleAñadir ciencia-Am NIH acuerda evaluar subvenciones científicas estancadas Los funcionarios de salud acordaron evaluar las subvenciones pendientes para investigación…

Inteligencia artificial

FACTS Benchmark Suite: una nueva forma de evaluar sistemáticamente la factibilidad de los LLM

December 10, 2025 Equipo de 7 minutos

Los modelos de lenguajes grandes (LLM) se están convirtiendo cada vez más en una fuente principal para la entrega de información en diversos casos de uso, por lo que es…

Inteligencia artificial

LLM como juez: qué es, por qué funciona y cómo utilizarlo para evaluar modelos de IA

November 26, 2025 Equipo de 7 minutos

Sobre la idea de utilizar IA para evaluar la IA, también conocida como “LLM-as-a-Judge”, mi reacción fue: “Está bien, oficialmente hemos perdido la cabeza”. Vivimos en un mundo donde incluso…

Inteligencia artificial

Conozca SDialog: un kit de herramientas Python de código abierto para crear, simular y evaluar agentes conversacionales basados en LLM de un extremo a otro

November 14, 2025 Equipo de 7 minutos

¿Cómo pueden los desarrolladores generar, controlar e inspeccionar de manera confiable grandes volúmenes de datos de diálogo realistas sin crear una pila de simulación personalizada cada vez? Conozca SDialog, un…

Inteligencia artificial

Cómo evaluar la calidad de recuperación en tuberías RAG (Parte 3): DCG@k y NDCG@k

November 12, 2025 Equipo de 7 minutos

Asegúrese también de consultar las partes anteriores: 👉Parte 1: Precision@k, Recall@k y F1@k 👉Parte 2: Rango recíproco medio (MRR) y precisión promedio (AP) En mi serie de publicaciones sobre medidas…

Deje de evaluar los LLM con “verificaciones de ambiente”

La Armada acoge en Madrid a 35 jefes de marinas europeas para evaluar amenazas en el desorden internacional

ServiceNow Research presenta EnterpriseOps-Gym: un punto de referencia de alta fidelidad diseñado para evaluar la planificación agente en entornos empresariales realistas

Una guía de codificación para instrumentar, rastrear y evaluar aplicaciones LLM utilizando modelos TruLens y OpenAI

Cómo construir una tubería Crescendo Red-Teaming de múltiples vueltas para evaluar y probar la seguridad de LLM utilizando Garak

NIH acuerda evaluar subvenciones científicas estancadas

FACTS Benchmark Suite: una nueva forma de evaluar sistemáticamente la factibilidad de los LLM

LLM como juez: qué es, por qué funciona y cómo utilizarlo para evaluar modelos de IA

Conozca SDialog: un kit de herramientas Python de código abierto para crear, simular y evaluar agentes conversacionales basados en LLM de un extremo a otro

Cómo evaluar la calidad de recuperación en tuberías RAG (Parte 3): DCG@k y NDCG@k

You missed

Dimiten el presidente y el CEO de Plus Ultra, investigados por el préstamo a la secadora

Una victoria histórica: no se construirá la primera granja de pulpos del mundo

Por qué la confianza de los jugadores se está convirtiendo en la próxima capa de crecimiento del iGaming en Europa (patrocinado)

2029 es fecha límite realista para el segundo centro de salud de Orihuela Costa – The Leader

Tag: evaluar

You missed