Risk Advisory

Validación de sistemas de IA para la gestión de riesgos de modelos

Por:
Lukas Majer,
Dwayne Price,
Jonathan Fitzpatrick,
Juan García
La validación de sistemas de inteligencia artificial se vuelve esencial a medida que los modelos de IA generativa y agéntica se integran en procesos críticos. Estas tecnologías ya influyen en la toma de decisiones, la automatización de flujos y la generación de análisis, lo que obliga a reforzar el control, la trazabilidad y el cumplimiento para gestionar su riesgo de forma adecuada.
Contents

Introducción

La inteligencia artificial está transformando la forma en que operan las organizaciones, remodelando procesos, acelerando el análisis y permitiendo nuevas formas de generación de conocimientos. A medida que los sistemas de IA pasan de la experimentación a la infraestructura central, las instituciones deben establecer marcos sólidos de gestión de riesgos para garantizar una supervisión efectiva del rendimiento del modelo mediante la validación, la monitorización y la responsabilidad. Las prácticas existentes de riesgo de modelos deben evolucionar para abordar las características conductuales y operativas tanto de los modelos de IA generativa como agéntica, manteniendo la confianza y el cumplimiento normativo para apoyar una toma de decisiones acertada.

Las expectativas regulatorias están convergiendo entre jurisdicciones de la UE y el Reino Unido, lo que exige que los sistemas de IA cumplan con estándares de explicabilidad, trazabilidad, gobernanza y supervisión humana. En el siguiente artículo proponemos un marco de riesgo modelo diseñado para cumplir con estas expectativas integrando mecanismos de garantía conductual, auditabilidad y control, permitiendo a las instituciones escalar modelos de IA de forma segura y con confianza.

El marco presentado aquí sigue un enfoque estructurado de validación integral que abarca la calidad y seguridad de los datos, pruebas de comportamiento, evaluación de resultados, supervisión humana (human in the loop), monitorización continua y mecanismos de remediación.

 

La nueva generación de sistemas de IA

Los modelos de aprendizaje automático se han centrado tradicionalmente en la predicción estadística, estimación de probabilidades, clasificación de resultados o detección de patrones en datos estructurados. Estos modelos suelen producir resultados numéricos y se evalúan principalmente mediante métricas cuantitativas de rendimiento. Sin embargo, los sistemas modernos de IA van más allá del modelado predictivo. Combinan modelos LLM con capacidades como razonamiento, recuperación de información, planificación e interacción con herramientas externas.

Como resultado, estos sistemas se comportan más como asistentes analíticos que los modelos estadísticos tradicionales. Para los fines de este artículo, nos centramos en estos sistemas de IA, que normalmente constan de dos componentes clave:

  • IA generativa: sistemas utilizados para producir razonamiento y explicación narrativa.
  • IA agéntica: sistemas que pueden perseguir objetivos, tomar decisiones en varios pasos, usar herramientas y actuar con autonomía.

La IA generativa representa la capa fundamental de las capacidades modernas de IA. Estos modelos destacan por producir narrativas coherentes y de alta calidad: resumen de documentos, reorganización de evidencias, reescritura de notas y estructuración de comportamientos complejos en explicaciones claras.

Sus fortalezas residen en la interpretación y documentación, no en ejecutar tareas como realizar cálculos o inferir datos perdidos. Mejoran la eficiencia humana, pero no sustituyen el juicio humano.

La IA Agéntica amplía la IA generativa introduciendo la capacidad de diseñar planes estructurados, identificar herramientas y ejecutar tareas secuenciales, sustituyendo la intervención humana. Esto introduce complejidades adicionales desde la perspectiva de la gestión de riesgos del modelo, incluyendo establecer límites, gobernar herramientas y comprobar la precisión de los resultados.

Así, aunque la IA generativa y la IA agéntica son tipos de sistemas distintos, para fines de validación la IA generativa puede tratarse como la línea base de autonomía cero a la que se añaden capacidades de toma de decisiones y ejecución agéntica.

Varios componentes de los sistemas agentes aparecen comúnmente en los flujos de trabajo de servicios financieros, cada uno conllevando comportamientos y riesgos distintos que deben ser validados. Entre ellas se encuentran:

  • Agentes de planificación que dividen las tareas en pasos estructurados y secuencian acciones.
  • Agentes de recuperación que localizan información de documentos o bases de datos.
  • Agentes que utilizan herramientas y que interactúan con calculadoras, APIs o sistemas internos para realizar acciones.
  • Agentes de orquestación que deciden qué herramientas o flujos de trabajo ejecutar, mientras que los agentes de verificación revisan las salidas y el razonamiento.

En combinación, estos agentes pueden ejecutar procesos de varios pasos de principio a fin, llevando explícitamente el contexto, las salidas intermedias y las decisiones de un paso a otro, de modo que el flujo de trabajo global se mantenga coherente y trazable.

Los riesgos asociados a la IA

Los sistemas modernos de IA introducen una serie de riesgos que dependen de cómo generan resultados y, en algunos casos, de cómo están diseñados para actuar con autonomía. Para facilitar la evaluación y control de estos riesgos, es útil agruparlos en categorías que reflejen mejor dónde es más probable que surjan fallos. Los tipos de riesgo que se describen a continuación proporcionan una forma práctica de validar el marco y aseguran que las pruebas se mantengan proporcionales a cómo se construye el sistema, cómo se comporta y cómo se utiliza.

 

Riesgo de diseño e implementación

El riesgo de diseño e implementación describe situaciones en las que las debilidades en la forma en que se construye o configura el sistema se manifiestan como comportamientos inseguros o no intencionados en tiempo de ejecución. Esto incluye configuraciones de autonomía inapropiadas, diseño de flujo de trabajo defectuoso, herramientas inadecuadas, defectos en el diseño de la arquitectura o configuración inadecuada de prompts y barreras de seguridad, todo lo cual puede conducir a resultados que se salen del comportamiento previsto o conforme a las políticas.

 

Riesgo central

Los riesgos centrales son comunes tanto a los modelos de IA generativa como a los agentes y reflejan modos de fallo fundamentales inherentes a sistemas probabilísticos basados en datos. Estos riesgos surgen independientemente de la autonomía del sistema o el uso de herramientas y, por tanto, constituyen la capa de riesgo básica aplicable a todos los despliegues de IA.

Las categorías de riesgo principales suelen incluir:

  • Riesgo de integridad fáctica de afirmaciones no fundamentadas, no verificables, falsas o inventadas.
  • Integridad del razonamiento Riesgo de lagunas causales, lógica defectuosa, pasos faltantes o razonamiento incoherente.
  • Consistencia: Riesgo de resultados contradictorios o internamente inconsistentes entre respuestas o ejecuciones.
  • Riesgo de estabilidad y drift, que cambia el comportamiento durante las ejecuciones, actualizaciones del modelo o pequeñas variaciones de entrada.
  • Riesgo de Exceso de Confianza del Usuario (gobernanza) en el que una narrativa fluida lleva a los usuarios a confiar en los resultados de la IA sin una supervisión adecuada.

 

Riesgo específico de agentes

La IA agéntica introduce riesgos adicionales debido a su naturaleza orientada al flujo de trabajo y orientada a objetivos y su capacidad para actuar con mayor autonomía. A diferencia de los sistemas puramente generativos, estos riesgos surgen de la capacidad del sistema para planificar, tomar decisiones intermedias, invocar herramientas y ejecutar acciones con una intervención humana limitada.

Como resultado, la IA Agéntica da lugar a categorías de riesgo adicionales, incluyendo:

  • Integridad de la planificación: Riesgo de pasos inventados, irrelevantes o inseguros en los planes generados.
  • Coherencia del flujo de trabajo: Riesgo de secuenciación incorrecta, errores de dependencia o lógica de pasos.
  • Riesgo de seguridad de uso de herramientas: por selección insegura o incorrecta de herramientas/API, parámetros o mal uso.
  • Riesgo de Integridad: de estados intermedios corrompidos o contaminados a lo largo de los pasos.
  • Riesgo para la integridad de la recuperación por selección de fuente errónea, fundamentación incorrecta o comportamiento de recuperación inestable.
  • Auditabilidad y trazabilidad: Riesgo de que no se puedan reproducir ni rastrear planes, razonamientos o interacciones con herramientas.
  • Protección y autonomía: Riesgo de que el agente exceda la autonomía permitida, eluda restricciones o realice acciones inseguras.

La escala y complejidad de estos riesgos, frente a las de un modelo predictivo tradicional, requieren el diseño de un marco mejorado de validación del modelo.

 

Marco de validación de sistemas de IA

Las complejidades de los sistemas de IA introducen riesgos conductuales para los que los marcos tradicionales de validación no están diseñados para abordar. Por esta razón, los marcos de validación de IA requieren un conjunto de componentes complementarios adicionales:

  1. Calidad y seguridad de los datos: este paso garantiza que el sistema de IA reciba entradas seguras, completas y conforme a las políticas antes de que comience cualquier validación. Para los sistemas Generativos y Agénticos, las entradas incluyen prompts, historial de conversaciones, pruebas recuperadas e instrucciones del sistema.
  2. Pruebas de comportamiento: que evalúan si los sistemas de IA generativa y los agentes de IA se comportan con la disciplina y control adecuados en la práctica. Esto incluye la consistencia con la que el sistema razona, la fiabilidad con la que fundamenta los resultados en la evidencia disponible, cómo responde cuando falta información o es contradictoria, y si las barreras de seguridad siguen siendo efectivas a lo largo del tiempo. Para sistemas con capacidades agénticas, las pruebas de comportamiento también consideran los límites de autonomía, las decisiones de enrutamiento entre componentes y el uso seguro de herramientas.
  3. Evaluación de resultados: que revisa la calidad de lo que produce el modelo: relevancia, integridad, precisión fáctica, claridad, tono y el grado de refinamiento humano requerido.
  4. Verificación de que el “Human-in-the-Loop” (HITL) sea aplicado tras la evaluación de resultados para incorporar juicio humano por resultados de alto impacto donde la responsabilidad no puede delegarse en la IA.
  5. Monitorización continua: proporciona seguimiento continuo de la deriva (drift), patrones de alucinaciones, fallos en la recuperación, inestabilidad en la planificación y otros cambios de comportamiento a lo largo del tiempo.
  6. Mecanismo de remediación: donde, incluso con controles exhaustivos, los sistemas de IA generativa y los agentes de IA requieren remediación continua debido a su naturaleza dinámica. Los problemas pueden surgir en cualquier etapa, por lo que la remediación actúa como un bucle con retroalimentación continua donde las debilidades desencadenan ajustes específicos como el refinamiento de prompts, el ajuste de modelos y las actualizaciones de las barreras de seguridad, asegurando que el sistema se mantenga estable, seguro y alineado con las expectativas de validación.

Todos los componentes del framework se aplican tanto a sistemas de IA generativa como a agentes de IA. Cuando un sistema introduce autonomía o uso de herramientas, el componente de pruebas de comportamiento se aplica de forma más estricta, con comprobaciones adicionales para abordar los riesgos que estas capacidades suponen. El mismo flujo de trabajo de garantía se aplica de forma constante a lo largo del ciclo de vida, con la remediación activándose siempre que los hallazgos de validación, problemas de salida o señales de monitorización indiquen la necesidad de acciones correctivas.

Las comprobaciones de Calidad y Seguridad de los Datos evalúan si las entradas están completas, bien formadas, son relevantes para la tarea prevista y cumplen con las políticas internas y restricciones de uso, asegurando que las entradas no contengan contenido prohibido, inseguro o inapropiado, ni soliciten acciones o accesos fuera del alcance permitido del sistema.

Las pruebas de comportamiento se centran en si un sistema de IA se comporta de forma segura, predecible y coherente en diferentes condiciones, en lugar de evaluar la calidad de un resultado individual de forma aislada. Esto incluye evaluar su razonamiento, la fiabilidad de su fundamento en la evidencia disponible, la consistencia del comportamiento de rechazo cuando falta información o es contradictoria, y cuando están presentes capacidades agénticas, cómo el sistema planifica, secuencia acciones y utiliza herramientas para avanzar hacia objetivos definidos.

Las pruebas de comportamiento se aplican bajo una variedad de condiciones de estrés controlado, como información incompleta, evidencia contradictoria, ejecuciones repetidas o presión adversarial. Estas condiciones no definen los resultados de aprobado o suspenso en sí mismos. En su lugar, se utilizan para identificar debilidades conductuales y distinguir problemas aislados de salida de riesgos conductuales sistemáticos que solo pueden surgir bajo estrés.

En arquitecturas más complejas, el riesgo conductual puede surgir no solo dentro de un único flujo de decisión, sino también de interacciones entre múltiples agentes. Cuando se utilizan sistemas multiagente, las pruebas de comportamiento se extienden a evaluar las transferencias de agentes, decisiones de enrutamiento, coordinación entre agentes y la estabilidad de los resultados entre flujos de trabajo compartidos.

Las decisiones de implementación como estrategias de fragmentación de documentos, diseño de metadatos y controles de acceso no se tratan como pilares de validación separados. Su relevancia surge a través de su impacto conductual. Cuando estas decisiones de diseño afectan materialmente al rendimiento, se evalúan explícitamente mediante pruebas de comportamiento y evaluación de resultados.

Escalamiento de pruebas de comportamiento en base a la complejidad del sistema

Las pruebas de comportamiento se aplican de forma proporcional. La profundidad y amplitud de las pruebas de comportamiento se ajustan a la autonomía y al perfil de riesgo del sistema:

  • Las pruebas básicas se aplican a todos los sistemas de IA generativa y agéntica. Estos deben confirmar que el razonamiento es lógico y basado en evidencias, detectan alucinaciones y derivas conductuales, evalúan la estabilidad a lo largo de repetidas ejecuciones y verifican que las barreras de seguridad activan rechazos seguros cuando las entradas son incompletas, contradictorias o están fuera de alcance.
  • Se aplican pruebas dependientes cuando se utiliza Generación Aumentada de Recuperación (Retrieval Augmented Generation: RAG). Estos evalúan la integridad de la recuperación, asegurando que las fuentes correctas se seleccionen, citen adecuadamente, se usen sin invención y que el comportamiento de recuperación se mantenga estable a través de las ejecuciones.
  • Las pruebas dependientes para agentes IA evalúan si el sistema selecciona e invoca herramientas de forma adecuada y dentro de los límites permitidos, sigue los caminos correctos de enrutamiento y escalado, detecta pasos inventados o irrelevantes y mantiene flujos de trabajo coherentes.
  • Se introducen pruebas de refuerzo para sistemas de mayor riesgo o capacidad de autonomía. Estas incluyen pruebas de estrés adversariales, comprobaciones de alineación regulatoria, coherencia causal y controles de confidencialidad para asegurar que información sensible no se revela en situaciones bajo presión.

La Evaluación de Resultados se centra en la calidad, fundamento, integridad y profesionalidad de los resultados individuales.

Para los sistemas de IA agéntica, la evaluación también incluye la seguridad y adecuación de las acciones o flujos de trabajo propuestos. El nivel de refinamiento humano requerido sirve como un indicador práctico de la fiabilidad de la salida.

Para garantizar que la narrativa generada por IA no solo sea segura, sino también utilizable analíticamente, cada resultado debe someterse a un conjunto de controles de calidad específicos que evalúen su relevancia, claridad, precisión y preparación profesional:

  • Evaluación de la relevancia: Confirma que la narrativa aborda directamente el objetivo, la pregunta o el requisito analítico, detectando posibles desviaciones.
  • Comprobación de claridad y coherencia estructural: Evalúa si la salida es fácil de seguir, ordenada lógicamente y libre de ambigüedad.
  • Revisión de la precisión factual: Garantiza que todas las afirmaciones sean correctas, verificables y basadas en evidencia. Cualquier afirmación sin fundamento indica un fallo en la puesta a tierra.
  • Escaneo de completitud: Comprueba si la narrativa cubre todos los elementos requeridos sin omisiones.
  • Comprobación de tono y profesionalidad: Confirma un tono neutral y adecuado para entornos regulatorios y de alta dirección.
  • Puntuación del esfuerzo de edición: Mide el nivel de corrección humana necesaria, identificando problemas de calidad.

En la práctica, las instituciones realizan la Evaluación de Resultados mediante una combinación de rutinas automatizadas y revisión humana estructurada, con una clara distinción entre comprobaciones mecánicas y aquellas que requieren juicio.

Se utilizan comprobaciones mecánicas cuando es posible una comparación objetiva. Por ejemplo, verificar si las afirmaciones fácticas están respaldadas por pruebas recuperadas, comprobar la consistencia con datos de referencia conocidos, confirmar que hay secciones requeridas o detectar contenido obvio fuera del alcance puede realizarse automáticamente y de forma consistente y a escala.

El juicio humano se aplica cuando la evaluación depende del contexto, la sutileza o el uso previsto. Esto incluye evaluar si el razonamiento es suficientemente claro y persuasivo, si la narrativa aborda adecuadamente evidencias contradictorias, si el tono y el marco son adecuados para audiencias regulatorias o de alta dirección, y si el resultado es adecuado para su análisis o supervisión.

HITL introduce el juicio humano explícito como un punto de control formal antes de que se confíe en los resultados, asegurando que la responsabilidad de las decisiones de alto impacto siga siendo de los expertos y no del sistema de IA.

La revisión HITL no se aplica por defecto. Solo se activa cuando las salidas se consideran de impacto material o sensibles, cuando se superan umbrales de riesgo predefinidos o cuando la ambigüedad permanece sin resolver tras comprobaciones automáticas. Ejemplos típicos incluyen resultados que influyen en decisiones financieras relevantes, informes regulatorios, decisiones de la alta dirección o cambios en insumos clave.

El objetivo de HITL es mantener una clara responsabilidad humana, evitar la dependencia excesiva de la IA en decisiones materiales y proporcionar una salvaguarda contra errores residuales de razonamiento antes de que se adopten formalmente los resultados, permitiendo que las actividades de monitorización y remediación continúen a lo largo del ciclo de vida más amplio de la IA.

Los sistemas de IA generativa y agéntica operan en entornos dinámicos donde las entradas, patrones de uso y contexto evolucionan con el tiempo. La Monitorización Continua proporciona supervisión continua para asegurar que el comportamiento del sistema se mantenga dentro de los límites establecidos durante la validación. Actúa como complemento de la validación formal, al detectar deriva conductual bajo condiciones reales de funcionamiento.

En la práctica, la monitorización rastrea un conjunto definido de métricas de comportamiento, como las tasas de afirmaciones no fundamentadas, cambios en los patrones de razonamiento, estabilidad de recuperación y comportamiento de rechazo bajo entradas incompletas o contradictorias. Estas métricas se evalúan en función de rangos y umbrales predefinidos que reflejan el apetito al riesgo de la institución, con claras distinciones entre comportamiento aceptable, preocupación emergente y desviación inaceptable.

La monitorización continua tiene como objetivo detectar cuándo el comportamiento comienza a desplazarse fuera de los rangos establecidos bajo condiciones reales de funcionamiento. La monitorización se realiza en intervalos definidos y tras cambios materiales en prompts, modelos subyacentes, configuración de recuperación, ajustes de autonomía o contexto de ejecución.

La Monitorización Continua amplía las prácticas establecidas de gestión de riesgos de modelos para tener en cuenta la naturaleza dinámica y adaptativa de los sistemas modernos de IA. Proporciona confianza en que las conclusiones de validación siguen siendo fiables a lo largo del tiempo, asegurando al mismo tiempo que los cambios de comportamiento se detecten de manera temprana y se aborden antes de que tengan un impacto material.

Incluso con controles sólidos, los sistemas de IA requerirán correcciones periódicas. La variabilidad conductual, las dependencias de recuperación y los procesos de ejecución autónomas hacen que los problemas puedan surgir en cualquier momento del ciclo de vida. Por tanto, el mecanismo de remediación opera como un bucle de retroalimentación continuo, asegurando que cada debilidad identificada desde la recepción de datos hasta la monitorización posterior al despliegue conduzca a ajustes dirigidos y rastreables.

  • En la fase de entrada, controles fallidos de calidad y seguridad de datos (por ejemplo, contenido inseguro, entradas incompletas, evidencia de recuperación inconsistente) desencadenan la remediación mediante restricciones actualizadas de prompts, reglas o una configuración mejorada de la recuperación, para asegurar entradas seguras y alineadas con las políticas internas antes de que la validación avance.
  • Durante la validación del modelo, los hallazgos conductuales se corresponden directamente con acciones correctivas. Las señales de alucinación o drrift requieren un refinamiento rápido; los problemas de estabilidad pueden requerir ajustes en la elección de modelos; los fallos en la recuperación conducen a una mejora en la puntuación; y los comportamientos inseguros de herramientas o autonomía se corrigen mediante permisos revisados de herramientas, rutas alternativas o ajustes sobre el límite de pasos. Estos permiten restaurar el comportamiento predecible y auditable de los sistemas de IA.
  • Tras la evaluación de los resultados, la remediación se centra en mejorar la calidad narrativa. El alto esfuerzo de edición, los pasos de razonamiento faltantes o la estructura poco clara se abordan refinando ejemplos, las instrucciones y configuraciones dentro de los prompts, asegurando que los resultados cumplan con las expectativas analíticas y de supervisión antes de la revisión HITL.
  • Dentro de HITL, las correcciones humanas repetidas se convierten en señales explícitas de remediación. Los continuos overrides y escalados informan de la necesidad de  actualizaciones de prompts, barreras o límites de autonomía, para que los problemas tratados manualmente no reaparezcan en futuros resultados.
  • En la monitorización continua, las alertas de deriva, la inestabilidad de recuperación o los cambios introducidos por actualizaciones del modelo activan automáticamente los sistemas de remediación. Estas incluyen actualizaciones de meta-prompts, pruebas de regresión iterativa y realineamiento de la lógica de rechazo.

En todas las etapas, la remediación depende de un conjunto consistente de palancas de control, incluyendo ajustes rápidos, selección y ajuste de modelos, mejoras en la recuperación, actualizaciones de seguridad, configuración del uso de herramientas y refinamientos en las reglas de autonomía.

Cada prueba fallida o anomalía observada se mapea a uno o más de estos controles y se aborda mediante acciones correctivas específicas.

La remediación es explícitamente basada en riesgos y evidencias, más que en escenarios o juicios. Los problemas no se consideran resueltos solo mediante anulación manual o aprobación subjetiva. La resolución solo se cierra una vez que se hayan implementado acciones correctivas, y la revalidación confirma que el riesgo conductual subyacente ya no se reproduce dentro de umbrales definidos. Este enfoque garantiza que la remediación fortalezca el sistema de forma duradera, prevenga la recurrencia en condiciones similares y mantenga una auditoría clara (hallazgos, acciones y resultados).

 

Próximos pasos para las instituciones

A medida que los sistemas de IA se integran en la toma de decisiones y la elaboración de informes, las instituciones deben asegurarse de que estos se comporten de forma predecible y produzcan resultados verificables. Implementar un marco de Gestión de Riesgos de Modelos con un enfoque de validación de IA bien calibrado apoyará el desarrollo de sistemas de IA más robustos, eficientes y fiables.

Las empresas que inviertan en una buena gobernanza, responsabilidad y un challenge independiente obtendrán ventajas claras: mejor rendimiento, explicabilidad, preparación para auditorías y menos incidentes. La integración de pruebas de comportamiento, supervisión HITL, monitorización continua y mecanismos robustos de remediación permitirán una adopción segura y escalable de la IA para preparar los modelos de negocio en el futuro.