La validación de sistemas de inteligencia artificial se vuelve esencial a medida que los modelos de IA generativa y agéntica se integran en procesos críticos. Estas tecnologías ya influyen en la toma de decisiones, la automatización de flujos y la generación de análisis, lo que obliga a reforzar el control, la trazabilidad y el cumplimiento para gestionar su riesgo de forma adecuada.
Contents
Introducción
La inteligencia artificial estátransformando la forma en que operan las organizaciones, remodelando procesos, acelerando el análisis y permitiendo nuevas formas de generación de conocimientos. A medida que los sistemas de IA pasan de la experimentación a la infraestructura central, las instituciones deben establecermarcos sólidos de gestión de riesgospara garantizar una supervisión efectiva del rendimiento del modelo mediante la validación, la monitorización y la responsabilidad. Las prácticas existentes de riesgo de modelos deben evolucionar para abordarlas características conductuales y operativastanto de los modelos de IA generativa como agéntica, manteniendo la confianza y el cumplimiento normativo para apoyaruna toma de decisiones acertada.
Las expectativas regulatorias están convergiendo entre jurisdicciones de la UE y el Reino Unido, lo que exige que los sistemas de IA cumplan conestándares de explicabilidad, trazabilidad, gobernanza y supervisión humana. En el siguiente artículo proponemos un marco de riesgo modelo diseñado para cumplir con estas expectativas integrandomecanismos de garantía conductual, auditabilidad y control, permitiendo a las instituciones escalar modelos de IA de forma segura y con confianza.
El marco presentado aquí sigue un enfoque estructurado de validación integral que abarca lacalidad y seguridad de los datos, pruebas de comportamiento, evaluación de resultados, supervisión humana (human in the loop), monitorización continua y mecanismos de remediación.
La nueva generación de sistemas de IA
Los modelos de aprendizaje automático se han centrado tradicionalmente en lapredicción estadística, estimación de probabilidades, clasificación de resultadoso detección de patrones en datos estructurados. Estos modelos suelen producir resultados numéricos y se evalúan principalmente mediantemétricas cuantitativas de rendimiento. Sin embargo, los sistemas modernos de IA van más allá del modelado predictivo. Combinan modelos LLM con capacidades comorazonamiento, recuperación de información, planificación e interacción con herramientas externas.
Como resultado, estos sistemas se comportan más comoasistentes analíticosque los modelos estadísticos tradicionales. Para los fines de este artículo, nos centramos en estos sistemas de IA, que normalmente constan de dos componentes clave:
IA generativa: sistemas utilizados para producirrazonamiento y explicación narrativa.
IA agéntica: sistemas que puedenperseguir objetivos, tomar decisiones en varios pasos, usar herramientas y actuar con autonomía.
La IA generativa representa lacapa fundamental de las capacidades modernas de IA. Estos modelos destacan por producirnarrativas coherentes y de alta calidad: resumen de documentos, reorganización de evidencias, reescritura de notas y estructuración de comportamientos complejos en explicaciones claras.
Sus fortalezas residen en lainterpretación y documentación, no en ejecutar tareas como realizar cálculos o inferir datos perdidos. Mejoran la eficiencia humana, perono sustituyen el juicio humano.
La IA Agéntica amplía la IA generativa introduciendo la capacidad de diseñar planes estructurados, identificar herramientas y ejecutar tareas secuenciales, sustituyendo la intervención humana. Esto introduce complejidades adicionales desde la perspectiva de la gestión de riesgos del modelo, incluyendo establecer límites, gobernar herramientas y comprobar la precisión de los resultados.
Así, aunque laIA generativa y la IA agénticason tipos de sistemas distintos, para fines de validación la IA generativa puede tratarse como la línea base de autonomía cero a la que se añaden capacidades de toma de decisiones y ejecución agéntica.
Varios componentes de los sistemas agentes aparecen comúnmente en los flujos de trabajo de servicios financieros, cada uno conllevando comportamientos y riesgos distintos que deben ser validados. Entre ellas se encuentran:
Agentes de planificaciónque dividen las tareas en pasos estructurados y secuencian acciones.
Agentes de recuperaciónque localizan información de documentos o bases de datos.
Agentes que utilizan herramientas y que interactúan con calculadoras, APIs o sistemas internos para realizar acciones.
Agentes de orquestaciónque deciden qué herramientas o flujos de trabajo ejecutar, mientras que los agentes de verificación revisan las salidas y el razonamiento.
En combinación, estos agentes pueden ejecutar procesos de varios pasos de principio a fin, llevando explícitamente el contexto, las salidas intermedias y las decisiones de un paso a otro, de modo que el flujo de trabajo global se mantenga coherente y trazable.
Los riesgos asociados a la IA
Los sistemas modernos de IA introducen una serie de riesgos que dependen decómo generan resultadosy, en algunos casos, decómo están diseñados para actuar con autonomía. Para facilitar la evaluación y control de estos riesgos, es útil agruparlos en categorías que reflejen mejordónde es más probable que surjan fallos. Los tipos de riesgo que se describen a continuación proporcionan una forma práctica de validar el marco y aseguran que las pruebas se mantengan proporcionales acómo se construye el sistema, cómo se comporta y cómo se utiliza.
Riesgo de diseño e implementación
El riesgo de diseño e implementación describe situaciones en las quelas debilidades en la forma en que se construye o configura el sistemase manifiestan comocomportamientos inseguros o no intencionados en tiempo de ejecución. Esto incluye configuraciones de autonomía inapropiadas, diseño de flujo de trabajo defectuoso, herramientas inadecuadas, defectos en el diseño de la arquitectura oconfiguración inadecuada de prompts y barreras de seguridad, todo lo cual puede conducir a resultados que se salen delcomportamiento previsto o conforme a las políticas.
Riesgo central
Los riesgos centrales son comunes tanto a los modelos de IA generativa como a los agentes y reflejanmodos de fallo fundamentales inherentes a sistemas probabilísticos basados en datos. Estos riesgos surgen independientemente de la autonomía del sistema o el uso de herramientas y, por tanto, constituyen lacapa de riesgo básica aplicable a todos los despliegues de IA.
Las categorías de riesgo principalessuelen incluir:
Riesgo de integridad fáctica deafirmaciones no fundamentadas, no verificables, falsas o inventadas.
Integridad del razonamientoRiesgo de lagunas causales, lógica defectuosa, pasos faltantes o razonamiento incoherente.
Consistencia: Riesgo deresultados contradictorios o internamente inconsistentes entre respuestas o ejecuciones.
Riesgo de estabilidad y drift, que cambia el comportamiento durante las ejecuciones, actualizaciones del modelo opequeñas variaciones de entrada.
Riesgo de Exceso de Confianza del Usuario (gobernanza) en el queuna narrativa fluida lleva a los usuarios a confiar en los resultados de la IA sin una supervisión adecuada.
Riesgo específico de agentes
La IA agéntica introduce riesgos adicionales debido a sunaturaleza orientada al flujo de trabajo y orientada a objetivosy su capacidad para actuar conmayor autonomía. A diferencia de los sistemas puramente generativos, estos riesgos surgen de la capacidad del sistema paraplanificar, tomar decisiones intermedias, invocar herramientas y ejecutar acciones con una intervención humana limitada.
Como resultado, laIA Agénticada lugar a categorías de riesgo adicionales, incluyendo:
Integridad de la planificación: Riesgo de pasos inventados, irrelevantes o inseguros en los planes generados.
Coherencia del flujo de trabajo: Riesgo de secuenciación incorrecta, errores de dependencia o lógica de pasos.
Riesgo de seguridad deuso de herramientas: por selección insegura o incorrecta de herramientas/API, parámetros o mal uso.
Riesgo de Integridad:de estados intermedios corrompidos o contaminados a lo largo de los pasos.
Riesgo para la integridadde la recuperación por selección de fuente errónea, fundamentación incorrecta o comportamiento de recuperación inestable.
Auditabilidad y trazabilidad: Riesgo de que no se puedan reproducir ni rastrear planes, razonamientos o interacciones con herramientas.
Protección y autonomía: Riesgo de que el agente exceda la autonomía permitida, eluda restricciones o realice acciones inseguras.
La escala y complejidad de estos riesgos, frente a las de un modelo predictivo tradicional, requieren el diseño de unmarco mejorado de validación del modelo.
Marco de validación de sistemas de IA
Las complejidades de los sistemas de IA introducenriesgos conductualespara los que los marcos tradicionales de validación no están diseñados para abordar. Por esta razón, los marcos de validación de IA requieren un conjunto decomponentes complementarios adicionales:
Calidad y seguridad de los datos: este paso garantiza que el sistema de IA recibaentradas seguras, completas y conforme a las políticasantes de que comience cualquier validación. Para los sistemas Generativos y Agénticos, las entradas incluyenprompts, historial de conversaciones, pruebas recuperadas e instrucciones del sistema.
Pruebas de comportamiento: que evalúan si los sistemas de IA generativa y los agentes de IA se comportan conla disciplina y control adecuados en la práctica. Esto incluye la consistencia con la que el sistema razona, la fiabilidad con la que fundamenta los resultados en la evidencia disponible,cómo responde cuando falta información o es contradictoria, y si las barreras de seguridad siguen siendo efectivas a lo largo del tiempo. Para sistemas con capacidades agénticas, las pruebas de comportamiento también consideranlos límites de autonomía, las decisiones de enrutamiento entre componentes y el uso seguro de herramientas.
Evaluación de resultados: que revisa la calidad de lo que produce el modelo:relevancia, integridad, precisión fáctica, claridad, tono y el grado de refinamiento humano requerido.
Verificación de que el “Human-in-the-Loop” (HITL) sea aplicado tras la evaluación de resultados para incorporarjuicio humano por resultados de alto impactodonde la responsabilidad no puede delegarse en la IA.
Monitorización continua: proporciona seguimiento continuo de laderiva (drift), patrones de alucinaciones, fallos en la recuperación, inestabilidad en la planificación y otros cambios de comportamientoa lo largo del tiempo.
Mecanismo de remediación: donde, incluso con controles exhaustivos, los sistemas de IA generativa y los agentes de IA requierenremediación continua debido a su naturaleza dinámica. Los problemas pueden surgir en cualquier etapa, por lo que la remediación actúa como unbucle con retroalimentación continuadonde las debilidades desencadenan ajustes específicos como el refinamiento de prompts, el ajuste de modelos y las actualizaciones de las barreras de seguridad, asegurando que el sistema se mantengaestable, seguro y alineado con las expectativas de validación.
Todos los componentes del framework se aplican tanto a sistemas de IA generativa como a agentes de IA. Cuando un sistema introduce autonomía o uso de herramientas, el componente de pruebas de comportamiento se aplica de forma más estricta, con comprobaciones adicionales para abordarlos riesgos que estas capacidades suponen. El mismo flujo de trabajo de garantía se aplica de forma constante a lo largo del ciclo de vida, con la remediación activándose siempre que loshallazgos de validación, problemas de salida o señales de monitorizaciónindiquen la necesidad de acciones correctivas.
Las comprobaciones de Calidad y Seguridad de los Datos evalúan si las entradas están completas, bien formadas, son relevantes para la tarea prevista y cumplen con las políticas internas y restricciones de uso, asegurando que las entradas no contengan contenido prohibido, inseguro o inapropiado, ni soliciten acciones o accesos fuera del alcance permitido del sistema.
Las pruebas de comportamiento se centran en si un sistema de IA se comporta de formasegura, predecible y coherente en diferentes condiciones, en lugar de evaluar la calidad de un resultado individual de forma aislada. Esto incluye evaluar su razonamiento, la fiabilidad de su fundamento en la evidencia disponible, la consistencia del comportamiento de rechazo cuando falta información o es contradictoria, y cuando están presentes capacidades agénticas,cómo el sistema planifica, secuencia acciones y utiliza herramientas para avanzar hacia objetivos definidos.
Las pruebas de comportamiento se aplican bajo una variedad decondiciones de estrés controlado, como información incompleta, evidencia contradictoria, ejecuciones repetidas o presión adversarial. Estas condiciones no definen los resultados de aprobado o suspenso en sí mismos. En su lugar, se utilizan paraidentificar debilidades conductuales y distinguir problemas aislados de salida de riesgos conductuales sistemáticosque solo pueden surgir bajo estrés.
En arquitecturas más complejas, el riesgo conductual puede surgir no solo dentro de un único flujo de decisión, sino también deinteracciones entre múltiples agentes. Cuando se utilizan sistemas multiagente, las pruebas de comportamiento se extienden a evaluarlas transferencias de agentes, decisiones de enrutamiento, coordinación entre agentes y la estabilidad de los resultadosentre flujos de trabajo compartidos.
Las decisiones de implementación como estrategias de fragmentación de documentos, diseño de metadatos y controles de acceso no se tratan como pilares de validación separados. Su relevancia surge a través de suimpacto conductual. Cuando estas decisiones de diseño afectan materialmente al rendimiento, se evalúan explícitamente mediantepruebas de comportamiento y evaluación de resultados.
Escalamiento de pruebas de comportamiento en base a la complejidad del sistema
Las pruebas de comportamiento se aplican de formaproporcional. La profundidad y amplitud de las pruebas de comportamiento se ajustan a laautonomía y al perfil de riesgo del sistema:
Las pruebas básicas se aplican a todos los sistemas de IA generativa y agéntica. Estos deben confirmar que el razonamiento eslógico y basado en evidencias, detectan alucinaciones y derivas conductuales, evalúan la estabilidad a lo largo de repetidas ejecuciones y verifican que las barreras de seguridad activanrechazos seguroscuando las entradas son incompletas, contradictorias o están fuera de alcance.
Se aplican pruebas dependientes cuando se utiliza Generación Aumentada de Recuperación (Retrieval Augmented Generation: RAG). Estos evalúan laintegridad de la recuperación, asegurando que las fuentes correctas se seleccionen, citen adecuadamente, se usen sin invención y que el comportamiento de recuperación se mantengaestable a través de las ejecuciones.
Las pruebas dependientes para agentes IA evalúan si el sistema selecciona e invoca herramientas de formaadecuada y dentro de los límites permitidos, sigue los caminos correctos de enrutamiento y escalado, detecta pasos inventados o irrelevantes y mantieneflujos de trabajo coherentes.
Se introducen pruebas de refuerzo para sistemas de mayor riesgo o capacidad de autonomía. Estas incluyenpruebas de estrés adversariales, comprobaciones de alineación regulatoria, coherencia causal y controles de confidencialidadpara asegurar que información sensible no se revela en situaciones bajo presión.
La Evaluación de Resultados se centra en lacalidad, fundamento, integridad y profesionalidadde los resultados individuales.
Para los sistemas de IA agéntica, la evaluación también incluye laseguridad y adecuación de las acciones o flujos de trabajo propuestos. El nivel de refinamiento humano requerido sirve como unindicador práctico de la fiabilidad de la salida.
Para garantizar que la narrativa generada por IA no solo sea segura, sino también utilizable analíticamente, cada resultado debe someterse a un conjunto decontroles de calidad específicosque evalúen su relevancia, claridad, precisión y preparación profesional:
Evaluación de la relevancia: Confirma que la narrativa aborda directamente elobjetivo, la pregunta o el requisito analítico, detectando posibles desviaciones.
Comprobación de claridad y coherencia estructural: Evalúa si la salida esfácil de seguir, ordenada lógicamente y libre de ambigüedad.
Revisión de la precisión factual: Garantiza que todas las afirmaciones seancorrectas, verificables y basadas en evidencia. Cualquier afirmación sin fundamento indica un fallo en la puesta a tierra.
Escaneo de completitud: Comprueba si la narrativa cubretodos los elementos requeridos sin omisiones.
Comprobación de tono y profesionalidad: Confirma un tononeutral y adecuado para entornos regulatorios y de alta dirección.
Puntuación del esfuerzo de edición: Mide elnivel de corrección humana necesaria, identificando problemas de calidad.
En la práctica, las instituciones realizan la Evaluación de Resultados mediante una combinación derutinas automatizadas y revisión humana estructurada, con una clara distinción entre comprobaciones mecánicas y aquellas que requieren juicio.
Se utilizan comprobaciones mecánicas cuando es posible una comparación objetiva. Por ejemplo, verificar si las afirmaciones fácticas están respaldadas por pruebas recuperadas, comprobar la consistencia con datos de referencia conocidos, confirmar que hay secciones requeridas o detectar contenido obvio fuera del alcance puede realizarse automáticamente y de forma consistente y a escala.
El juicio humano se aplica cuando la evaluación depende del contexto, la sutileza o el uso previsto. Esto incluye evaluar si el razonamiento es suficientemente claro y persuasivo, si la narrativa aborda adecuadamente evidencias contradictorias, si el tono y el marco son adecuados para audiencias regulatorias o de alta dirección, y si el resultado es adecuado para su análisis o supervisión.
HITL introduce eljuicio humano explícito como un punto de control formalantes de que se confíe en los resultados, asegurando que la responsabilidad de las decisiones de alto impacto siga siendode los expertos y no del sistema de IA.
La revisión HITL no se aplica por defecto. Solo se activa cuando las salidas se considerande impacto material o sensibles, cuando se superanumbrales de riesgo predefinidoso cuando la ambigüedad permanece sin resolver trascomprobaciones automáticas. Ejemplos típicos incluyen resultados que influyen endecisiones financieras relevantes, informes regulatorios, decisiones de la alta dirección o cambios en insumos clave.
El objetivo de HITL es mantener unaclara responsabilidad humana, evitar ladependencia excesiva de la IA en decisiones materialesy proporcionar unasalvaguarda contra errores residuales de razonamientoantes de que se adopten formalmente los resultados, permitiendo que las actividades demonitorización y remediación continúen a lo largo del ciclo de vida más amplio de la IA.
Los sistemas de IA generativa y agéntica operan enentornos dinámicos donde las entradas, patrones de uso y contexto evolucionan con el tiempo. La Monitorización Continua proporcionasupervisión continuapara asegurar que el comportamiento del sistema se mantenga dentro de loslímites establecidos durante la validación. Actúa como complemento dela validación formal, al detectar deriva conductual bajocondiciones reales de funcionamiento.
En la práctica, la monitorización rastrea un conjunto definido demétricas de comportamiento, como las tasas deafirmaciones no fundamentadas, cambios en los patrones de razonamiento, estabilidad de recuperación y comportamiento de rechazobajo entradas incompletas o contradictorias. Estas métricas se evalúan en función derangos y umbrales predefinidosque reflejan el apetito al riesgo de la institución, con claras distinciones entrecomportamiento aceptable, preocupación emergente y desviación inaceptable.
La monitorización continua tiene como objetivo detectar cuándo el comportamiento comienza adesplazarse fuera de los rangos establecidos bajo condiciones reales de funcionamiento. La monitorización se realiza enintervalos definidosy tras cambios materiales enprompts, modelos subyacentes, configuración de recuperación, ajustes de autonomía o contexto de ejecución.
La Monitorización Continua amplía lasprácticas establecidas de gestión de riesgos de modelospara tener en cuenta lanaturaleza dinámica y adaptativa de los sistemas modernos de IA. Proporciona confianza en que lasconclusiones de validación siguen siendo fiables a lo largo del tiempo, asegurando al mismo tiempo que loscambios de comportamiento se detecten de manera temprana y se aborden antes de que tengan un impacto material.
Incluso con controles sólidos, los sistemas de IA requerirán correcciones periódicas. La variabilidad conductual, las dependencias de recuperación y los procesos de ejecución autónomas hacen que los problemas puedan surgir encualquier momento del ciclo de vida. Por tanto, el mecanismo de remediación opera como un bucle de retroalimentación continuo, asegurando que cada debilidad identificada desde la recepción de datos hasta la monitorización posterior al despliegue conduzca aajustes dirigidos y rastreables.
En la fase de entrada, controles fallidos de calidad y seguridad de datos (por ejemplo, contenido inseguro, entradas incompletas, evidencia de recuperación inconsistente) desencadenan la remediación medianterestricciones actualizadas de prompts, reglas o una configuración mejorada de la recuperación, para asegurarentradas seguras y alineadas con las políticas internasantes de que la validación avance.
Durante la validación del modelo, los hallazgos conductuales se corresponden directamente conacciones correctivas. Las señales de alucinación o drrift requieren unrefinamiento rápido; los problemas de estabilidad pueden requerirajustes en la elección de modelos; los fallos en la recuperación conducen a unamejora en la puntuación; y los comportamientos inseguros de herramientas o autonomía se corrigen mediantepermisos revisados de herramientas, rutas alternativas o ajustes sobre el límite de pasos. Estos permiten restaurar elcomportamiento predecible y auditable de los sistemas de IA.
Tras la evaluación de los resultados, la remediación se centra en mejorar lacalidad narrativa. El alto esfuerzo de edición, los pasos de razonamiento faltantes o la estructura poco clara se abordan refinandoejemplos, las instrucciones y configuraciones dentro de los prompts, asegurando que los resultados cumplan conlas expectativas analíticas y de supervisiónantes de la revisión HITL.
Dentro de HITL, las correcciones humanas repetidas se convierten enseñales explícitas de remediación. Los continuos overrides y escalados informan de la necesidad de actualizaciones de prompts, barreras o límites de autonomía, para que los problemas tratados manualmenteno reaparezcan en futuros resultados.
En la monitorización continua, las alertas de deriva, la inestabilidad de recuperación o los cambios introducidos por actualizaciones del modelo activan automáticamente lossistemas de remediación. Estas incluyenactualizaciones de meta-prompts, pruebas de regresión iterativa y realineamiento de la lógica de rechazo.
En todas las etapas, la remediación depende de unconjunto consistente de palancas de control, incluyendo ajustes rápidos, selección y ajuste de modelos, mejoras en la recuperación,actualizaciones de seguridad, configuración del uso de herramientas y refinamientos en las reglas de autonomía.
Cada prueba fallida o anomalía observada se mapea a uno o más de estos controles y se aborda medianteacciones correctivas específicas.
La remediación es explícitamentebasada en riesgos y evidencias, más que en escenarios o juicios. Los problemas no se consideran resueltos solo mediante anulación manual o aprobación subjetiva. La resolución solo se cierra una vez que se hayan implementadoacciones correctivas, y la revalidación confirma que elriesgo conductual subyacente ya no se reproduce dentro de umbrales definidos. Este enfoque garantiza que la remediaciónfortalezca el sistema de forma duradera, prevenga la recurrencia en condiciones similares y mantengauna auditoría clara (hallazgos, acciones y resultados).
Próximos pasos para las instituciones
A medida que los sistemas de IA se integran en latoma de decisiones y la elaboración de informes, las instituciones deben asegurarse de que estos se comporten de formapredecible y produzcan resultados verificables. Implementar un marco deGestión de Riesgos de Modelos con un enfoque de validación de IA bien calibradoapoyará el desarrollo de sistemas de IA másrobustos, eficientes y fiables.
Las empresas que inviertan en unabuena gobernanza, responsabilidad y un challenge independienteobtendrán ventajas claras:mejor rendimiento, explicabilidad, preparación para auditorías y menos incidentes. La integración depruebas de comportamiento, supervisión HITL, monitorización continua y mecanismos robustos de remediaciónpermitirán unaadopción segura y escalable de la IApara preparar los modelos de negocio en el futuro.