Cómo Medir y Hacer Confiable un Sistema de Inteligencia Artificial

Alexio Cogni
21 Min Read


La producción de sistemas confiables basados en inteligencia artificial aumentará su impacto en el ámbito laboral y en el apoyo a otros propósitos. Por lo tanto, es fundamental incorporar los objetivos indicados desde la fase de planificación inicial hasta el lanzamiento final y el mantenimiento del producto.

En los últimos años, hemos observado un crecimiento exponencial de nuevas aplicaciones que aprovechan las oportunidades ofrecidas por la inteligencia artificial (IA) para resolver ciertas problemáticas que, de manera habitual, son mucho más complejas y costosas de abordar mediante sistemas informáticos convencionales.

Al mismo tiempo, a medida que los usuarios se familiarizan con estas nuevas funcionalidades, comienzan a surgir dudas sobre la aceptación y confianza que estos mismos usuarios depositan en estas tecnologías.

Por lo tanto, surge la pregunta: ¿realmente los usuarios desean utilizar la inteligencia artificial para resolver sus problemas y, sobre todo, confían en sus resultados? En consecuencia, ¿qué desafíos enfrentará quien diseña productos, servicios y funcionalidades habilitadas para IA, para que sean aceptados favorablemente en lugar de ser descartados por no cumplir con los requisitos operativos o las expectativas, como la confianza del usuario final?

Inteligencia Artificial y Percepción de su Confiabilidad

En resumen, el éxito de la IA, al igual que lo ha sido en el pasado para todas las innovaciones, está vinculado a la percepción de su confiabilidad, incluso antes de su utilidad.

Percepción de la confiabilidad de una IA
Percepción de la confiabilidad de una IA

Para comprender mejor el problema planteado, consideremos los siguientes ejemplos que nos permiten destacar algunos escenarios aplicativos del mundo real:

  • ¿Cómo evalúa un ingeniero informático la confiabilidad de una herramienta para la generación automática de código que produce un output funcional y de calidad?
  • ¿Cómo mide un médico la confiabilidad de las aplicaciones sanitarias predictivas que pueden facilitar el diagnóstico sobre las condiciones clínicas del paciente?
  • ¿De qué manera un soldado puede estimar la confiabilidad de la información sobre amenazas proporcionada por un visor artificial capaz de detectar adversarios?

En resumen, ¿qué sucede cuando los usuarios no confían en los nuevos sistemas? La capacidad de la IA para colaborar positivamente con el ingeniero, el médico o el soldado depende de la confianza que estos tengan en los sistemas basados en IA, para que esta colaboración sea efectiva y pueda proporcionar los resultados esperados.

Por lo tanto, para generar niveles adecuados de confianza, es necesario gestionar las expectativas sobre lo que la IA puede ofrecer de manera realista.

Este artículo presenta las principales investigaciones y lecciones aprendidas sobre cómo es posible medir la confiabilidad de la IA y, por lo tanto, cómo los usuarios finales pueden obtener los resultados esperados.

Confianza en la Inteligencia Artificial: una Variable Compleja

Antes de comenzar el análisis, analicemos algunas definiciones clave relacionadas con un sistema basado en inteligencia artificial:

  • Confianza: es un estado psicológico basado en las expectativas del comportamiento de un sistema, la confianza en que el sistema cumplirá su promesa.
  • Confianza calibrada: es un estado psicológico basado en una confianza regulada, alineada en tiempo real con las percepciones de confiabilidad de los usuarios finales.
  • Confiabilidad: es la propiedad de un sistema de demostrar que cumplirá su promesa y, al mismo tiempo, proporcionará la evidencia de que en ese contexto específico el sistema es confiable y que durante su uso los usuarios finales son conscientes de sus capacidades.

La confianza es una variable compleja, transitoria y personal; todos estos factores dificultan la medición de la experiencia humana en relación con la confianza. Incluso la experiencia individual de seguridad psicológica (por ejemplo: sentirse seguro dentro de una relación personal, un equipo, una organización o un gobierno), así como la percepción del vínculo entre el sistema de inteligencia artificial y uno mismo, pueden influir en la confianza en el sistema.

Cuando las personas interactúan y/o trabajan con sistemas de IA, desarrollan una comprensión (o falta de comprensión) de las capacidades y limitaciones del sistema en un contexto de uso específico.

Variable de confianza de IA
Variable de confianza de IA

La conciencia también puede desarrollarse a través de la formación, la experiencia y la información compartida por colegas sobre sus experiencias. Esta comprensión puede convertirse en un nivel de confianza en el sistema justificado por las experiencias de uso.

Otra forma de pensar implica que los usuarios finales desarrollen un nivel de confianza en el sistema calibrado en lo que saben sobre sus capacidades en el contexto actual.

Por lo tanto, construir un sistema confiable genera confianza percibida en el sistema por parte de los usuarios.

Cómo Diseñar una Inteligencia Artificial Confiable

Solemos pensar en la inteligencia artificial exclusivamente como una herramienta para automatizar una serie de procesos, facilitando tareas, a menudo con resultados mejores, en menos tiempo y a costos más bajos. Todo esto es cierto, pero lo que a menudo olvidamos es que la inteligencia artificial también es una ciencia y, como todas las ciencias, nos dice algo sobre nosotros mismos, tanto como individuos como sociedad, y sobre el mundo en el que vivimos.

Partimos del supuesto de que no podemos obligar a las personas a confiar en los sistemas de IA, pero podríamos diseñarlos centrándonos en los aspectos que nos permitan medir su confiabilidad. Aunque no es matemáticamente posible cuantificar la confiabilidad general de un sistema en su contexto de aplicación, algunos aspectos de la confiabilidad pueden ser medidos cuantitativamente, por ejemplo, podríamos detectar la confianza del usuario a través de sus comportamientos, como el uso del sistema.

A principios de 2023, el National Institute of Standards and Technology (NIST) publicó el Marco de Gestión de Riesgos de Inteligencia Artificial, en el cual indica los siguientes aspectos esenciales para medir la confiabilidad de la IA:

  • Validez y confiabilidad.
  • Protección.
  • Seguridad y resiliencia.
  • Responsabilidad y transparencia.
  • Comprensión y modelado.
  • Confidencialidad.
  • Imparcialidad, a través de la mitigación de prejuicios dañinos.

Estas variables pueden evaluarse mediante herramientas cualitativas y cuantitativas, como los valores de rendimiento funcional utilizados para medir la validez y la confiabilidad, o el análisis de la experiencia de usuario (UX) para determinar la usabilidad, comprensión y modelado de un sistema.

Concepto de diseño de una IA confiable
Concepto de diseño de una IA confiable

Sin embargo, algunas de estas componentes pueden no ser medibles debido a su propia naturaleza. Por ejemplo, el diseñador de un sistema puede ser capaz de evaluar si funciona bien en cada una de estas componentes, pero los usuarios podrían ser cautelosos o desconfiados del resultado debido a las interacciones que tienen con el sistema.

La medición de la confiabilidad de la IA debería ocurrir durante todo el ciclo de vida de un sistema de inteligencia artificial.

Al principio, durante las etapas de diseño de un sistema de inteligencia artificial, los responsables del proyecto, los investigadores centrados en el lado humano y los especialistas en riesgos asociados con el uso de la inteligencia artificial, deberían realizar una serie de pruebas para comprender las necesidades de los usuarios finales y, preferiblemente, anticipar los requisitos para la confiabilidad de la IA.

El diseño inicial de un sistema debe tener en cuenta necesidades y confiabilidades deseadas por los usuarios.

Además, mientras los desarrolladores comienzan a implementar el sistema, otros miembros del equipo deberían continuar realizando sesiones de experiencia de usuario con los usuarios finales para validar el diseño y recopilar comentarios sobre las componentes para poder medir la confiabilidad durante todo el ciclo de desarrollo del sistema.

Simultáneamente, el equipo de desarrollo debería continuar validando el sistema, de acuerdo con los criterios indicados por las componentes de confiabilidad y con los usuarios finales, incluso durante la distribución inicial. Estas actividades tienen un propósito diferente a los procedimientos de prueba habituales utilizados para garantizar la calidad de un producto.

Durante la implementación, cada versión debe ser monitoreada constantemente, tanto para controlar su desempeño en relación con las expectativas, como para evaluar la percepción del sistema por parte de los usuarios.

Los administradores del sistema también deberían establecer criterios para el lanzamiento dentro de un sistema distribuido y un manual de uso, de manera que los usuarios puedan tener expectativas adecuadas al interactuar con el sistema.

Finalmente, los creadores de sistemas también deberían colaborar con los usuarios finales para que la tecnología se cree para satisfacer sus necesidades. Estas colaboraciones ayudan a las personas que utilizan el sistema a evaluar regularmente su confianza en el sistema.

En resumen, la confianza es un fenómeno interno y los creadores de sistemas deben crear experiencias confiables a través de puntos de contacto, como la documentación del producto, las interfaces digitales y las pruebas de validación, para permitir a los usuarios emitir juicios sobre la confiabilidad del sistema en tiempo real.

Contestar los Indicadores de Confiabilidad para los Usuarios Finales

La posibilidad de evaluar con precisión la confiabilidad de un sistema permite a los usuarios tener una confianza medida en el sistema mismo. La confianza que los usuarios suelen depositar en los sistemas basados en inteligencia artificial implica que estos sean considerados confiables dentro de ciertos límites.

Entre los principales indicadores que nos permiten caracterizar un sistema de IA confiable, podemos incluir la capacidad para que los usuarios finales respondan las siguientes preguntas:

  • ¿Sabe qué está haciendo el sistema y por qué?
  • ¿Puede evaluar por qué el sistema está formulando ciertas respuestas o generando una determinada salida?
  • ¿Comprende qué tan confiables son las respuestas del sistema?
  • ¿Puede evaluar cuán seguro puede ser una determinada salida? Si la respuesta a alguna de estas preguntas fuera negativa, entonces sería necesario mejorar aún más el sistema para garantizar que esté diseñado para ser confiable.

Además, es fundamental que las capacidades del sistema sean transparentes y verificables, de modo que los usuarios estén informados y seguros mientras realizan su trabajo y puedan usarlo como se espera.

Críticas de una Inteligencia Artificial Confiable

Como se destacó anteriormente en este artículo, para evaluar la confiabilidad de un sistema de inteligencia artificial es necesario considerar diferentes elementos y puntos de vista.

Las críticas que suelen dirigirse a la IA incluyen la posibilidad de que pueda generar confusión (por ejemplo, no siempre proporciona resultados únicos), pueda ser a veces disruptiva (por ejemplo, puede cambiar una salida consolidada durante años), parezca poco práctica o innecesaria porque proporciona alternativas complejas.

Una revisión de la literatura sobre IA revela que algunos autores a menudo utilizan los términos «confianza» y «confiabilidad» de manera intercambiable, mientras que otros los consideran como dos características distintas. Por lo tanto, por un lado, es alentador saber que la IA confiable es un campo multidisciplinario, por otro lado, tener una multitud de definiciones puede generar confusión en aquellos que son nuevos en el diseño de un sistema de IA confiable.

Las diferentes definiciones de confiabilidad para los sistemas de IA también permiten a los diseñadores elegir o seleccionar arbitrariamente los elementos de confiabilidad que satisfacen sus necesidades.

Del mismo modo, la definición de IA confiable varía según el contexto de uso del sistema. Por ejemplo, los factores que caracterizan a un sistema de inteligencia artificial confiable en un contexto sanitario pueden no ser los mismos que en un contexto financiero.

Estas diferencias contextuales, y la influencia de las características del sistema, son relevantes para diseñar un sistema de inteligencia artificial confiable en un contexto dado y, al mismo tiempo, capaz de satisfacer las necesidades de los usuarios finales para fomentar su aceptación y adopción.

Sin embargo, para aquellos que no están familiarizados con estas consideraciones, el diseño de sistemas confiables puede resultar frustrante e incluso desalentador.

Incluso algunos elementos característicos de la confiabilidad, comúnmente aceptados, pueden parecer estar en conflicto entre sí. Por ejemplo, la transparencia y la privacidad a menudo están en conflicto. Para garantizar la transparencia, es necesario revelar a los usuarios información que describa adecuadamente cómo se desarrolló el sistema, mientras que para garantizar la privacidad, los usuarios no deben tener acceso a todos los detalles del sistema.

En estos casos, es necesario hacer una negociación para determinar cómo equilibrar los aspectos que están en conflicto y qué compromisos deben ser aceptados. En estas situaciones, el equipo de desarrollo debe priorizar la confiabilidad del sistema, las necesidades de los usuarios finales y el contexto de uso, lo que puede implicar compromisos en otros aspectos del sistema.

Es interesante notar que, si bien los compromisos son una consideración necesaria al diseñar y desarrollar sistemas de inteligencia artificial confiables, el tema está notablemente ausente en muchos documentos técnicos que discuten la confianza y la confiabilidad de la IA.

A menudo, la determinación del grado de compromiso se deja a expertos legales y éticos. Sin embargo, este trabajo debería ser realizado por el mismo grupo multidisciplinario que está creando el sistema y se le debería dar la misma importancia que se da a las actividades para definir los aspectos matemáticos o de ingeniería de estos sistemas.

Explorando la Confiabilidad de las Tecnologías Emergentes de IA

A medida que las tecnologías de inteligencia artificial innovadoras y disruptivas, como Microsoft 365 Copilot y ChatGPT, realmente entren en el mercado, habrá varios aspectos que se deberán tener en cuenta. Una organización que decida implementar una nueva tecnología de IA debería preguntarse:

  • ¿Cuál es el propósito previsto del producto de IA?
  • ¿Qué tan representativo es el conjunto de datos de entrenamiento en comparación con el contexto operativo?
  • ¿Cómo se ha entrenado el modelo?
  • ¿El producto es adecuado para el caso de uso?
  • ¿Cómo se alinean las características del producto con el nivel de responsabilidad de mi caso de uso y mi contexto?
  • ¿Cuáles son los límites de su funcionalidad?
  • ¿Cuál es el proceso para controlar y verificar el rendimiento del producto de IA?
  • ¿Cuáles son las métricas de rendimiento del producto?
  • ¿Cómo pueden los usuarios interpretar la salida del producto?
  • ¿Cómo se monitorea continuamente el producto para detectar fallos y otras condiciones de riesgo?
  • ¿Qué prejuicios implícitos están incorporados en la tecnología?
  • ¿Cómo se evalúan los aspectos de confiabilidad? ¿Con qué frecuencia?
  • ¿Hay alguna manera de volver a entrenar esta herramienta por un experto para implementar políticas de equidad?
  • ¿Podré entender y controlar la salida de la herramienta?
  • ¿Cuáles son los controles de seguridad para evitar que este sistema cause daño? ¿Cómo se pueden probar estos controles?

Generalmente, los usuarios finales se convierten en los primeros observadores de los fallos de la tecnología AI y sus experiencias negativas son indicadores del riesgo de deterioro de la confiabilidad. Por lo tanto, las organizaciones que decidan implementar y/o utilizar tales sistemas y, al mismo tiempo, hacerlos confiables, deberían apoyar a los usuarios finales en los siguientes aspectos:

  • Incluir indicadores dentro del sistema para señalar cuando no funciona como se espera.
  • Realizar evaluaciones del rendimiento del sistema en contextos actuales y nuevos.
  • Prever una alerta del sistema cuando no funcione dentro de un rango de confiabilidad aceptable.
  • Obtener información útil para alinear sus expectativas y necesidades con el potencial riesgo introducido por el sistema.

Las respuestas a las preguntas planteadas al principio de este párrafo apuntan, por un lado, a aclarar si la tecnología es adecuada para el propósito previsto y, por otro lado, a verificar si el usuario puede validar continuamente la confiabilidad. Las organizaciones también pueden implementar funcionalidades técnicas y modelos de gobernanza para fomentar el mantenimiento continuo de la confiabilidad de la IA y proporcionar plataformas para probar, evaluar y gestionar los productos de IA.

Conclusiones

Los conceptos presentados en este artículo representan un punto de partida para la creación de una IA confiable. Por supuesto, será necesario llevar a cabo actividades adicionales de investigación y desarrollo para investigar nuevos métodos, mejores prácticas y pautas para la creación de una IA confiable. Aquí hay algunos elementos en los que los investigadores de IA están trabajando para medir la confiabilidad:

  • Justicia (imparcialidad): la identificación y mitigación de sesgos en los modelos de aprendizaje automático (ML) que permitan la creación de sistemas más equitativos.
  • Robustez (resiliencia): si los sistemas de inteligencia artificial no son lo suficientemente resistentes a fallos o errores, fracasarán rápidamente.
  • Explicabilidad: representa un atributo relevante para un sistema que desea ser confiable para todas las partes interesadas: ingenieros y desarrolladores, usuarios finales.

La producción de sistemas confiables basados en inteligencia artificial aumentará el impacto de estos sistemas en el ámbito laboral y en el apoyo a otros propósitos. Por lo tanto, es fundamental incorporar los objetivos mencionados desde la fase de planificación inicial hasta la versión final y el mantenimiento del producto. Solo de esta manera las empresas podrán alcanzar el máximo potencial de las expectativas previstas por la IA.

Share This Article
1 Comment

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *