Todas las herramientas digitales, incluida la IA, son susceptibles de sufrir ciberataques. Esto se debe a que todos los sistemas, sin excepción, son vulnerables. Así, ya sea como consecuencia de un defecto de software o como resultado de la ingeniería social, las empresas están permanentemente bajo la amenaza de actores que intentan explotar dichas vulnerabilidades, normalmente con fines lucrativos. Mientras el mundo digital siga siendo el principal ámbito en el que se desarrolla la actividad comercial (y francamente humana), la ciberseguridad seguirá siendo primordial.
Una de las vías que funciona como forma de combatir los ciberataques es el concepto de red-teaming. Con una terminología tomada prestada de los ejercicios de simulacro de la Segunda Guerra Mundial, el Red Teaming supone un esfuerzo por parte de profesionales de la seguridad ofensiva encargados de “simular ataques del mundo real a los sistemas y redes de una organización”. Mientras que muchas empresas deciden tener su propia división de equipos rojos (“red teams”), otras ponen “recompensas” a disposición de ingenieros autónomos que se dedican a hackear éticamente y someter a pruebas de estrés los sistemas de las empresas. Encontrar vulnerabilidades e informar de ellas a una empresa tecnológica suele conducir a una mayor colaboración, y a veces funciona como una vía de empleo en el sector de seguridad de la empresa.
En pocas palabras, Red Teaming es un esfuerzo financiado por varias partes que alinea incentivos para atacar una plataforma o algoritmo, encontrando vulnerabilidades e informando de ellas para obtener recompensas. Esto se ha consolidado como una de las prácticas más comunes en ciberseguridad hoy en día. El Red Teaming se ha implementado en una amplia gama de áreas de ciberseguridad, incluida la IA, donde se utiliza para probar vulnerabilidades en modelos. Sin embargo, existen otras dos formas de aplicar este enfoque con algoritmos de IA.
Una de ellas se conoce cada vez más como Red Teaming mediante Prompt Hacking; esto significa que los ingenieros intentan “engatusar a los modelos para que se comporten mal”. Esto puede implicar conseguir que enuncien con confianza una respuesta errónea a un problema matemático o que inventen un número de identificación para una persona que no existe. El Prompt Hacking se realiza para encontrar vulnerabilidades y corregirlas con el fin de reforzar los guardarraíles de las herramientas impulsadas por IA, principalmente los grandes modelos lingüísticos o LLM. Se trata de un enfoque fundamentalmente diferente al de los equipos rojos, ya que no implica ningún pirateo real.
Sin embargo, el enfoque no técnico del pirateo inmediato también sirve de pista para resolver un grave problema de la IA: los sesgos inobservables. Como se ha informado ampliamente, hay varias etapas en las que una herramienta de IA puede introducir o reproducir sesgos. Mediante la adopción de prácticas de red teaming, los algoritmos de IA pueden ser “auditados” por diferentes sectores de la sociedad para arrojar luz sobre cualquier posible sesgo que esté presente en un algoritmo tanto de forma intencionada como no intencionada.
La adopción de este enfoque para mitigar los sesgos en la IA tiene dos ventajas claras: la primera es la contratación de personas con conocimientos en áreas que tradicionalmente no se dedican a la creación de estas herramientas, es decir, disciplinas como la demografía, la estadística, el análisis de políticas públicas e incluso los estudios culturales. Dado que el enfoque no tiene por qué ser tan técnico como el Red Teaming tradicional, un esfuerzo multidisciplinar puede empezar a buscar sesgos y hacer que las empresas sean conscientes de ellos, conservando además el incentivo de ganar una “recompensa”.
La segunda razón que aboga por un enfoque más democrático de la evaluación de los sesgos es que es importante dejar atrás el estigma que se está formando en torno a la IA y sus “inclinaciones”. Se trata de un elemento ineludible de los sistemas de Inteligencia Artificial, pero vilipendiar estas herramientas por su potencial para reproducir sesgos no es un camino correcto hacia la innovación. A menudo, las empresas optan por no revelar el sesgo de sus sistemas porque representa un factor de riesgo considerable. Los creadores de algoritmos de uso generalizado no suelen tener los conocimientos técnicos ni la sensibilidad temática necesarios para buscar e identificar estos problemas.
Este enfoque de financiamiento por varias partes para supervisar los sesgos de la IA puede crear un sistema de incentivos que reduzca los daños de los sesgos inobservables y, al mismo tiempo, desestigmatice la cuestión. Este tipo de algoritmos tienen una eficiencia innovadora y necesitan ser implementados con sensatez para poder utilizar todo su potencial. Al implicar a más áreas de conocimiento en este debate, se podrán identificar y corregir más casos, lo que siempre será beneficioso para el sector en su conjunto.
* Guillermo Alfaro estudió Relaciones Internacionales y Ciencia Política en el ITAM, donde se especializó en investigación sobre IA y gobernanza tecnológica global. Fue miembro de la primera cohorte del Diálogo de Política Cibernética para las Américas, organizado en conjunto con la Universidad de Stanford (2024), y ha fomentado el debate en torno a estos temas mediante la organización de eventos académicos en México. Guillermo está profundamente comprometido con posicionar al Sur Global a la vanguardia de las discusiones sobre IA y tecnología.
Fuente: Somos Innovación