► Escrito por Luz Castro, licenciada en Psicología (UNMDP), especialista en Constructivismo y Educación (FLACSO), integrante del colectivo Arte es Ética
I. “Lies, damn lies and statistics”
Algunos conceptos clave para comprender el problema de los sesgos en Inteligencia Artificial Generativa.
“Sufrimos de “ilusiones de precisión”. Una vez que un entusiasta contrae esta enfermedad,
él y todos los que dependen de sus conclusiones para su bienestar resultan condenados”.
M. J. Moroney, Hechos y Estadísticas
Existen algunas creencias de sentido común arraigadas profundamente en quienes tienen un conocimiento escaso, rudimentario o poco preciso de ciertas disciplinas, con respecto al conocimiento científico: la idea del “conocimiento cierto”. Frecuentemente, cuando se trata de ciencias que involucran conocimiento matemático y estadístico, a esas representaciones se suman las ideas de “neutralidad” y “objetividad”. Cuando se trata de conocimiento de sentido común acerca del avance tecnológico en general, a menudo escuchamos a las personas describirlo como un fenómeno de avance rápido, impresionante, capaz de superar las limitaciones inherentes a la condición humana. Los desarrollos en Inteligencia artificial toman aportes tanto de la psicología como de la estadística, además de los conocimientos ingenieriles necesarios para darles forma concreta.
En el caso de las Inteligencias Artificiales Generativas, ya hemos visto que existe una fuerte tendencia en medios de comunicación y discurso de sentido común a construir la idea de que “son inteligentes”, identificándose como indicadores de esa supuesta condición de inteligencia, la velocidad, la capacidad de procesar grandes cantidades de información, la ingente capacidad de memoria, y la aparente corrección que, a ojos no entrenados, aparentan sus productos. Cabe destacar que, en el campo de la educación, las concepciones de sentido común frecuentemente también privilegian la velocidad y la memoria, así como la fluidez verbal y la solvencia en el cómputo, como indicadores de que una persona es inteligente. No obstante, en Psicología, el constructo “inteligencia” es ampliamente discutido porque existen diferentes teorías y por ende distintas concepciones sobre qué conductas son inteligentes; de las cuales emanan distintas formas de “evaluar” la inteligencia humana. Estas teorías, además, han sido desarrolladas en un contexto cultural predominantemente europeo o estadounidense, con lo cual privilegian ciertos criterios culturalmente impregnados, que no necesariamente representan a toda la población humana. Los esfuerzos de los psicólogos guiados por estos marcos teóricos, orientados a medir con precisión un concepto cuya naturaleza es inobservable, han dado lugar a diferentes técnicas de evaluación; pero quizá lo que más ha calado en el conocimiento de sentido común es la idea de que la inteligencia equivale a un “coeficiente intelectual alto”: al resultado de un test, cuya validez no es puesta en cuestión por lo que comentábamos más arriba: la creencia en que el conocimiento científico es “cierto”. Esta breve introducción invita a relacionar lo que sucede con las creencias tanto sobre la ciencia, la tecnología y la inteligencia humana, con la actual discusión sobre las inteligencias artificiales generativas. Considerando lo que ya hemos abordado en un artículo previo, esto es, la tendencia de los seres humanos a asimilar lo nuevo a algo que ya es conocido previamente, no es sorprendente el intento de otorgar significado mediante representaciones sociales al novedoso fenómeno del desarrollo de artefactos que emulan la creatividad humana en diversos dominios; y a este conocimiento de sentido común es necesario analizarlo y ponerlo en cuestión, así como intentar develar la trama de intereses y conflictos sociales que subyace a estas concepciones.
Las creencias sobre las Inteligencias Artificiales Generativas dejan de lado algunos hechos fundamentales: uno, nada de lo que producen las Inteligencias Artificiales Generativas es un producto creativo que surge espontáneamente, sino que es producido, dos, que ese aprendizaje es fruto de un proceso de entrenamiento que requiere datos -datos humanos volcados en la internet, por caso-, y tres, que tanto el proceso de desarrollo como el de muestreo de los datos y la supervisión del entrenamiento están a cargo de personas humanas, con todo lo que ello implica (Ación et al, 2021). Los humanos tenemos una percepción del mundo que está pregnada por nuestro género, nuestra clase social, la región del mundo donde vivimos, la cultura de nuestro grupo social, la etnia a la que pertenecemos, la ideología política, la religión… nuestro conocimiento previo. Por ende, quienes proyectan, desarrollan, entrenan y refinan sistemas de aprendizaje automático, toman decisiones que están atravesadas por esas variables y muchas más.
Es aquí donde confluyen el problema del muestreo (propio de la Estadística) y el de sesgos (en el campo de la inteligencia artificial).
El objetivo de este artículo es explicitar la relación entre el procedimiento de muestreo de los datos y los sesgos en la inteligencia artificial con la inherente subjetividad propia de quienes la desarrollan y utilizan. Para el desarrollo de Inteligencia artificial ética y responsable, es primero necesario admitir que son requisitos indispensables la transparencia del dataset y una cuidadosa evaluación de los riesgos y los beneficios de una nueva tecnología. Lo cual implica procesos que requieren tiempos humanos, de reflexión y debate fundado, y no los velocísimos tiempos de la automatización maquínica: la reflexión humana no debe ser sustituida por las decisiones del mercado ni el lobby de los beneficiarios de los desarrollos tecnológicos.
Cuando lo barato sale caro: El prejuicio, el muestreo y el aprendizaje automático como formas de economía cognitiva.
El ser humano vive en un mundo socialmente construido donde debe administrar el tiempo, por lo cual la “economía” en el manejo del mismo es una aspiración dominante en una multitud de actividades. Clasificar es una de las operaciones lógicas básicas que permite el ahorro de tiempo para la toma de decisiones; y está en la base tanto del fenómeno social del prejuicio como de la estadística y el aprendizaje automático.
Vamos a definir muy brevemente algunos de estos conceptos, para que el lector tenga una idea de a qué hacemos referencia y pueda comprender por qué relacionamos estos tres fenómenos.
El prejuicio consiste en una forma de clasificación en el ámbito del sentido común cotidiano, consistente en adjudicar a un sujeto determinadas características de un grupo al cual pertenece antes de conocerlo en su singularidad. Tales características, además, son socialmente construidas y están permeadas por intereses, conflictos y creencias. El pensamiento prejuicioso ahorra el tiempo de analizar un objeto/sujeto en profundidad para incluirlo en una categoría conforme algunos criterios, e inferir automáticamente que poseerá las características asociadas al grupo en su totalidad. Por ejemplo: dado un contexto donde un grupo étnico es prejuiciado y asociado a la delincuencia, para quien sostenga esos prejuicios, toda persona que pertenezca a él poseerá el atributo de delincuente o la potencialidad de serlo. Ahora bien, no se trata de una operación lógica neutra, sino que está acompañada de actitudes cargadas positiva o negativamente, que constituyen el germen de la conducta. Discriminar o incluir son conductas en cuya base existe un sistema de creencias y actitudes, que no son meramente individuales sino que se construyen socialmente en la interacción al interior de y entre los grupos. Conflictos inherentes a la contraposición de intereses, etnias, ideología política o religiosa, son fenómenos sociales que alimentan los prejuicios y a su vez son retroalimentados por estos en una especie de círculo vicioso.
La tecnología no desarrollada conforme criterios éticos y un muestreo riguroso puede contribuir notablemente a agravar estas situaciones. Un caso conocido lo constituyen los algoritmos predictivos de la policía estadounidense, los cuales, entrenados en datos de arrestos que ya contienen un sesgo racial implícito de las prácticas de los agentes, están viciados por la falta de transparencia y ese procedimiento de muestreo no apropiado. Considerando que sus predicciones no son fiables, se ha sugerido que si no pueden ser corregidos, la mejor solución es desmantelarlos (Heaven, 2020) .
La estadística puede entenderse como una aplicación de conceptos y procedimientos matemáticos como herramienta para la investigación científica, para resolver problemas concretos en el marco de los diseños cuantitativos de investigación. A diferencia de la matemática, que es una ciencia formal, la estadística requiere datos de la realidad: en este contexto, el procedimiento de muestreo nos permite realizar inferencias sobre un conjunto denominado “universo” o “población”, con base en la selección de algunos elementos del mismo. Rara vez un investigador accede a todo el conjunto de unidades de análisis (por ejemplo, personas) que constituyen lo que se denomina “universo”. Un ejemplo de estudio en el que se intenta cubrir la totalidad del universo lo constituyen los censos. En este caso, con los recursos del Estado, se procura obtener datos de todos los habitantes de un país. Pero notemos que no se estudia a toda la humanidad ni se pretende generalizar a esta, solo conocer la población de ese país y tomar decisiones que impactan en el mismo: por lo cual cobra relevancia el hecho de que el “universo”, en el marco de una investigación rigurosa, es un recorte construido conforme los objetivos que la sustentan, algo definido y delimitado previamente por quienes investigan. No se trata de un concepto abstracto ni tampoco el conjunto de todos los elementos que existen. Ahora bien, un investigador o un equipo de trabajo por lo común no cuenta con acceso a esos recursos, por ello, antes de investigar se delimita el alcance de los objetivos, y se aspira a generalizar a una población más limitada (por ejemplo, los habitantes de una ciudad). Estos asimismo podrían ser millones de personas, por lo cual, mediante procedimientos también estadísticos, se determina el tamaño más apropiado de la muestra que permita generalizar con el mínimo error aceptable (en ciencia, 5% o menos). Ello permite cumplir con el criterio de analizar una cantidad de casos apropiada, pero aún no garantiza que la muestra esté libre de sesgos. Pero ¿qué es un sesgo en este contexto, y qué relación tiene con el procedimiento que acabamos de describir?
En el marco de una investigación en la cual se busca generalizar con el menor error posible desde una muestra a una población, la cual está compuesta por distintas clases de elementos, un sesgo implica que alguna de esas clases podría estar sobrerrepresentada o subrepresentada en la muestra. Por ende, la generalización a la población estaría contaminada de ese error.
Cuando analicemos algunos de los sesgos que presenta la Inteligencia Artificial, lo relacionaremos con esta idea.
El procedimiento de selección muestral con mayor control de sesgos es el que se denomina aleatorio: cada elemento del universo tiene una probabilidad conocida, y distinta de 0 y 1, de ser parte de la muestra. El criterio subjetivo del investigador se descarta, en la medida en que computadoras, tablas de números random o bolilleros determinan cuáles serán las unidades de análisis seleccionadas para el estudio. Sin embargo, subsiste la probabilidad de que por azar, un cierto número de sujetos de un grupo determinado sean seleccionados en la muestra, por lo cual ésta no representaría adecuadamente al universo. Es por esto que siempre toda inferencia estadística tiene un grado de probabilidad de error asociado, que se procura mantener por debajo del 5% para que se pueda considerar una inferencia rigurosa.
No obstante, existen otras formas de muestreo, en las cuales los sesgos potenciales de origen humano son más probables si un criterio subjetivo -con frecuencia desconocido- incide en la decisión de la selección de unidades de análisis. La probabilidad de error entonces también se torna incierta.
Ahora bien, el conocimiento científico es crítico y se reconoce falible. En el caso del muestreo estadístico, esto se sigue lógicamente en tanto por definición, aunque la forma de selección fuera conducida con el mayor grado de rigurosidad, la conclusión tendría un alcance mayor que la información tomada como premisa, y por ende jamás alcanzaría la validez lógica ni la certeza absoluta. Esto se deriva del razonamiento inductivo propio del proceso.
El público, no obstante, tiende a percibir como mayormente rigurosa la investigación cuando ésta emplea metodología cuantitativa. Los artículos de divulgación, cuyo lector modelo es el público general, a menudo retoman gráficos, porcentajes y estadísticas. No obstante, la probabilidad de error es un concepto que no se difunde con la misma frecuencia y solamente es abordado en los papers destinados a la comunidad científica. Este hecho contribuye a una representación social de la investigación cuantitativa como conocimiento “cierto”.
En ciencia, el requisito de explicitar la cantidad y procedimiento de selección de muestras es uno de los estándares que aseguran la calidad de un proceso de investigación. No obstante, en los casos en que un sistema de Inteligencia Artificial es entrenado con datos portadores de un sesgo determinado o datos cuya procedencia es opaca, no parece existir el mismo nivel de crítica que el que tiene lugar en la comunidad científica. En la investigación académica rigurosa, los resultados obtenidos se valoran en relación con el proceso de muestreo utilizado; en el caso de la inteligencia artificial, la mirada parece focalizarse en los resultados sin abordar la cuestión de los datos empleados para llegar a los mismos.
Siguiendo este razonamiento, el aprendizaje automático con base en muestreos sesgados -cuyos datos implican la sobrerrepresentación o subrepresentación de determinados grupos sociales- tendrá necesariamente un producto erróneo, y otorgarle preeminencia en la toma de decisiones con costo social constituye un error grave, del cual existen diversas evidencias . Esto es particularmente preocupante en el caso de los sistemas desarrollados a partir de Aprendizaje Automático, en los cuales la máquina no recibe una secuencia de instrucciones, sino que analiza ingentes cantidades de datos y realiza inferencias clasificatorias que permiten luego realizar predicciones ante nuevos casos. El sistema no posee la capacidad de distinguir entre características esenciales -las que son necesarias para la inclusión en una clase: por ejemplo que se haya probado culpabilidad para ser incluido en la clase “delincuente”- y accidentales –color de piel del sujeto, no relevante para la clasificación dentro de ese grupo-. Los criterios que emplea son frecuentistas: cuanto más aparezca una determinada característica asociada a una clase, asigna mayor probabilidad de que un sujeto con dicha característica pertenezca a esa clase. La capacidad de distinguir entre características esenciales y accidentales está en la base de las operaciones de clasificación humanas; como consecuencia de la ausencia de comprensión de los significados, las máquinas no pueden realizarla de manera exitosa. De esa falencia se sigue que las predicciones y clasificaciones a las que arriba con cierto grado de probabilidad podrían ser erróneas en gran medida, si los datos de entrenamiento presentan un sesgo. Eso resultará aún más peligroso si ese sesgo es un prejuicio negativo o un estereotipo que genera desventajas para determinados grupos sociales en un proceso de toma de decisiones de relevancia, relativos al derecho al trabajo, la libertad, la educación, etc.
El riesgo de los monopolios y las propuestas de mitigación.
“Si la base de datos con la que contamos no es lo suficientemente diversa como para representar bien a la población objetivo, entonces es probable que el clasificador resultante presente un rendimiento dispar en la población subrepresentada (…) construir bases de datos diversas que representen al conjunto de la población puede ser una estrategia de mitigación de sesgos” (Ación et al, 2021). La cita anterior corresponde a una ponencia realizada por un equipo de investigación argentino, orientada a clarificar conceptos y desmitificar a la inteligencia artificial, proponiendo al mismo tiempo estrategias para mitigar el problema del sesgo. Los autores destacan el factor humano en la toma de decisiones en cada etapa de desarrollo de Sistemas de Inteligencia Artificial: por ende la propuesta para lograr una IA más justa es la conformación de equipos diversos, con distintos puntos de vista y poder de auditoría antes, durante y después del proceso de desarrollo.
Una debilidad conocida y destacada por diversos expertos en el campo de la Inteligencia Artificial es la escasa representación de mujeres y diversidades en el campo de las comunidades relacionadas a la ingeniería y las matemáticas. Para los sociólogos y psicólogos sociales, esta subrepresentación obedece precisamente a estereotipos relacionados a los roles de género y a prejuicios negativos asociados a grupos minoritarios, arraigados en nuestras sociedades. No es difícil entonces concluir que las desigualdades y asimetrías presentes en una sociedad que sostiene tales creencias dificulta el acceso a la formación y desarrollo laboral de los grupos perjudicados en el campo de la informática. Por consiguiente, el desarrollo de la tecnología queda mayoritariamente en manos de grupos de personas blancas, masculinas y que encajen en una representación de “inteligencia” asociada mayormente a lo lógico matemático y lo verbal. La (falsa) creencia en la neutralidad de la ciencia y la técnica también está relacionada a ese sesgo y también oscurece el hecho de que la ciencia y la tecnología son actividades que requieren financiamiento y este financiamiento proviene de los sectores con poder económico.
Ello nos lleva a considerar otros problemas. Uno de ellos ha sido señalado por Jiang et al (2023): la frecuente asociación de los equipos de investigación en IA de las universidades con empresas que los financian y sientan la agenda de la investigación. Estos autores focalizan en la necesidad urgente de investigación sobre ética de la IA. En artículos previos disponibles en nuestra página hemos hablado de cómo esta ética ha sido vulnerada en el caso de LAION, y también hemos trabajado con noticias sobre cómo algunas universidades “generan discurso” sobre la IA y alertan sobre riesgos especulativos sin abordar los urgentes e inmediatos.
Sabemos que son cuatro o cinco compañías privadas y multimillonarias las que llevan adelante el desarrollo de la tecnología generativa: OpenAI, Microsoft, Google, Amazon. Esta concentración ha sido señalada como una fuente de peligro (Electronic Privacy Information Center, 2023). Si lo consideramos conjuntamente con lo señalado en el párrafo anterior, esa tendencia monopólica estaría conduciendo al desarrollo de una tecnología poderosa, que de no ser regulada, implica una cantidad de amenazas en distintos aspectos de la realidad: lo ambiental, lo político, lo económico, lo humanitario.
BIBLIOGRAFÍA Y REFERENCIAS
ACIÓN, L., ALONSO ALEMANY, L., FERRANTE, E. LÜTZOW HOLM, E., MARTINEZ, V. MILONE, D. RODRIGUEZ, R. SIMARIS, G., UCHITEL, S. (2021) Desmitificando la Inteligencia Artificial. En: Solanet, M. (comp). Inteligencia artificial : una mirada multidisciplinaria. Ciudad Autónoma de Buenos Aires : Academia Nacional de Ciencias Morales y Políticas. https://www.anc-argentina.org.ar/publicaciones/mas-publicaciones/
ELECTRONIC PRIVACY INFORMATION CENTER (2023) Generating Harms. Disponible en: https://epic.org/wp-content/uploads/2023/05/EPIC-Generative-AI-White-Paper-May2023.pdf
HEAVEN, D. (2020) Predictive policing algorithms are racist. They need to be desmantled.
https://www.technologyreview.com/2020/07/17/1005396/predictive-policing-algorithms-racist-dismantled-machine-learning-bias-criminal-justice/
JIANG., H., BROWN, L., CHENG, J., ANONYMOUS ARTIST, KHAN, M., GUPTA, A., WORKMAN, D., HANNA, A., FLOWERS, J., GEBRU, T. (2023) Ai Art and its impact on artists.
LECTURA AMPLIATORIA SOBRE SESGOS DE MUESTREO EN ESTADÍSTICA: