Cómo las escuelas de élite como Stanford se obsesionaron con el apocalipsis de la IA

Un movimiento respaldado por multimillonarios está reclutando estudiantes universitarios para luchar contra la IA asesina, que algunos ven como el próximo Proyecto Manhattan.

Nitasha Tiku | The Washington Post | Traducción: Luz Castro | Corrección: Nia Soler

Paul Edwards, un becario de la Universidad de Stanford que pasó décadas estudiando la guerra nuclear y el cambio climático, se considera a sí mismo “un tipo del Apocalipsis.” De modo que en 2018 se abalanzó sobre la oportunidad de ayudar a desarrollar una clase de primer año sobre la prevención de la extinción humana.

Trabajando con el epidemiólogo Steve Luby, profesor de medicina y enfermedades infecciosas, la pareja se centró en tres amenazas familiares para la especie -las pandemias globales, el cambio climático extremo y el invierno nuclear- junto con una cuarta amenaza más reciente: la inteligencia artificial avanzada.

Paul Edwards es un investigador de la Universidad de Stanford que pasó décadas estudiando la guerra nuclear y el cambio climático. (Davide Orsini)

En este último frente, Edwards pensaba que a los jóvenes les preocuparían las amenazas inmediatas, como la vigilancia impulsada por la IA, la desinformación o las armas autónomas que atacan y matan sin intervención humana, problemas que él denomina “ultraserios”. Pero pronto descubrió que algunos estudiantes estaban más centrados en un riesgo puramente hipotético: que la IA pudiera llegar a ser tan inteligente como los humanos y destruir la humanidad.

La ciencia ficción ha contemplado durante mucho tiempo la IA rebelde, desde HAL 9000 hasta Skynet. Pero en los últimos años, Silicon Valley se ha entusiasmado con una visión distinta de cómo la superinteligencia podría salir mal, la cual deriva de experimentos mentales al margen de la cultura tecnológica. En estos escenarios, la IA no es necesariamente sensible. En lugar de ello, se obsesiona con un objetivo -incluso mundano, como hacer clips- y provoca la extinción humana para optimizar su tarea.

Para evitar este resultado teórico pero cataclísmico, laboratorios impulsados por esta misión como DeepMind, OpenAI y Anthropic se apresuran en construir un mejor modelo de IA programada para no mentir, engañar o matarnos. Mientras tanto, contribuyentes como Elon Musk, CEO de Tesla, Sam Bankman-Fried, fundador de FTX caído en desgracia, Jaan Tallinn, fundador de Skype, y Vitalik Buterin, cofundador de Ethereum, así como instituciones como Open Philanthropy, una organización benéfica creada por el multimillonario Dustin Moskovitz, cofundador de Facebook, han trabajado para empujar a los alarmistas del otro extremo de la industria tecnológica hacia la tendencia dominante.

Más recientemente, ricos filántropos de la tecnología han empezado a reclutar a un ejército de estudiantes universitarios de élite para que den prioridad a la lucha contra la IA deshonesta frente a otras amenazas. Solo Open Philanthropy ha destinado casi 500 millones de dólares a desarrollar una cantera de talentos para luchar contra la IA fraudulenta, construyendo un andamiaje de grupos de reflexión, canales de YouTube, concursos con premios, subvenciones, financiación de la investigación y becas, así como una nueva beca que puede pagar a los líderes estudiantiles hasta 80.000 dólares al año, además de decenas de miles de dólares en gastos.

En Stanford, Open Philanthropy concedió a Luby y Edwards más de 1,5 millones de dólares en subvenciones para poner en marcha la Stanford Existential Risk Initiative, que apoya la iniciativa estudiantil en el creciente campo de investigación conocido como “seguridad de la IA” o “alineación de la IA”. También organiza una conferencia anual y patrocina un grupo de estudiantes, uno de las docenas de clubes de seguridad de IA que Open Philanthropy ha ayudado a apoyar en el último año en universidades de todo el país.

Los críticos tachan de acientífico el movimiento por la seguridad de la IA. Dicen que sus afirmaciones sobre el riesgo existencial pueden sonar más a religión que a investigación. Y aunque la narrativa de ciencia ficción resuena con los temores públicos sobre la IA fuera de control, los críticos dicen que se obsesiona con un tipo de catástrofe excluyendo muchas otras.

Encina Hall alberga la Iniciativa de Riesgos Existenciales de Stanford (Kori Suzuki para The Washington Post)

“La conversación se ha desviado”, afirma Timnit Gebru, ex-codirectora de IA Ética en Google.

Gebru y otros expertos en ética de la IA afirman que el movimiento ha desviado la atención de los daños existentes -como los algoritmos racistas que determinan quién obtiene una hipoteca o los modelos de IA que usurpan el trabajo de los artistas sin compensación– y ahogan las peticiones de soluciones. Otros escépticos, como el inversor de capital de riesgo Marc Andreessen, son partidarios de la IA y afirman que exagerar estos temores impedirá el progreso de la tecnología.

Mike Levine, portavoz de Open Philanthropy, afirma que daños como el racismo algorítmico merecen una respuesta contundente. Pero esos problemas tienen la misma raíz: Los sistemas de IA no se comportan como pretenden sus programadores. Los riesgos teóricos “no recibían suficiente atención por parte de los demás, en parte porque estas cuestiones se percibían como especulativas”, afirmó Levine en un comunicado. Comparó el enfoque de la IA de la organización sin ánimo de lucro con su trabajo sobre pandemias, que también se consideraba teórico hasta que apareció el coronavirus.

La fundación comenzó a dar prioridad a los riesgos existenciales en torno a la IA en 2016, según relata una entrada de blog del codirector ejecutivo Holden Karnofsky, un antiguo inversor de alto riesgo cuya esposa y cuñado fueron co-fundadores de la start-up de IA Anthropic y trabajaron anteriormente en OpenAI. En aquel momento, escribió Karnofsky, había poco prestigio o dinero que ganar centrándose en los riesgos. Así que la organización sin ánimo de lucro se propuso crear una cantera de jóvenes que se filtraran en las mejores empresas y agitaran el cambio desde dentro.

Las universidades han sido un factor clave en esta estrategia de crecimiento, sirviendo tanto de camino hacia el prestigio, como de campo de reclutamiento de talentos idealistas. En el último año y medio han surgido grupos de seguridad de la IA en una veintena de campus de Estados Unidos y Europa -entre ellos Harvard, Georgia Tech, MIT, Columbia y la Universidad de Nueva York-, muchos de ellos dirigidos por estudiantes financiados por la nueva beca universitaria de Open Philanthropy.

Gente en el campus de Stanford (Kori Suzuki para The Washington Post)

Estos clubes forman a los estudiantes en aprendizaje automático y les ayudan a encontrar trabajo en nuevas empresas de IA o en uno de los muchos grupos sin fines de lucro dedicados a la seguridad de este tipo de tecnología.

Muchos de estos nuevos líderes estudiantiles consideran que la inteligencia artificial es una amenaza urgente y desatendida, que podría rivalizar con el cambio climático en su capacidad para acabar con la vida humana. Muchos ven la IA avanzada como el Proyecto Manhattan de su generación.

Entre ellos está Gabriel Mukobi, de 23 años, que se graduó en Stanford en junio y está cursando un máster en informática. Mukobi ayudó a organizar un grupo de seguridad de IA en el campus el verano pasado y sueña con convertir Stanford en un centro neurálgico del trabajo de seguridad de IA. A pesar de los vínculos de la universidad con Silicon Valley, Mukobi afirma que va a la zaga de la cercana UC Berkeley, donde los miembros más jóvenes de la facultad investigan la alineación de la IA, el término para integrar la ética humana en los sistemas de IA.

“Esto me parece algo muy, muy importante”, dijo Mukobi, “y quiero hacerlo realidad”.

Gabe Mukobi, licenciado en Informática por Stanford, posa cerca del edificio Gates de Informática de la Universidad de Stanford el 23 de marzo de 2023. (Kori Suzuki)

Un universo alternativo

Cuando Mukobi escuchó por primera vez la teoría de que la IA podría erradicar a la humanidad, le costó creerlo. En aquel momento, Mukobi era un estudiante de segundo año que estaba disfrutando de un año sabático durante la pandemia. Por aquel entonces, se preocupaba por el bienestar de los animales, promoviendo alternativas a la carne y terminar con la agricultura animal.

Pero entonces Mukobi se unió al club de Stanford para un altruismo eficaz, conocido como EA, un movimiento filosófico que aboga por hacer el máximo bien calculando el valor esperado de los actos caritativos, como proteger el futuro de la IA descontrolada. En 2022, las capacidades de la IA avanzaban a su alrededor, con avances bestiales que hicieron que aquellas advertencias parecieran premonitorias.

El verano pasado, el joven anunció el grupo Stanford AI Alignment (SAIA) en una entrada de blog con un diagrama de un árbol que representaba su plan. Reclutaría a un amplio grupo de estudiantes (el suelo) y “canalizaría” a los candidatos más prometedores (las raíces) a través de la tubería (el tronco). Para evitar los “riesgos para la reputación” al trabajar en un campo que algunos consideran poco claro, Mukobi escribió: “Daremos prioridad a los estudiantes y evitaremos llegar a profesores de IA no comprometidos”.

El edificio Gates en Stanford (Kori Suzuki para The Washington Post)

Entre los riesgos para la reputación del movimiento de seguridad de la IA está su asociación con una serie de figuras e ideas controvertidas, como EA, que también es conocida por reclutar a jóvenes ambiciosos en los campus universitarios de élite.

El impulso de EA para maximizar el bien se tradujo inicialmente en persuadir a los mejores licenciados de los países ricos para que se dedicaran a trabajos bien remunerados, en lugar de al servicio público, y donaran su riqueza a causas como la compra de mosquiteras para salvar vidas en países africanos asolados por la malaria.

Pero desde el principio EA estuvo entrelazada con subculturas tecnológicas interesadas en el futurismo y el pensamiento racionalista. Con el tiempo, la pobreza mundial descendió en la lista de causas, mientras que la IA deshonesta ascendía hacia la cima. Los extremistas empezaron a promover una idea llamada “largoplacismo”, que priorizaba la vida de personas que podrían vivir millones de años en el futuro, que podrían ser una versión digitalizada de los seres humanos, por encima del sufrimiento actual.

En el último año, EA se ha visto acosada por el escándalo, incluida la caída de Bankman-Fried, uno de sus mayores contribuyentes. Otra figura clave, el filósofo de Oxford Nick Bostrom, cuyo bestseller de 2014 “Superinteligencia” es una lectura esencial en los círculos de EA, se topó con la indignación pública cuando en enero salió a la luz un discurso de hace décadas sobre el coeficiente intelectual.

“Los negros son más estúpidos que los blancos”, escribió Bostrom, calificando la afirmación de “lógicamente correcta”, y utilizando después la palabra “n” en un ejemplo hipotético de cómo sus palabras podrían malinterpretarse como racistas. Bostrom se disculpó por el insulto, pero poco más.

Tras leer el discurso de Bostrom, SAIA dejó de regalar ejemplares de “Superinteligencia”. Mukobi, que se identifica como birracial, calificó el mensaje de ” sospechoso”, pero lo consideró un fracaso de Bostrom, no del movimiento.

Mukobi no mencionó la EA ni el largoplacismo cuando envió un correo electrónico a las listas de correo de los estudiantes de Stanford en septiembre para promocionar el seminario sobre seguridad de la IA dirigido por estudiantes de su grupo, que contaba como crédito del curso. Programar los futuros sistemas de IA para que compartan los valores humanos podría significar “un mundo asombroso libre de enfermedades, pobreza y sufrimiento”, mientras que el fracaso podría desencadenar “la extinción humana o nuestro permanente desempoderamiento”, escribió Mukobi, ofreciendo té boba (té “de perlas”, bebida de té dulce originaria de Taiwán) gratis a cualquiera que asistiera a la introducción de 30 minutos.

Los estudiantes que se unen a la comunidad de seguridad de EA a veces consiguen algo más que boba gratis. Al igual que antes las conferencias de EA suponían viajar por todo el mundo y mantener reuniones individuales con contribuyentes ricos e influyentes, la nueva beca universitaria de Open Philanthropy ofrece un abultado depósito directo: los líderes universitarios reciben hasta 80.000 dólares al año, más 14.500 dólares para seguro médico y hasta 100.000 dólares anuales para cubrir gastos de grupo.

Un estudiante trabaja en el pasillo del Instituto de Inteligencia Artificial Centrada en el Ser Humano de Stanford,
dentro del edificio de Ciencias Informáticas William Gates (Kori Suzuki para The Washington Post)

El movimiento ha conseguido influir en la cultura de la IA a través de estructuras sociales creadas en torno al intercambio de ideas, afirma Shazeda Ahmed, investigadora postdoctoral asociada del Centro de Políticas de Tecnologías de la Información de la Universidad de Princeton. Los líderes estudiantiles tienen acceso a una abundancia de recursos de organizaciones patrocinadas por contribuyentes, incluido un plan de estudios sobre “Fundamentos de la seguridad de la IA” desarrollado por un empleado de OpenAI.

Los estudiantes interesados se unen a grupos de lectura donde obtienen copias gratuitas de libros como “The Precipice” y pueden pasar horas leyendo los últimos documentos de orientación, publicando consejos profesionales en el foro Effective Altruism o ajustando su P (doom), una estimación subjetiva de la probabilidad de que la IA avanzada acabe mal. Las becas, los viajes, los puestos de liderazgo para licenciados sin experiencia y los espacios de co-working patrocinados crean una comunidad muy unida.

Edwards descubrió que los foros compartidos en línea funcionan como una forma de revisión por pares, en la que los autores cambian su texto original en respuesta a los comentarios.

“Es una escritura muy legible, lo cual es estupendo”, afirma Edwards, pero elude la precisión que supone someter las ideas al escrutinio de expertos. “Hay una especie de universo alternativo en el que se prescinde del mundo académico”.

El primer libro de Edwards versaba sobre los orígenes militares de la IA, y hace poco formó parte del principal grupo de expertos sobre el clima de las Naciones Unidas, lo que le deja demasiado arraigado en la ciencia y la política del mundo real como para entretenerse con el tipo de elucubraciones de dormitorio que se aceptan a pies juntillas en los foros.

¿Podría la IA hacerse con todos los ordenadores necesarios para acabar con la humanidad? “No sucederá”, dijo Edwards. “Hay demasiados humanos al tanto. Y los habrá durante 20 o 30 años”.

La píldora del EA

Desde el lanzamiento de ChatGPT en noviembre, el debate sobre la seguridad de la IA se ha disparado a un ritmo vertiginoso. Los laboratorios empresariales que consideran inevitable la inteligencia artificial avanzada y quieren que los beneficios sociales superen los riesgos están promocionando cada vez más la seguridad de la IA como antídoto contra los resultados más temidos.

En Stanford, Mukobi ha intentado sacar partido de este repentino interés.

Después de que Yoshua Bengio, uno de los “padrinos” del aprendizaje profundo, firmara una carta abierta en marzo instando a la industria de la IA a hacer una pausa, Mukobi envió otro correo electrónico a los servidores de listas de estudiantes de Stanford advirtiendo que la seguridad de la IA estaba siendo eclipsada por los rápidos avances en el campo. “Todo el mundo” está “empezando a notar algunas de las consecuencias”, escribió, vinculando cada palabra a un reciente artículo de opinión, tweet, post de Substack, artículo o vídeo de YouTube advirtiendo sobre los peligros de la IA descontrolada.

Para entonces, SAIA ya había iniciado su segunda serie de debates estudiantiles sobre la formación introductoria e intermedia de la IA, que 100 estudiantes han completado hasta ahora.

“La seguridad no se consigue por defecto, hay que incorporarla, y nadie sabe aún cómo hacerlo”, escribió.

En la conversación, Mukobi se muestra paciente y más comedido que en sus solicitudes por correo electrónico, y suelta algún que otro chiste autocrítico. Cuando se le dice que algunos consideran que el movimiento es una secta, dice que entiende la preocupación. (Algunos textos de EA también acogen a los no creyentes. “Hacen bien en mostrarse escépticos ante estas afirmaciones”, dice la página de inicio de Global Challenges Project, que organiza talleres de tres días con los gastos pagados para que los estudiantes exploren la reducción del riesgo existencial).

Gabriel Mukobi, licenciado en Stanford (Kori Suzuki para The Washington Post)

Mukobi se siente animado por el creciente consenso de que merece la pena explorar estos riesgos. Escuchó a los estudiantes hablar de la seguridad de la IA en el mes de mayo, en los pasillos de Gates, el edificio de informática, después de que Geoffrey Hinton, otro “padrino” de la IA, abandonara Google para advertir sobre ella. Para finales de año, Mukobi cree que el tema podría ser un tema de sobremesa, al igual que el cambio climático o la guerra de Ucrania.

Luby, compañero de Edwards en la clase sobre la extinción humana, también parece encontrar persuasivos estos argumentos. Ya había reorganizado el orden de sus lecciones sobre IA para ayudar a los alumnos a ver los riesgos inminentes de la IA. Nadie necesita “tragarse la píldora de la IA” para estar realmente preocupado, afirma.

Edwards, por su parte, sigue considerando el cambio climático una amenaza mayor que la IA. Pero ChatGPT y la rápida publicación de modelos de IA le han convencido de que debería haber espacio para pensar en la seguridad de la IA.

El interés por este tema también está creciendo entre los profesores de Stanford, según Edwards. Señaló que un nuevo becario posdoctoral dirigirá una clase sobre alineación el próximo semestre en el histórico departamento de informática de Stanford.

El curso no lo impartirán estudiantes ni expertos externos. En su lugar, dijo, “será una clase normal de Stanford”.