한국   대만   중국   일본 
Seguridad de la inteligencia artificial - Wikipedia, la enciclopedia libre Ir al contenido

Seguridad de la inteligencia artificial

De Wikipedia, la enciclopedia libre

La seguridad de la inteligencia artificial es un campo multidisciplinario que se ocupa de prevenir accidentes, usos indebidos u otras consecuencias perjudiciales que podrian derivarse del uso de sistemas de inteligencia artificial (IA). Abarca la etica de las maquinas y la alineacion de la IA , cuyo objetivo es hacer que los sistemas de IA sean morales y utiles, y la seguridad de la IA comprende problemas tecnicos como la supervision de los sistemas para detectar riesgos y hacer que sean altamente confiables. Pero mas alla de la investigacion sobre IA, se trata de desarrollar normas y politicas que fomenten la seguridad.

Motivos [ editar ]

Ejemplos de como una IA avanzada y desalineada podria intentar conseguir mas poder. [ 1 ] ​ Estos comportamientos pueden surgir porque el poder es util para lograr casi cualquier objetivo [ 2 ]

Los investigadores de la IA tienen opiniones muy diferentes en cuanto a la severidad y a las principales fuentes de riesgo que plantea la tecnologia de IA, [ 3 ] [ 4 ] [ 5 ] ​ aunque algunas encuestas sugieren que los expertos si se toman en serio los riesgos con consecuencias considerables. En dos encuestas realizadas a investigadores de la IA, la media de los encuestados se mostraba optimista sobre la IA en general, pero otorgaba un 5% de probabilidad a un resultado "extremadamente malo (por ejemplo, la extincion humana )" derivado de la IA avanzada. [ 3 ]

En una encuesta realizada en 2022 entre la comunidad del procesamiento de lenguaje natural (PLN), el 37% estuvo de acuerdo o casi de acuerdo con que es plausible que las decisiones de la IA podrian provocar una catastrofe " tanto o mas devastadora que una autentica guerra nuclear". [ 6 ] ​ En este momento, los expertos debaten los actuales riesgos derivados de los fallos de los sistemas criticos, [ 7 ] ​ la parcialidad [ 8 ] ​ y la vigilancia mediante IA; [ 9 ] ​ los riesgos emergentes derivados del desempleo tecnologico, la manipulacion digital [ 10 ] ​ y el armamentismo; [ 11 ] ​ y los riesgos especulativos derivados de la perdida de control sobre futuros agentes de inteligencia artificial general (IAG). [ 12 ]

Hay quien ha criticado las dudas que despierta la IAG, por ejemplo Andrew Ng , profesor adjunto de la Universidad de Stanford , quien comparo estas inquietudes con "preocuparse por la superpoblacion de Marte cuando ni siquiera hemos puesto un pie en ese planeta". [ 13 ] ​ Otros, como Stuart J. Russell , profesor de la Universidad de California en Berkeley , instan a la cautela, alegando que "es mejor anticiparse al ingenio humano que subestimarlo". [ 14 ]

Antecedentes [ editar ]

Los riesgos de la IA empezaron a ser discutidos en profundidad al inicio de la era informatica :

Asimismo, si avanzamos hacia la creacion de maquinas que aprendan y cuyo comportamiento pueda modificarse con la experiencia, tendremos que afrontar que todo grado de independencia que le demos a una maquina sera tambien un grado de posible rebeldia contra nuestros deseos.

?Norbert Wiener (1949) [ 15 ]

Entre 2008 y 2009, la AAAI ( American Association for Artificial Intelligence en ingles) solicito un estudio para explorar y abordar las posibles influencias sociales a largo plazo de la investigacion y el desarrollo de la IA. El panel se mostro bastante esceptico ante los argumentos radicales expresados por los autores de ciencia ficcion, pero coincidio en que "seria valiosa una investigacion adicional sobre los metodos para comprender y verificar el espectro de comportamientos de los sistemas computacionales complejos con el fin de minimizar los resultados inesperados". [ 15 ]

En 2011, Roman Yampolskiy introdujo el termino "ingenieria de seguridad de IA" [ 16 ] ​ durante la conferencia Filosofia y Teoria de la Inteligencia Artificial, [ 17 ] ​ enumerando fallos previos de sistemas de IA y alegando que "la frecuencia y gravedad de tales acontecimientos aumentara progresivamente a medida que las IA sean mas competentes". [ 18 ]

En 2014, el filosofo Nick Bostrom publico el libro Superinteligencia: caminos, peligros, estrategias . Su alegato de que los sistemas avanzados del futuro podrian suponer una amenaza para la existencia humana impulso a Elon Musk , [ 19 ] Bill Gates [ 20 ] ​ y Stephen Hawking [ 21 ] ​ a expresar inquietudes similares.

En 2015, decenas de expertos en inteligencia artificial firmaron una carta abierta sobre este tema en la que pedian que se investigaran las repercusiones sociales de la IA y que se definieran orientaciones concretas. [ 22 ] ​ La carta ha sido firmada por mas de 8.000 personas hasta la fecha, incluidos Yann LeCun , Shane Legg , Yoshua Bengio y Stuart Russell .

Ese mismo ano, un grupo de academicos encabezados por el profesor Stuart Russell fundo el Centro de Inteligencia Artificial Humano-Compatible en la Universidad de Berkeley y el Instituto para el Futuro de la Vida concedio 6,5 millones de dolares en subvenciones para investigaciones destinadas a "garantizar que la inteligencia artificial (IA) siga siendo segura, etica y beneficiosa". [ 23 ]

En 2016, la Oficina de Politicas Cientificas y Tecnologicas de la Casa Blanca y la Universidad Carnegie Mellon anunciaron el Taller Publico sobre la Seguridad y el Control de la Inteligencia Artificial, [ 24 ] ​ que formaba parte de una serie de cuatro talleres organizados por la Casa Blanca con el objetivo de investigar "las ventajas y desventajas" de la IA. [ 25 ] ​ Ese mismo ano se publico Problemas Concretos de Seguridad en la IA, una de las primeras y mas influyentes agendas tecnicas en materia de seguridad en la IA. [ 26 ]

En 2017, el Instituto para el Futuro de la Vida patrocino la Conferencia Asilomar sobre la IA Beneficiosa , en la que mas de 100 lideres de opinion formularon una serie de principios para lograr una IA beneficiosa, entre ellos "Evitar la competencia": Los equipos desarrolladores de sistemas de IA deben cooperar activamente para evitar la reduccion de los estandares de seguridad. [ 27 ]

En 2018, el equipo de DeepMind Safety planteo diversos problemas de seguridad de la IA en materia de especificacion, solidez y fiabilidad. [ 28 ] ​ El ano siguiente, varios investigadores organizaron un taller en el ICLR ( International Conference on Learning Representation s en ingles) centrado en estas areas problematicas. [ 29 ]

En 2021 se publico Unsolved Problems in ML Safety , en el que se esbozan las lineas de investigacion en materia de solidez, supervision, alineacion y seguridad sistemica. [ 30 ]

En 2023, Rishi Sunak dijo que quiere que el Reino Unido sea el "hogar geografico de la regulacion mundial de la seguridad de la IA" y que sea la sede de la primera cumbre mundial sobre seguridad de la IA. [ 31 ]

Areas de investigacion [ editar ]

Las areas de investigacion en seguridad de la IA incluyen la solidez, la supervision y la alineacion. [ 28 ] [ 30 ] ​ La solidez busca lograr que los sistemas sean altamente confiables, la supervision trata de anticipar fallos y de detectar usos indebidos, y la alineacion se centra en garantizar que persigan objetivos beneficiosos.

Solidez [ editar ]

El estudio de la solidez se centra en garantizar que los sistemas de IA se comporten segun lo previsto en una amplia gama de situaciones diferentes, lo que incluye los siguientes problemas secundarios:

  • Solidez ante cisnes negros : crear sistemas que se comporten como esta previsto en situaciones inusuales.
  • Solidez antagonica : disenar sistemas para que sean resistentes a entradas de datos escogidas intencionalmente para hacerlos fallar.

Solidez ante cisnes negros [ editar ]

Las entradas de datos inusuales pueden hacer que los sistemas de IA fallen de forma catastrofica. Por ejemplo, en el " Flash Crash " de 2010, los sistemas automatizados de negociacion ( trading en ingles) reaccionaron de forma inesperada y excesiva a las aberraciones de mercado, destruyendo un billon de dolares en valores bursatiles en cuestion de minutos. [ 32 ]

Notese que no es necesario que se produzca un cambio de distribucion para que esto ocurra. Los fallos de tipo cisne negro pueden producirse cuando los datos de entrada son de larga cola , como suele ocurrir en situaciones de la vida real. [ 33 ] ​ Los vehiculos autonomos siguen teniendo problemas con "casos poco habituales" ( corner cases en ingles) que pueden no haber surgido durante el periodo de formacion; por ejemplo, un vehiculo podria ignorar una senal de alto que este encendida como una rejilla de LED. [ 34 ]

A pesar de que este tipo de problemas pueden resolverse a medida que los sistemas de aprendizaje automatico (AA) desarrollen una mejor comprension del mundo real, algunos investigadores senalan que incluso los humanos no suelen responder adecuadamente a sucesos sin precedentes (como la pandemia de COVID-19 ), argumentando que la solidez ante cisnes negros sera un problema de seguridad persistente. [ 30 ]

Solidez antagonica [ editar ]

Los sistemas de IA suelen ser vulnerables a muestras antagonicas o "entradas de datos a modelos de aprendizaje automatico que un atacante ha disenado intencionadamente para que el modelo cometa un error". [ 35 ] ​ Por ejemplo, en 2013, Szegedy y colaboradores descubrieron que anadir determinadas distorsiones imperceptibles a una imagen podia hacer que esta fuera clasificada erroneamente y con un elevado nivel de confianza. [ 36 ] ​ Esto sigue siendo un problema para las redes neuronales, aunque en estudios recientes las distorsiones suelen ser lo suficientemente grandes como para resultar perceptibles. [ 37 ] [ 38 ] [ 39 ]

Es posible anadir ruido cuidadosamente elaborado a una imagen para provocar una clasificacion erronea con un elevado nivel de confianza

Todas las imagenes de la derecha fueron clasificadas como avestruces tras la aplicacion de una distorsion. (Izquierda) una muestra clasificada correctamente, (centro) distorsion aplicada ampliada 10 veces, (derecha) muestra antagonica. [ 36 ]

La solidez antagonica se asocia a menudo con la seguridad. [ 40 ] ​ Varios investigadores demostraron que una senal de audio podia modificarse de forma imperceptible para que los sistemas de conversion de voz a texto la transcribieran a cualquier mensaje que el atacante eligiera. [ 41 ] ​ Los sistemas de deteccion de intrusiones en la red [ 42 ] ​ y de software malicioso ( malware en ingles) [ 43 ] ​ tambien deben presentar solidez antagonica, ya que los atacantes podrian disenar ataques capaces de enganar dichos detectores.

Los modelos que representan objetivos (modelos de recompensa) tambien deben poseer solidez antagonica. Por ejemplo, un modelo de recompensa puede estimar la utilidad de una respuesta textual y un modelo de lenguaje puede entrenarse para maximizar este resultado. [ 44 ] ​ Diversos investigadores han demostrado que si un modelo de lenguaje es entrenado durante el tiempo suficiente, este aprovechara las vulnerabilidades del modelo de recompensa para lograr un mejor resultado incluso al desempenarse peor en la tarea prevista. [ 45 ] ​ Este problema puede resolverse mejorando la solidez antagonica del modelo de recompensa. [ 46 ] ​ En terminos mas generales, cualquier sistema de IA utilizado para evaluar otro sistema de IA debe tener una solidez antagonica. Esto podria incluir a los sistemas de supervision, ya que estos tambien son susceptibles de ser manipulados para obtener una recompensa mayor. [ 47 ]

Supervision [ editar ]

La supervision se centra en anticipar los fallos de los sistemas de IA para poder prevenirlos o gestionarlos. Entre los problemas secundarios de la supervision se encuentran la deteccion de sistemas poco confiables, la deteccion de usos malintencionados, la comprension del funcionamiento interno de los sistemas de IA de caja negra y la identificacion de funciones ocultas creadas por un agente malintencionado.

Estimacion de la incertidumbre [ editar ]

Muchas veces es importante que los operadores humanos evaluen hasta que punto deben confiar en un sistema de IA, especialmente en entornos de alto riesgo como el diagnostico medico. [ 48 ] ​ Por lo general, los modelos AA transmiten confianza al generar probabilidades; sin embargo, a menudo se muestran demasiado confiados, [ 49 ] ​ sobre todo en situaciones que difieren de aquellas para las que fueron entrenados. [ 50 ] ​ El objetivo de la investigacion en materia de calibracion es conseguir que las probabilidades del modelo se correspondan lo mas posible con la proporcionalidad real de que el modelo este en lo correcto.

Del mismo modo, la deteccion de anomalias o deteccion fuera de distribucion ( out-of-distribution o OOD en ingles) pretende identificar cuando un sistema de IA se encuentra en una situacion inusual. Por ejemplo, si el sensor de un vehiculo autonomo funciona mal o se encuentra con un terreno dificil, debe alertar al conductor para que tome el control o se detenga. [ 51 ] ​ La deteccion de anomalias suele implementarse mediante el simple entrenamiento de un clasificador para distinguir las entradas anomalas de las que no lo son, [ 52 ] ​ aunque tambien se utilizan otras tecnicas. [ 53 ] [ 54 ]

Deteccion de usos malintencionados [ editar ]

Academicos [ 11 ] ​ y organismos publicos han expresado su preocupacion ante la posibilidad de que los sistemas de IA sean utilizados para ayudar a agentes malintencionados a fabricar armas, [ 55 ] ​ manipular la opinion publica [ 56 ] [ 57 ] ​ o automatizar ciberataques. [ 58 ] ​ Estas inquietudes son una preocupacion practica para empresas como OpenAI , que alojan potentes herramientas de IA en linea. [ 59 ] ​ Para evitar usos indebidos, OpenAI ha creado sistemas de deteccion que senalizan o restringen a los usuarios en funcion de su actividad. [ 60 ]

Transparencia [ editar ]

Las redes neuronales a menudo son descritas como cajas negras , [ 61 ] ​ lo que significa que es dificil entender por que toman las decisiones que toman como resultado del enorme numero de procesos computacionales que realizan. [ 62 ] ​ Esto supone un reto para adelantarse a los fallos. En 2018, un vehiculo autonomo mato a un peaton tras fallar en identificarlo. Debido a la naturaleza de caja negra del software de IA, la razon del fallo sigue siendo incierta. [ 63 ]

Una de las ventajas de la transparencia es la explicabilidad. [ 64 ] ​ A veces es un requisito legal dar una explicacion de por que se ha tomado una decision para garantizar la imparcialidad, por ejemplo para el filtrado automatico de solicitudes de empleo o la asignacion de puntuaciones crediticias. [ 64 ]

Otra ventaja es revelar la causa de los fallos. [ 61 ] ​ Al principio de la pandemia COVID-19 de 2020, diversos investigadores utilizaron herramientas de transparencia para demostrar que los clasificadores de imagenes medicas "prestaban atencion" a etiquetas hospitalarias irrelevantes. [ 65 ]

Las tecnicas de transparencia tambien pueden utilizarse para corregir errores. Por ejemplo, en el articulo " Locating and Editing Factual Associations in GPT " (Localizacion y Edicion de Asociaciones Factuales en GPT), los autores pudieron identificar los parametros del modelo que influian en su forma de responder a las preguntas sobre la ubicacion de la torre Eiffel . A continuacion, pudieron "editar" estos conocimientos para que el modelo respondiera a las preguntas como si creyera que la torre estaba en Roma en lugar de en Francia. [ 66 ] ​ Aunque en este caso los autores indujeron un error, estos metodos podrian utilizarse para su correccion eficaz. Tambien existen tecnicas de edicion de modelos en vision artificial. [ 67 ]

Por ultimo, hay quien sostiene que la falta de transparencia de los sistemas de IA es una importante fuente de riesgo y que una mejor comprension de su funcionamiento podria evitar fallos con graves consecuencias en el futuro. [ 68 ] ​ La investigacion sobre interpretabilidad "interna" tiene como objetivo lograr modelos de AA mas transparentes. Una de las metas de esta investigacion es identificar el significado de las activaciones neuronales internas. [ 69 ] [ 70 ] ​ Por ejemplo, algunos investigadores identificaron una neurona en CLIP que responde a imagenes de personas disfrazadas de Spiderman, a dibujos de Spiderman y a la palabra "arana". [ 71 ] ​ Tambien implica explicar las conexiones entre estas neuronas o "circuitos". [ 72 ] [ 73 ]

En este sentido, diversos investigadores han identificado mecanismos de concordancia de patrones en atencion de transformadores que podrian desempenar un papel en la forma en que los modelos de lenguaje aprenden de su contexto. [ 74 ] ​ La "interpretabilidad interna" ha sido comparada con la neurociencia. En ambos casos, el objetivo es comprender lo que ocurre en un sistema intrincado, aunque los investigadores del AA tienen la ventaja de poder realizar mediciones perfectas y ablaciones arbitrarias. [ 75 ]

Deteccion de troyanos [ editar ]

Los modelos de AA pueden contener "troyanos" o " puertas traseras ", es decir, vulnerabilidades que los agentes malintencionados integran en un sistema de IA. Por ejemplo, un sistema de reconocimiento facial troyanizado podria conceder acceso cuando una pieza especifica de joyeria este a la vista; [ 30 ] ​ o un vehiculo autonomo troyanizado podria funcionar normalmente hasta que un activador especifico se haga visible. [ 76 ]

Cabe senalar que un atacante debe tener acceso a los datos de entrenamiento del sistema para poder introducir un troyano. Puede que esto no sea dificil de lograr con modelos de gran tamano como CLIP o GPT-3, ya que han sido entrenados a partir de datos disponibles publicamente en internet. [ 77 ] ​ Un grupo de investigadores consiguio introducir un troyano en un clasificador de imagenes cambiando solo 3 de los 3 millones de imagenes de entrenamiento. [ 78 ] ​ Ademas de suponer un riesgo para la seguridad, hay investigadores que sostienen que los troyanos ofrecen un escenario concreto para probar y desarrollar mejores herramientas de control. [ 47 ]

Alineacion [ editar ]

En el campo de la inteligencia artificial , la investigacion sobre la alineacion o el alineamiento (en ingles, AI alignment ) se ocupa de buscar formas de dirigir el desarrollo de los sistemas de inteligencia artificial en conformidad con los objetivos e intereses de sus disenadores. [ a ] ​Si un sistema es competente, pero persigue objetivos que no han sido previstos por los investigadores, se dice que no esta alineado . [ b ]

La alineacion de los sistemas de inteligencia artificial incluye los siguientes problemas: la dificultad de especificar completamente todos los comportamientos deseados y no deseados; el uso de objetivos intermedios faciles de especificar que omiten restricciones deseables; trampas para obtener recompensas, por medio de las cuales los sistemas encuentran lagunas en dichos objetivos intermedios, creando efectos colaterales; [ 82 ] objetivos instrumentales , como la busqueda de poder, que ayudan al sistema a lograr sus objetivos finales; [ 80 ] [ 83 ] [ 84 ] [ 85 ] ​ y objetivos emergentes que solo se hacen patentes cuando el sistema se implementa en nuevas situaciones y distribuciones de datos. [ 84 ] [ 86 ] ​ Estos problemas afectan a sistemas comerciales como robots, [ 87 ] ​ modelos de lenguaje, [ 88 ] [ 89 ] ​ vehiculos autonomos, [ 90 ] ​ y sistemas de recomendacion de redes sociales. [ 88 ] [ 83 ] [ 91 ] ​ Se cree que los problemas son tanto mas probables cuanto mas capaz es el sistema, ya que en parte resultan de una alta capacidad. [ 92 ] [ 84 ]

La comunidad de investigadores de la inteligencia artificial y las Naciones Unidas han exigido tanto soluciones basadas en la investigacion tecnica como soluciones politicas para garantizar que los sistemas esten alineados con los valores humanos. [ c ]

La alineacion de sistemas es parte de un campo de estudio mas amplio llamado seguridad de la inteligencia artificial (en ingles, AI safety ), es decir, el estudio de como construir sistemas de inteligencia artificial que sean seguros. [ 84 ] [ 95 ] ​ Las vias para la investigacion de la alineacion incluyen el aprendizaje de los valores y las preferencias humanas, el desarrollo de inteligencia artificial honesta, la supervision extensible, el examen e interpretacion de modelos de inteligencia artificial, y la prevencion de comportamientos emergentes, como la busqueda de poder. [ 84 ] [ 96 ] ​ La investigacion de la alineacion tiene conexiones con la investigacion de la interpretabilidad , [ 97 ] ​ la solidez, [ 84 ] [ 95 ] ​ la deteccion de anomalias, la incertidumbre calibrada, [ 97 ] ​ la verificacion formal , [ 98 ] ​ el aprendizaje por preferencias, [ 99 ] [ 100 ] [ 101 ] ​ la ingenieria de seguridad, [ 84 ] ​ la teoria de juegos , [ 102 ] [ 103 ] ​ la equidad algoritmica , [ 95 ] [ 104 ] ​ y las ciencias sociales , [ 105 ] ​ entre otros.

Seguridad sistemica y factores socio-tecnicos [ editar ]

Es habitual que los riesgos de la IA (y los riesgos tecnologicos en general) sean clasificados como uso indebido o accidentes. [ 106 ] ​ Algunos especialistas han sugerido que este planteamiento se queda corto. [ 106 ] ​ Por ejemplo, la crisis de los misiles de Cuba claramente no fue un accidente o un mal uso de la tecnologia. [ 106 ] ​ Los analistas politicos Zwetsloot y Dafoe escribieron: [ 106 ]

"Las perspectivas de usos indebidos y de accidentes tienden a centrarse unicamente en el ultimo paso de la cadena causal que desemboca en un dano: es decir, la persona que hace uso indebido de la tecnologia, o el sistema que se comporta de forma inesperada... Sin embargo, a menudo la cadena causal correspondiente es mucho mas larga". [ 106 ]

Los factores de riesgo suelen ser de caracter "estructural" o "sistemico", como la presion de la competencia, la difusion de los danos, el desarrollo acelerado, los altos niveles de incertidumbre y una inadecuada cultura de seguridad. [ 106 ] ​ En un contexto mas amplio de ingenieria de seguridad , factores estructurales como la "cultura de seguridad organizativa" desempenan un papel central en el popular marco de analisis de riesgos STAMP. [ 107 ]

Inspirandose en la perspectiva estructural, algunos investigadores han destacado la importancia de utilizar el aprendizaje automatico para mejorar los factores de seguridad socio-tecnica, por ejemplo, utilizando el AA para la defensa cibernetica (ciberdefensa; o cyber defense en ingles), mejorando la toma de decisiones institucionales y facilitando la cooperacion. [ 30 ]

Ciberdefensa [ editar ]

A algunos especialistas les preocupa que la IA pueda exacerbar el ya de por si desequilibrado panorama entre ciberatacantes y ciberdefensores. [ 108 ] ​ Esto aumentaria los incentivos para un "primer ataque" y podria conducir a ataques mas agresivos y desestabilizadores. Para reducir este riesgo, algunos recomiendan hacer mas hincapie en la ciberdefensa. Asimismo, la seguridad de los programas informaticos es esencial para evitar el robo y el uso indebido de los potentes modelos de IA. [ 11 ]

Mejorar la toma de decisiones institucional [ editar ]

El avance de la IA en ambitos economicos y militares podria desencadenar desafios politicos sin precedentes. [ 109 ] ​ Algunos expertos han comparado el desarrollo de la inteligencia artificial con la Guerra Fria , en la que la toma de decisiones por parte de un reducido numero de personas a menudo marcaba la diferencia entre la estabilidad y la catastrofe. [ 110 ] ​ Investigadores del campo de la IA han sostenido que las tecnologias de IA tambien podrian utilizarse para ayudar en la toma de decisiones. [ 30 ] ​ Por ejemplo, se estan empezando a desarrollar sistemas de prevision [ 111 ] ​ y asesoramiento basados en IA. [ 112 ]

Facilitar la cooperacion [ editar ]

Muchas de las principales amenazas mundiales (guerra nuclear, [ 113 ] ​ cambio climatico, [ 114 ] ​ etc.) han sido enmarcadas como problemas de cooperacion. Como ocurre en el conocido dilema del prisionero , algunas dinamicas pueden conducir a malos resultados para todos los participantes, incluso cuando estos actuan en su propio beneficio. Por ejemplo, ningun agente posee incentivos solidos para hacer frente al cambio climatico, a pesar de que las consecuencias pueden ser graves si nadie interviene. [ 114 ]

Uno de los principales retos de la cooperacion en materia de IA es evitar una " carrera hacia el abismo ". [ 115 ] ​ En este contexto, los paises o las empresas competirian por construir sistemas de inteligencia artificial mas capaces y descuidarian la seguridad, lo que provocaria un accidente catastrofico que perjudicaria a todos los implicados. La inquietud ante este tipo de situaciones ha motivado esfuerzos politicos [ 116 ] ​ y tecnicos [ 117 ] ​ para facilitar la cooperacion entre seres humanos y, potencialmente, entre sistemas de IA. La mayor parte de la investigacion en materia de IA se centra en el diseno de agentes individuales que cumplan funciones aisladas (a menudo en "juegos de un solo jugador"). [ 118 ] ​ Varios expertos han sugerido que, a medida que los sistemas de IA se vuelvan mas autonomos, puede resultar esencial estudiar y moldear la forma en la que interactuan. [ 118 ]

En materia de gobernanza [ editar ]

En general, la gobernanza de la IA se ocupa de crear normas, estandares y reglamentos que guien el uso y el desarrollo de los sistemas de inteligencia artificial. [ 110 ] ​ Implica formular y aplicar recomendaciones concretas, asi como llevar a cabo una investigacion mas fundacional para informar sobre cuales deben ser estas recomendaciones. Esta seccion se centra en los aspectos de la gobernanza de la IA especificamente relacionados con garantizar que los sistemas de IA sean seguros y beneficiosos.

Investigacion [ editar ]

El estudio de la gobernanza de la seguridad de la IA abarca desde investigaciones fundacionales sobre las posibles repercusiones de la IA hasta su aplicacion concreta. Desde el punto de vista fundacional, diversos investigadores han sostenido que la IA podria transformar muchos aspectos de la sociedad debido a su amplia aplicabilidad, comparandola con la electricidad y la locomotora de vapor. [ 119 ] ​ Parte del trabajo se ha centrado en anticipar los riesgos especificos que pueden derivarse de estos impactos, tales como el desempleo masivo, [ 120 ] ​ el armamentismo, [ 121 ] ​ la desinformacion, [ 122 ] ​ la vigilancia [ 123 ] ​ y la concentracion de poder. [ 124 ]

Otras investigaciones analizan los factores de riesgo subyacentes, como la dificultad de supervisar la rapida evolucion de la industria de la IA, [ 125 ] ​ la disponibilidad de modelos de IA [ 126 ] ​ y el fenomeno de la "carrera hacia el abismo". [ 115 ] [ 127 ] ​ Allan Dafoe, responsable de gobernanza y estrategia a largo plazo de DeepMind, ha hecho hincapie en los peligros de la carrera y en la posible necesidad de cooperacion: [ 116 ]

"...puede ser casi una condicion necesaria y suficiente para la seguridad y la alineacion de la IA que haya un alto grado de precaucion antes de desplegar poderosos sistemas avanzados; sin embargo, si los agentes estan compitiendo en un dominio con grandes beneficios para los pioneros o con ventaja relativa, entonces se veran presionados a elegir un nivel de precaucion por debajo del optimo." [ 116 ]

Accion gubernamental [ editar ]

Hay quienes sostienen que es demasiado pronto para regular la IA, pues temen que la normativa obstaculice la innovacion y consideran insensato "apresurarse a regular desde la ignorancia". [ 128 ] [ 129 ] ​ Otros, como el magnate de los negocios Elon Musk , abogan por una accion preventiva para mitigar riesgos catastroficos. [ 130 ] ​ Hasta ahora apenas se han aprobado normas de seguridad en materia de IA a nivel nacional, pese a que se han presentado muchos proyectos de ley. Un ejemplo destacado es la Ley de Inteligencia Artificial de la Union Europea , la cual regula ciertas aplicaciones de "alto riesgo" de la IA y restringe usos potencialmente daninos como el reconocimiento facial, la manipulacion subliminal y el puntaje crediticio social.

Al margen de la legislacion formal, las agencias gubernamentales han propuesto recomendaciones eticas y de seguridad. En marzo de 2021, la Comision Nacional de Seguridad de EE. UU. sobre Inteligencia Artificial informo que los avances en materia de IA podrian hacer que fuese cada vez mas importante "garantizar que los sistemas esten alineados con metas y valores, como la seguridad, la solidez y la fiabilidad." [ 131 ] ​ Posteriormente, el Instituto Nacional de Estandares y Tecnologia elaboro un marco para la gestion de riesgos de la IA, que aconseja que cuando "existan riesgos de caracter catastrofico, el desarrollo y el despliegue deben cesar de forma segura hasta que los riesgos puedan gestionarse adecuadamente". [ 132 ]

En septiembre de 2021, la Republica Popular China publico una serie de directrices eticas para el uso de la IA en China, haciendo hincapie en que las decisiones relativas a la IA deben permanecer bajo control humano y exigiendo mecanismos de rendicion de cuentas. Ese mismo mes, el Reino Unido publico su Estrategia Nacional de IA a 10 anos, [ 133 ] ​ que afirma que el gobierno britanico "se toma en serio el riesgo a largo plazo de la Inteligencia Artificial General no alineada, y los cambios imprevisibles que supondria para el mundo." [ 134 ] ​ La estrategia describe medidas para evaluar los riesgos a largo plazo relacionados con la IA, incluidos los de caracter catastrofico. [ 134 ]

Organizaciones gubernamentales, sobre todo en Estados Unidos, tambien han fomentado el desarrollo de investigaciones tecnicas en materia de seguridad de la IA. La agencia de Actividad de Proyectos de Investigacion Avanzados de Inteligencia ( Intelligence Advanced Research Projects Activity o IARPA en ingles) inicio el proyecto TrojAI para identificar y proteger a los sistemas de IA contra ataques troyanos . [ 135 ] ​ La Agencia de Proyectos de Investigacion Avanzados de Defensa ( Defense Advanced Research Projects Agency o DARPA en ingles) investiga sobre inteligencia artificial explicable y como mejorar la solidez frente a ataques antagonicos , [ 136 ] [ 137 ] ​ y la Fundacion Nacional de Ciencias ( National Science Foundation o NSF en ingles) apoya al Centro para el Aprendizaje Automatico Confiable y destina millones a financiar investigaciones empiricas en materia de seguridad de la IA. [ 138 ]

Autorregulacion empresarial [ editar ]

Los laboratorios y las empresas de IA suelen regirse por practicas y normas de seguridad que escapan a la legislacion oficial. [ 139 ] ​ Uno de los objetivos de los investigadores en materia de gobernanza es dar forma a estas normas. Algunos ejemplos de recomendaciones de seguridad que figuran en publicaciones relevantes incluyen la auditoria por parte de terceros, [ 140 ] ​ ofrecer recompensas por detectar fallos, [ 140 ] ​ compartir incidentes relacionados con la IA [ 140 ] ​ (para ello se creo una base de datos de este tipo), [ 141 ] ​ seguir directrices para determinar si es conveniente publicar investigaciones o modelos, [ 126 ] ​ y mejorar la informacion y la ciberseguridad en los laboratorios de IA. [ 142 ]

Las empresas tambien han asumido compromisos concretos. Cohere, OpenAI y AI21 propusieron y acordaron "mejores practicas para desplegar modelos de lenguaje", centradas en reducir usos indebidos. [ 143 ] ​ Para evitar contribuir a la dinamica competitiva, OpenAI tambien declaro en sus estatutos que: [ 144 ]

"...si un proyecto alineado con valores y con conciencia de seguridad se acercase a la creacion de una IAG antes que nosotros, nos comprometemos a dejar de competir con ese proyecto y a empezar a ayudarle." [ 144 ]

Asimismo, lideres de la industria como el CEO de DeepMind, Demis Hassabis , y el director de Facebook AI, Yann LeCun , han firmado cartas abiertas como los Principios Asilomar y la Carta Abierta sobre Armas Autonomas. [ 145 ]

Vease tambien [ editar ]

Notas [ editar ]

  1. Otras definiciones de "alineacion" requieren que la inteligencia artificial persiga objetivos mas generales, como valores humanos, otros principios eticos o las intenciones que tendrian sus disenadores si estuvieran mas informados o fueran mas perspicaces. [ 79 ]
  2. Vease Russel & Norvig, Artificial Intelligence: A Modern Approach . [ 80 ] ​ La distincion entre inteligencia artificial no alineada e inteligencia artificial incompetente ha sido formalizada en ciertos contextos. [ 81 ]
  3. Los principios de la inteligencia artificial creados en la Conferencia de Asilomar sobre la Inteligencia Artificial Benefica fueron firmados por 1797 investigadores de robotica e inteligencia artificial. [ 93 ] ​ Ademas, el informe del Secretario General de la ONU titulado "Nuestra agenda comun" senala que "el Pacto [Digital Global] tambien podria promover la regulacion de la inteligencia artificial para asegurarse de que respete los valores globales comunes" y discute los riesgos catastroficos globales que surgen de los desarrollos tecnologicos. [ 94 ]

Referencias [ editar ]

  1. Carlsmith, Joseph (2022-06-16). ≪Is Power-Seeking AI an Existential Risk?≫ (en ingles) . arXiv : 2206.13353  [ cs.CY ] .  
  2. ≪‘The Godfather of A.I.’ warns of ‘nightmare scenario’ where artificial intelligence begins to seek power≫ . Fortune (en ingles) . Consultado el 22 de junio de 2023 .  
  3. a b Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain (31 de julio de 2018). ≪Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts≫ . Journal of Artificial Intelligence Research (en ingles) 62 : 729-754. ISSN   1076-9757 . doi : 10.1613/jair.1.11222 . Consultado el 22 de junio de 2023 .  
  4. Reade, A. E.; Gregory, K. F. (1975-12). ≪High-temperature production of protein-enriched feed from cassava by fungi≫ . Applied Microbiology 30 (6): 897-904. ISSN   0003-6919 . PMC   376565 . PMID   2105 . doi : 10.1128/am.30.6.897-904.1975 . Consultado el 22 de junio de 2023 .  
  5. https://aiimpacts.org/author/katja (4 de agosto de 2022). ≪2022 Expert Survey on Progress in AI≫ . AI Impacts (en ingles estadounidense) . Consultado el 22 de junio de 2023 .  
  6. Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita; Pang, Richard Yuanzhe; Phang, Jason; Bowman, Samuel R. (26 de agosto de 2022). What Do NLP Researchers Believe? Results of the NLP Community Metasurvey (en ingles) . arXiv : 2208.12852 .  
  7. De-Arteaga, Maria (13 de mayo de 2020). Machine Learning in High-Stakes Settings: Risks and Opportunities (PhD) (en ingles) . Carnegie Mellon University.  
  8. Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (13 de julio de 2021). ≪A Survey on Bias and Fairness in Machine Learning≫ . ACM Computing Surveys 54 (6): 115:1-115:35. ISSN   0360-0300 . doi : 10.1145/3457607 . Consultado el 22 de junio de 2023 .  
  9. Feldstein, Steven (2019), The Global Expansion of AI Surveillance (en ingles) , Carnegie Endowment for International Peace   .
  10. Barnes, Beth (2021). ≪Risks from AI persuasion≫ . Lesswrong (en ingles) . Archivado desde el original el 23 de noviembre de 2022 . Consultado el 23 de noviembre de 2022 .  
  11. a b c Brundage, Miles; Avin, Shahar; Clark, Jack; Toner, Helen; Eckersley, Peter; Garfinkel, Ben; Dafoe, Allan; Scharre, Paul; Zeitzoff, Thomas; Filar, Bobby; Anderson, Hyrum; Roff, Heather; Allen, Gregory C; Steinhardt, Jacob; Flynn, Carrick (30 de abril de 2018). The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation (en ingles) . Apollo-University Of Cambridge Repository, Apollo-University Of Cambridge Repository. Apollo - University of Cambridge Repository. S2CID   3385567 . doi : 10.17863/cam.22520 . Archivado desde el original el 23 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .  
  12. Carlsmith, Joseph (16 de junio de 2022). Is Power-Seeking AI an Existential Risk? (en ingles) . arXiv : 2206.13353 .  
  13. Shermer, Michael. ≪Artificial Intelligence Is Not a Threat?Yet≫ . Scientific American (en ingles) . Consultado el 22 de junio de 2023 .  
  14. Dafoe, Allan (2016). ≪Yes, We Are Worried About the Existential Risk of Artificial Intelligence≫ . MIT Technology Review (en ingles) . Archivado desde el original el 28 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .  
  15. a b Markoff, John (20 de mayo de 2013). ≪In 1949, He Imagined an Age of Robots≫ . The New York Times (en ingles) . ISSN   0362-4331 . Archivado desde el original el 23 de noviembre de 2022 . Consultado el 23 de noviembre de 2022 .  
  16. Yampolskiy, Roman V.; Spellchecker, M. S. (2016). Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures . doi : 10.48550/ARXIV.1610.07997 . Consultado el 22 de junio de 2023 .  
  17. ≪PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011)≫ (en ingles) . Archivado desde el original el 23 de noviembre de 2022 . Consultado el 23 de noviembre de 2022 .  
  18. Yampolskiy, Roman V. (2013). Muller, Vincent C., ed. Artificial Intelligence Safety Engineering: Why Machine Ethics Is a Wrong Approach (en ingles) 5 . Springer Berlin Heidelberg. pp. 389-396. ISBN   978-3-642-31673-9 . doi : 10.1007/978-3-642-31674-6_29 . Consultado el 22 de junio de 2023 .  
  19. Elon Musk [@elonmusk]. ≪Worth reading Superintelligence by Bostrom. We need to be super careful with AI. Potentially more dangerous than nukes.≫ . X (antes Twitter ) (tuit) (en ingles) .  
  20. Baidu CEO Robin Li interviews Bill Gates and Elon Musk at the Boao Forum, March 29 2015 , consultado el 22 de junio de 2023   .
  21. Cellan-Jones, Rory (2 de diciembre de 2014). ≪Stephen Hawking warns artificial intelligence could end mankind≫ . BBC News (en ingles) . Archivado desde el original el 30 de octubre de 2015 . Consultado el 23 de noviembre de 2022 .  
  22. ≪Research Priorities for Robust and Beneficial Artificial Intelligence: An Open Letter≫ . Future of Life Institute (en ingles estadounidense) . Consultado el 22 de junio de 2023 .  
  23. ≪AI Research Grants Program≫ . Future of Life Institute (en ingles estadounidense) . Consultado el 22 de junio de 2023 .  
  24. ≪SafArtInt 2016≫ . www.cmu.edu . Consultado el 22 de junio de 2023 .  
  25. ≪UW to host first of four White House public workshops on artificial intelligence≫ . UW News (en ingles) . Consultado el 22 de junio de 2023 .  
  26. Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mane, Dan (2016). Concrete Problems in AI Safety . doi : 10.48550/ARXIV.1606.06565 . Consultado el 22 de junio de 2023 .  
  27. ≪AI Principles≫ . Future of Life Institute (en ingles estadounidense) . Consultado el 22 de junio de 2023 .  
  28. a b Research, DeepMind Safety (27 de septiembre de 2018). ≪Building safe artificial intelligence: specification, robustness, and assurance≫ . Medium (en ingles) . Consultado el 22 de junio de 2023 .  
  29. ≪SafeML ICLR 2019 Workshop≫ . sites.google.com . Consultado el 22 de junio de 2023 .  
  30. a b c d e f Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (2021). Unsolved Problems in ML Safety . doi : 10.48550/ARXIV.2109.13916 . Consultado el 24 de junio de 2023 .  
  31. Browne, Ryan (12 de junio de 2023). ≪British Prime Minister Rishi Sunak pitches UK as home of A.I. safety regulation as London bids to be next Silicon Valley≫ . CNBC (en ingles) . Consultado el 25 de junio de 2023 .  
  32. Kirilenko, Andrei; Kyle, Albert S.; Samadi, Mehrdad; Tuzun, Tugkan (2017-06). ≪The Flash Crash: High-Frequency Trading in an Electronic Market: The Flash Crash≫ . The Journal of Finance (en ingles) 72 (3): 967-998. doi : 10.1111/jofi.12498 . Consultado el 24 de junio de 2023 .  
  33. Newman, Mej (2005-09). ≪Power laws, Pareto distributions and Zipf's law≫ . Contemporary Physics (en ingles) 46 (5): 323-351. ISSN   0010-7514 . doi : 10.1080/00107510500052444 . Consultado el 24 de junio de 2023 .  
  34. Eliot, Lance. ≪Whether Those Endless Edge Or Corner Cases Are The Long-Tail Doom For AI Self-Driving Cars≫ . Forbes . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  35. ≪Attacking machine learning with adversarial examples≫ . openai.com (en ingles estadounidense) . Consultado el 29 de junio de 2023 .  
  36. a b Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (19 de febrero de 2014). Intriguing properties of neural networks . arXiv : 1312.6199 .  
  37. Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 de septiembre de 2019). Towards Deep Learning Models Resistant to Adversarial Attacks . arXiv : 1706.06083 .  
  38. Madry, Aleksander; Makelov, Aleksandar; Schmidt, Ludwig; Tsipras, Dimitris; Vladu, Adrian (4 de septiembre de 2019). Towards Deep Learning Models Resistant to Adversarial Attacks . arXiv : 1706.06083 .  
  39. Kannan, Harini; Kurakin, Alexey; Goodfellow, Ian (16 de marzo de 2018). Adversarial Logit Pairing . arXiv : 1803.06373 .  
  40. Gilmer, Justin; Adams, Ryan P.; Goodfellow, Ian; Andersen, David; Dahl, George E. (19 de julio de 2018). Motivating the Rules of the Game for Adversarial Example Research . arXiv : 1807.06732 .  
  41. Carlini, Nicholas; Wagner, David (29 de marzo de 2018). Audio Adversarial Examples: Targeted Attacks on Speech-to-Text . arXiv : 1801.01944 .  
  42. Sheatsley, Ryan; Papernot, Nicolas; Weisman, Michael; Verma, Gunjan; McDaniel, Patrick (9 de septiembre de 2022). Adversarial Examples in Constrained Domains . arXiv : 2011.01183 .  
  43. Suciu, Octavian; Coull, Scott E.; Johns, Jeffrey (13 de abril de 2019). Exploring Adversarial Examples in Malware Detection . arXiv : 1810.08280 .  
  44. Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie (4 de marzo de 2022). Training language models to follow instructions with human feedback . arXiv : 2203.02155 .  
  45. Gao, Leo; Schulman, John; Hilton, Jacob (19 de octubre de 2022). Scaling Laws for Reward Model Overoptimization . arXiv : 2210.10760 .  
  46. Yu, Sihyun; Ahn, Sungsoo; Song, Le; Shin, Jinwoo (27 de octubre de 2021). RoMA: Robust Model Adaptation for Offline Model-based Optimization . arXiv : 2110.14188 .  
  47. a b Hendrycks, Dan; Mazeika, Mantas (20 de septiembre de 2022). X-Risk Analysis for AI Research . arXiv : 2206.05862 .  
  48. Tran, Khoa A.; Kondrashova, Olga; Bradley, Andrew; Williams, Elizabeth D.; Pearson, John V.; Waddell, Nicola (2021). ≪Deep learning in cancer diagnosis, prognosis and treatment selection≫ . Genome Medicine (en ingles) 13 (1): 152. ISSN   1756-994X . PMC   8477474 . PMID   34579788 . doi : 10.1186/s13073-021-00968-x .  
  49. Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (6 de agosto de 2017). ≪On calibration of modern neural networks≫. Proceedings of the 34th international conference on machine learning . Proceedings of machine learning research 70 . PMLR. pp. 1321-1330.  
  50. Ovadia, Yaniv; Fertig, Emily; Ren, Jie; Nado, Zachary; Sculley, D.; Nowozin, Sebastian; Dillon, Joshua V.; Lakshminarayanan, Balaji et al. (17 de diciembre de 2019). Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift . arXiv : 1906.02530 .  
  51. Bogdoll, Daniel; Breitenstein, Jasmin; Heidecker, Florian; Bieshaar, Maarten; Sick, Bernhard; Fingscheidt, Tim; Zollner, J. Marius (2021). ≪Description of Corner Cases in Automated Driving: Goals and Challenges≫. 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW) : 1023-1028. ISBN   978-1-6654-0191-3 . S2CID   237572375 . arXiv : 2109.09607 . doi : 10.1109/ICCVW54120.2021.00119 .  
  52. Hendrycks, Dan; Mazeika, Mantas; Dietterich, Thomas (28 de enero de 2019). Deep Anomaly Detection with Outlier Exposure . arXiv : 1812.04606 .  
  53. Wang, Haoqi; Li, Zhizhong; Feng, Litong; Zhang, Wayne (21 de marzo de 2022). ViM: Out-Of-Distribution with Virtual-logit Matching . arXiv : 2203.10807 .  
  54. Hendrycks, Dan; Gimpel, Kevin (3 de octubre de 2018). A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks . arXiv : 1610.02136 .  
  55. Urbina, Fabio; Lentzos, Filippa; Invernizzi, Cedric; Ekins, Sean (2022). ≪Dual use of artificial-intelligence-powered drug discovery≫ . Nature Machine Intelligence (en ingles) 4 (3): 189-191. ISSN   2522-5839 . PMC   9544280 . PMID   36211133 . doi : 10.1038/s42256-022-00465-9 .  
  56. Center for Security and Emerging Technology; Buchanan, Ben; Lohn, Andrew; Musser, Micah; Sedova, Katerina (2021). Truth, Lies, and Automation: How Language Models Could Change Disinformation . S2CID   240522878 . doi : 10.51593/2021ca003 . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .  
  57. ≪Propaganda-as-a-service may be on the horizon if large language models are abused≫ . VentureBeat . 14 de diciembre de 2021. Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  58. Center for Security and Emerging Technology; Buchanan, Ben; Bansemer, John; Cary, Dakota; Lucas, Jack; Musser, Micah (2020). ≪Automating Cyber Attacks: Hype and Reality≫ . Center for Security and Emerging Technology . S2CID   234623943 . doi : 10.51593/2020ca002 . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .  
  59. ≪Lessons Learned on Language Model Safety and Misuse≫ . OpenAI . 3 de marzo de 2022. Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  60. Markov, Todor; Zhang, Chong; Agarwal, Sandhini; Eloundou, Tyna; Lee, Teddy; Adler, Steven; Jiang, Angela; Weng, Lilian (10 de agosto de 2022). ≪New-and-Improved Content Moderation Tooling≫ . OpenAI . Archivado desde el original el 11 de enero de 2023 . Consultado el 24 de noviembre de 2022 .  
  61. a b Savage, Neil (29 de marzo de 2022). ≪Breaking into the black box of artificial intelligence≫ . Nature . PMID   35352042 . S2CID   247792459 . doi : 10.1038/d41586-022-00858-1 . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  62. Center for Security and Emerging Technology; Rudner, Tim; Toner, Helen (2021). Key Concepts in AI Safety: Interpretability in Machine Learning . S2CID   233775541 . doi : 10.51593/20190042 . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .  
  63. McFarland, Matt (19 de marzo de 2018). ≪Uber pulls self-driving cars after first fatal crash of autonomous vehicle≫ . CNNMoney . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  64. a b Doshi-Velez, Finale; Kortz, Mason; Budish, Ryan; Bavitz, Chris; Gershman, Sam; O'Brien, David; Scott, Kate; Schieber, Stuart; Waldo, James; Weinberger, David; Weller, Adrian; Wood, Alexandra (20 de diciembre de 2019). Accountability of AI Under the Law: The Role of Explanation . arXiv : 1711.01134 .  
  65. Fong, Ruth; Vedaldi, Andrea (2017). ≪Interpretable Explanations of Black Boxes by Meaningful Perturbation≫. 2017 IEEE International Conference on Computer Vision (ICCV) : 3449-3457. ISBN   978-1-5386-1032-9 . S2CID   1633753 . arXiv : 1704.03296 . doi : 10.1109/ICCV.2017.371 .  
  66. Meng, Kevin; Bau, David; Andonian, Alex; Belinkov, Yonatan (2022). ≪Locating and editing factual associations in GPT≫. Advances in Neural Information Processing Systems 35 . arXiv : 2202.05262 .  
  67. Bau, David; Liu, Steven; Wang, Tongzhou; Zhu, Jun-Yan; Torralba, Antonio (30 de julio de 2020). Rewriting a Deep Generative Model . arXiv : 2007.15646 .  
  68. Rauker, Tilman; Ho, Anson; Casper, Stephen; Hadfield-Menell, Dylan (5 de septiembre de 2022). Toward Transparent AI: A Survey on Interpreting the Inner Structures of Deep Neural Networks . arXiv : 2207.13243 .  
  69. Bau, David; Zhou, Bolei; Khosla, Aditya; Oliva, Aude; Torralba, Antonio (19 de abril de 2017). Network Dissection: Quantifying Interpretability of Deep Visual Representations . arXiv : 1704.05796 .  
  70. McGrath, Thomas; Kapishnikov, Andrei; Toma?ev, Nenad; Pearce, Adam; Wattenberg, Martin; Hassabis, Demis; Kim, Been; Paquet, Ulrich et al. (22 de noviembre de 2022). ≪Acquisition of chess knowledge in AlphaZero≫ . Proceedings of the National Academy of Sciences (en ingles) 119 (47): e2206625119. Bibcode : 2022PNAS..11906625M . ISSN   0027-8424 . PMC   9704706 . PMID   36375061 . arXiv : 2111.09259 . doi : 10.1073/pnas.2206625119 .  
  71. Goh, Gabriel; Cammarata, Nick; Voss, Chelsea; Carter, Shan; Petrov, Michael; Schubert, Ludwig; Radford, Alec; Olah, Chris (2021). ≪Multimodal neurons in artificial neural networks≫. Distill 6 (3). S2CID   233823418 . doi : 10.23915/distill.00030 .  
  72. Olah, Chris; Cammarata, Nick; Schubert, Ludwig; Goh, Gabriel; Petrov, Michael; Carter, Shan (2020). ≪Zoom in: An introduction to circuits≫. Distill 5 (3). S2CID   215930358 . doi : 10.23915/distill.00024.001 .  
  73. Cammarata, Nick; Goh, Gabriel; Carter, Shan; Voss, Chelsea; Schubert, Ludwig; Olah, Chris (2021). ≪Curve circuits≫ . Distill 6 (1). doi : 10.23915/distill.00024.006 . Archivado desde el original el 5 de diciembre de 2022 . Consultado el 5 de diciembre de 2022 .  
  74. Olsson, Catherine; Elhage, Nelson; Nanda, Neel; Joseph, Nicholas; DasSarma, Nova; Henighan, Tom; Mann, Ben; Askell, Amanda; Bai, Yuntao; Chen, Anna; Conerly, Tom; Drain, Dawn; Ganguli, Deep; Hatfield-Dodds, Zac; Hernandez, Danny; Johnston, Scott; Jones, Andy; Kernion, Jackson; Lovitt, Liane; Ndousse, Kamal; Amodei, Dario; Brown, Tom; Clark, Jack; Kaplan, Jared; McCandlish, Sam; Olah, Chris (2022). ≪In-context learning and induction heads≫. Transformer Circuits Thread . arXiv : 2209.11895 .  
  75. Olah, Christopher. ≪Interpretability vs Neuroscience [rough note]≫ . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  76. Gu, Tianyu; Dolan-Gavitt, Brendan; Garg, Siddharth (11 de marzo de 2019). BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain . arXiv : 1708.06733 .  
  77. Chen, Xinyun; Liu, Chang; Li, Bo; Lu, Kimberly; Song, Dawn (14 de diciembre de 2017). Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning . arXiv : 1712.05526 .  
  78. Carlini, Nicholas; Terzis, Andreas (28 de marzo de 2022). Poisoning and Backdooring Contrastive Learning . arXiv : 2106.09667 .  
  79. Gabriel, Iason (1 de septiembre de 2020). ≪Artificial Intelligence, Values, and Alignment≫ . Minds and Machines 30 (3): 411-437. ISSN   1572-8641 . S2CID   210920551 . doi : 10.1007/s11023-020-09539-2 . Consultado el 23 de julio de 2022 .  
  80. a b Russell, Stuart J.; Norvig, Peter (2020). Artificial intelligence: A modern approach (4th edicion). Pearson. pp. 31-34. ISBN   978-1-292-40113-3 . OCLC   1303900751 .  
  81. Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D; Pfau, Jacob; Krueger, David (17 de julio de 2022). ≪Goal misgeneralization in deep reinforcement learning≫. Proceedings of the 39th international conference on machine learning . Proceedings of machine learning research 162 . PMLR. pp. 12004-12019.  
  82. Krakovna, Victoria; Orseau, Laurent; Ngo, Richard; Martic, Miljan; Legg, Shane (6 de diciembre de 2020). ≪Avoiding Side Effects By Considering Future Tasks≫ . Advances in Neural Information Processing Systems 33 (NeurIPS 2020) 33 . arXiv : 2010.07877 .  
  83. a b Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control . Penguin Random House. ISBN   9780525558637 . OCLC   1113410915 .  
  84. a b c d e f g Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, Jacob (2022-06-16). ≪Unsolved Problems in ML Safety≫. arXiv : 2109.13916  [ cs.LG ] .  
  85. Carlsmith, Joseph (2022-06-16). ≪Is Power-Seeking AI an Existential Risk?≫. arXiv : 2206.13353  [ cs.CY ] .  
  86. Christian, Brian (2020). The alignment problem: Machine learning and human values . W. W. Norton & Company. ISBN   978-0-393-86833-3 . OCLC   1233266753 . Archivado desde el original el 10 de febrero de 2023 . Consultado el 10 de octubre de 2022 .  
  87. Kober, Jens; Bagnell, J. Andrew; Peters, Jan (1 de septiembre de 2013). ≪Reinforcement learning in robotics: A survey≫ . The International Journal of Robotics Research (en ingles) 32 (11): 1238-1274. ISSN   0278-3649 . doi : 10.1177/0278364913495721 .  
  88. a b Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette et al. (12 de julio de 2022). ≪On the Opportunities and Risks of Foundation Models≫ . Stanford CRFM . arXiv : 2108.07258 .  
  89. Zaremba, Wojciech (10 de agosto de 2021). ≪OpenAI Codex≫ . OpenAI . Consultado el 23 de julio de 2022 .  
  90. Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (11 de marzo de 2022). Reward (Mis)design for Autonomous Driving . arXiv : 2104.13906 .  
  91. Stray, Jonathan (2020). ≪Aligning AI Optimization to Community Well-Being≫ . International Journal of Community Well-Being (en ingles) 3 (4): 443-463. ISSN   2524-5295 . PMID   34723107 . doi : 10.1007/s42413-020-00086-3 .  
  92. Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (14 de febrero de 2022). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models . International Conference on Learning Representations . Consultado el 21 de julio de 2022 .  
  93. Future of Life Institute (11 de agosto de 2017). ≪Asilomar AI Principles≫ . Future of Life Institute . Consultado el 18 de julio de 2022 .  
  94. Naciones Unidas (2021), Nuestra agenda comun: Informe del Secretario General , Nueva York: Naciones Unidas, pp. 63-64   .
  95. a b c Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mane, Dan (2016-06-21). ≪Concrete Problems in AI Safety≫ (en en) . arXiv : 1606.06565  [ cs.AI ] .  
  96. Ortega, Pedro A. (27 de septiembre de 2018). ≪Building safe artificial intelligence: specification, robustness, and assurance≫ . DeepMind Safety Research - Medium . Consultado el 18 de julio de 2022 .  
  97. a b Rorvig, Mordechai (14 de abril de 2022). ≪Researchers Gain New Understanding From Simple AI≫ . Quanta Magazine . Consultado el 18 de julio de 2022 .  
  98. Russell, Stuart; Dewey, Daniel; Tegmark, Max (31 de diciembre de 2015). ≪Research Priorities for Robust and Beneficial Artificial Intelligence≫ . AI Magazine 36 (4): 105-114. ISSN   2371-9621 . doi : 10.1609/aimag.v36i4.2577 .  
  99. Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Furnkranz, Johannes (2017). ≪A survey of preference-based reinforcement learning methods≫. Journal of Machine Learning Research 18 (136): 1-46.  
  100. Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). ≪Deep reinforcement learning from human preferences≫. Proceedings of the 31st International Conference on Neural Information Processing Systems . NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302-4310. ISBN   978-1-5108-6096-4 .  
  101. Heaven, Will Douglas (27 de enero de 2022). ≪The new version of GPT-3 is much better behaved (and should be less toxic)≫ . MIT Technology Review . Consultado el 18 de julio de 2022 .  
  102. Clifton, Jesse (2020). ≪Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda≫ . Center on Long-Term Risk . Consultado el 18 de julio de 2022 .  
  103. Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (6 de mayo de 2021). ≪Cooperative AI: machines must learn to find common ground≫ . Nature (en ingles) 593 (7857): 33-36. Bibcode : 2021Natur.593...33D . ISSN   0028-0836 . PMID   33947992 . doi : 10.1038/d41586-021-01170-0 .  
  104. Prunkl, Carina; Whittlestone, Jess (7 de febrero de 2020). ≪Beyond Near- and Long-Term: Towards a Clearer Account of Research Priorities in AI Ethics and Society≫ . Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (en ingles) (New York NY USA: ACM): 138-143. ISBN   978-1-4503-7110-0 . doi : 10.1145/3375627.3375803 .  
  105. Irving, Geoffrey; Askell, Amanda (19 de febrero de 2019). ≪AI Safety Needs Social Scientists≫ . Distill 4 (2): 10.23915/distill.00014. ISSN   2476-0757 . doi : 10.23915/distill.00014 .  
  106. a b c d e f Zwetsloot, Remco; Dafoe, Allan (11 de febrero de 2019). ≪Thinking About Risks From AI: Accidents, Misuse and Structure≫ . Lawfare . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  107. Zhang, Yingyu; Dong, Chuntong; Guo, Weiqun; Dai, Jiabao; Zhao, Ziming (2022). ≪Systems theoretic accident model and process (STAMP): A literature review≫ . Safety Science (en ingles) 152 : 105596. S2CID   244550153 . doi : 10.1016/j.ssci.2021.105596 . Archivado desde el original el 15 de marzo de 2023 . Consultado el 28 de noviembre de 2022 .  
  108. Center for Security and Emerging Technology; Hoffman, Wyatt (2021). AI and the Future of Cyber Competition . S2CID   234245812 . doi : 10.51593/2020ca007 . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .  
  109. Center for Security and Emerging Technology; Imbrie, Andrew; Kania, Elsa (2019). AI Safety, Security, and Stability Among Great Powers: Options, Challenges, and Lessons Learned for Pragmatic Engagement . S2CID   240957952 . doi : 10.51593/20190051 . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .  
  110. a b Future of Life Institute (27 de marzo de 2019). AI Strategy, Policy, and Governance (Allan Dafoe) . Escena en 22:05. Archivado desde el original el 23 de noviembre de 2022 . Consultado el 23 de noviembre de 2022 .  
  111. Zou, Andy; Xiao, Tristan; Jia, Ryan; Kwon, Joe; Mazeika, Mantas; Li, Richard; Song, Dawn; Steinhardt, Jacob; Evans, Owain; Hendrycks, Dan (9 de octubre de 2022). Forecasting Future World Events with Neural Networks . arXiv : 2206.15474 .  
  112. Gathani, Sneha; Hulsebos, Madelon; Gale, James; Haas, Peter J.; Demiralp, Ca?atay (8 de febrero de 2022). Augmenting Decision Making via Interactive What-If Analysis . arXiv : 2109.06160 .  
  113. Lindelauf, Roy (2021), ≪Nuclear Deterrence in the Algorithmic Age: Game Theory Revisited≫ , en Osinga, Frans; Sweijs, Tim, eds., NL ARMS Netherlands Annual Review of Military Studies 2020 , Nl Arms (en ingles) (The Hague: T.M.C. Asser Press): 421-436, ISBN   978-94-6265-418-1 , S2CID   229449677 , doi : 10.1007/978-94-6265-419-8_22 , archivado desde el original el 15 de marzo de 2023 , consultado el 24 de noviembre de 2022   .
  114. a b Newkirk II, Vann R. (21 de abril de 2016). ≪Is Climate Change a Prisoner's Dilemma or a Stag Hunt?≫ . The Atlantic . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  115. a b Armstrong, Stuart; Bostrom, Nick; Shulman, Carl, Racing to the Precipice: a Model of Artificial Intelligence Development , Future of Humanity Institute, Oxford University   .
  116. a b c Dafoe, Allan, AI Governance: A Research Agenda , Centre for the Governance of AI, Future of Humanity Institute, University of Oxford   .
  117. Dafoe, Allan; Hughes, Edward; Bachrach, Yoram; Collins, Tantum; McKee, Kevin R.; Leibo, Joel Z.; Larson, Kate; Graepel, Thore (15 de diciembre de 2020). Open Problems in Cooperative AI . arXiv : 2012.08630 .  
  118. a b Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021). ≪Cooperative AI: machines must learn to find common ground≫ . Nature 593 (7857): 33-36. Bibcode : 2021Natur.593...33D . PMID   33947992 . S2CID   233740521 . doi : 10.1038/d41586-021-01170-0 . Archivado desde el original el 22 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  119. Crafts, Nicholas (23 de septiembre de 2021). ≪Artificial intelligence as a general-purpose technology: an historical perspective≫ . Oxford Review of Economic Policy (en ingles) 37 (3): 521-536. ISSN   0266-903X . doi : 10.1093/oxrep/grab012 . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .  
  120. 葉?禎; 黃子君; 張?雯; 賴志? (1 de diciembre de 2020). ≪Labor Displacement in Artificial Intelligence Era: A Systematic Literature Review≫. 臺灣東亞文明?究學刊 (en ingles) 17 (2). ISSN   1812-6243 . doi : 10.6163/TJEAS.202012_17(2).0002 .  
  121. Johnson, James (3 de abril de 2019). ≪Artificial intelligence & future warfare: implications for international security≫ . Defense & Security Analysis (en ingles) 35 (2): 147-169. ISSN   1475-1798 . S2CID   159321626 . doi : 10.1080/14751798.2019.1600800 . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .  
  122. Kertysova, Katarina (12 de diciembre de 2018). ≪Artificial Intelligence and Disinformation: How AI Changes the Way Disinformation is Produced, Disseminated, and Can Be Countered≫ . Security and Human Rights 29 (1?4): 55-81. ISSN   1874-7337 . S2CID   216896677 . doi : 10.1163/18750230-02901005 . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 28 de noviembre de 2022 .  
  123. Feldstein, Steven (2019). The Global Expansion of AI Surveillance . Carnegie Endowment for International Peace.  
  124. The economics of artificial intelligence : an agenda . Ajay Agrawal, Joshua Gans, Avi Goldfarb. Chicago. 2019. ISBN   978-0-226-61347-5 . OCLC   1099435014 . Archivado desde el original el 15 de marzo de 2023 . Consultado el 28 de noviembre de 2022 .  
  125. Whittlestone, Jess; Clark, Jack (31 de agosto de 2021). Why and How Governments Should Monitor AI Development . arXiv : 2108.12427 .  
  126. a b Shevlane, Toby (2022). ≪Sharing Powerful AI Models | GovAI Blog≫ . Center for the Governance of AI . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  127. Askell, Amanda; Brundage, Miles; Hadfield, Gillian (10 de julio de 2019). The Role of Cooperation in Responsible AI Development . arXiv : 1907.04534 .  
  128. Ziegler, Bart. ≪Is It Time to Regulate AI?≫ . WSJ . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  129. Reed, Chris (13 de septiembre de 2018). ≪How should we regulate artificial intelligence?≫ . Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences (en ingles) 376 (2128): 20170360. Bibcode : 2018RSPTA.37670360R . ISSN   1364-503X . PMC   6107539 . PMID   30082306 . doi : 10.1098/rsta.2017.0360 .  
  130. Belton, Keith B. (7 de marzo de 2019). ≪How Should AI Be Regulated?≫ . IndustryWeek . Archivado desde el original el 29 de enero de 2022 . Consultado el 24 de noviembre de 2022 .  
  131. National Security Commission on Artificial Intelligence (2021), Final Report   .
  132. National Institute of Standards and Technology (12 de julio de 2021). ≪AI Risk Management Framework≫ . NIST . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  133. Richardson, Tim (2021). ≪Britain publishes 10-year National Artificial Intelligence Strategy≫ . Archivado desde el original el 10 de febrero de 2023 . Consultado el 24 de noviembre de 2022 .  
  134. a b ≪Guidance: National AI Strategy≫ . GOV.UK . 2021. Archivado desde el original el 10 de febrero de 2023 . Consultado el 24 de noviembre de 2022 .  
  135. Office of the Director of National Intelligence; Office of the Director of National Intelligence, Intelligence Advanced Research Projects Activity. ≪IARPA - TrojAI≫ . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  136. Turek, Matt. ≪Explainable Artificial Intelligence≫ . Archivado desde el original el 19 de febrero de 2021 . Consultado el 24 de noviembre de 2022 .  
  137. Draper, Bruce. ≪Guaranteeing AI Robustness Against Deception≫ . Defense Advanced Research Projects Agency . Archivado desde el original el 9 de enero de 2023 . Consultado el 24 de noviembre de 2022 .  
  138. National Science Foundation. ≪Safe Learning-Enabled Systems≫ . Archivado desde el original el 26 de febrero de 2023 . Consultado el 27 de febrero de 2023 .  
  139. Mantymaki, Matti; Minkkinen, Matti; Birkstedt, Teemu; Viljanen, Mika (2022). ≪Defining organizational AI governance≫ . AI and Ethics (en ingles) 2 (4): 603-609. ISSN   2730-5953 . S2CID   247119668 . doi : 10.1007/s43681-022-00143-x . Archivado desde el original el 15 de marzo de 2023 . Consultado el 28 de noviembre de 2022 .  
  140. a b c Brundage, Miles; Avin, Shahar; Wang, Jasmine; Belfield, Haydn; Krueger, Gretchen; Hadfield, Gillian; Khlaaf, Heidy; Yang, Jingying; Toner, Helen; Fong, Ruth; Maharaj, Tegan; Koh, Pang Wei; Hooker, Sara; Leung, Jade; Trask, Andrew (20 de abril de 2020). Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable Claims . arXiv : 2004.07213 .  
  141. ≪Welcome to the Artificial Intelligence Incident Database≫ . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  142. Wiblin, Robert; Harris, Keiran (2022). ≪Nova DasSarma on why information security may be critical to the safe development of AI systems≫ . 80,000 Hours . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  
  143. OpenAI (2 de junio de 2022). ≪Best Practices for Deploying Language Models≫ . OpenAI . Archivado desde el original el 15 de marzo de 2023 . Consultado el 24 de noviembre de 2022 .  
  144. a b OpenAI. ≪OpenAI Charter≫ . OpenAI . Archivado desde el original el 4 de marzo de 2021 . Consultado el 24 de noviembre de 2022 .  
  145. Future of Life Institute (2016). ≪Autonomous Weapons Open Letter: AI & Robotics Researchers≫ . Future of Life Institute . Archivado desde el original el 24 de noviembre de 2022 . Consultado el 24 de noviembre de 2022 .  

Enlaces externos [ editar ]