Seguretat de la IA

De la Viquipedia, l'enciclopedia lliure
Algunes maneres en que una IA avancada desalineada podria intentar obtenir mes poder. Els comportaments de recerca de poder poden sorgir perque el poder es util per aconseguir practicament qualsevol objectiu [1] (vegeu convergencia instrumental ).

La seguretat de la IA es un camp interdisciplinari preocupat per prevenir accidents, mal us o altres consequencies perjudicials que podrien derivar-se dels sistemes d'intel·ligencia artificial (IA). Compren l'etica de les maquines i l'alineacio de la IA , que tenen com a objectiu fer que els sistemes d'IA siguin morals i beneficiosos, i la seguretat de la IA inclou problemes tecnics, inclosos els sistemes de monitoritzacio de riscos i fer-los altament fiables. Mes enlla de la investigacio en IA, implica desenvolupar normes i politiques que promoguin la seguretat.

Motivacions [ modifica ]

Els investigadors d'IA tenen opinions molt diferents sobre la gravetat i les principals fonts de risc que suposa la tecnologia d'IA, [2] [3] [4] tot i que les enquestes suggereixen que els experts es prenen seriosament els riscos de consequencies elevades. En dues enquestes d'investigadors d'IA, la mitjana enquestada era optimista sobre la IA en general, pero va situar una probabilitat del 5% en un resultat "extremadament dolent (per exemple, extincio humana )" de la IA avancada. [2] En una enquesta de 2022 a la comunitat de processament del llenguatge natural (PNL), el 37% va estar d'acord o poc d'acord que es plausible que les decisions de la IA poguessin conduir a una catastrofe que es "almenys tan dolenta com una guerra nuclear total". [5] Els estudiosos discuteixen els riscos actuals de fallades critiques dels sistemes, biaix, [6] i vigilancia habilitada per IA; riscos emergents de l'atur tecnologic, la manipulacio digital, [7] i l'armamentitzacio; [8] i riscos especulatius de perdre el control dels futurs agents d'intel·ligencia general artificial (AGI).

Es pot afegir un soroll dissenyat amb cura a una imatge per fer que es classifiqui erroniament amb una gran confianca.

[9]

Alguns han criticat les preocupacions sobre l'AGI, com Andrew Ng que les va comparar el 2015 amb "preocupar-se per la superpoblacio a Mart quan encara no hem posat un peu al planeta". [10] Stuart J. Russell, de l'altra banda, demana precaucio, argumentant que "es millor anticipar l'enginy huma que no pas subestimar-lo". [11]

Rerefons [ modifica ]

Els riscos de la IA es van comencar a discutir seriosament a l'inici de l' era de la informatica :

A mes, si ens movem en la direccio de fer maquines que aprenen i el comportament de les quals es modifica per l'experiencia, hem d'enfrontar-nos al fet que cada grau d'independencia que donem a la maquina es un grau de possible desafiament dels nostres desitjos.
? Norbert Wiener (1949) [12]

Del 2008 al 2009, l' AAAI va encarregar un estudi per explorar i abordar les possibles influencies socials a llarg termini de la investigacio i el desenvolupament de la IA. El panell es mostrava generalment esceptic sobre les opinions radicals expressades pels autors de ciencia-ficcio, pero va acordar que "una investigacio addicional seria valuosa sobre els metodes per comprendre i verificar la gamma de comportaments de sistemes computacionals complexos per minimitzar els resultats inesperats". [13]

Seguiment [ modifica ]

Sovint es important que els operadors humans avaluin fins a quin punt haurien de confiar en un sistema d'IA, especialment en entorns de gran risc, com ara el diagnostic medic. [14] Els models ML generalment expressen confianca mitjancant la sortida de probabilitats; tanmateix, sovint tenen exces de confianca, especialment en situacions que difereixen d'aquelles per a les quals van ser entrenats per manejar. [15] La investigacio de calibratge preten fer que les probabilitats del model es corresponguin el mes a prop possible amb la proporcio real que el model es correcte.

Els estudiosos [16] i les agencies governamentals han expressat la seva preocupacio perque els sistemes d'IA es poguessin utilitzar per ajudar els actors maliciosos a construir armes, [17] manipular l'opinio publica [18] [19] o automatitzar els ciberatacs. [20] [21] Aquestes preocupacions son una preocupacio practica per a empreses com OpenAI que allotgen potents eines d'IA en linia. [22] Per evitar un mal us, OpenAI ha creat sistemes de deteccio que marquen o restringeixen els usuaris en funcio de la seva activitat. [23]

Les xarxes neuronals sovint s'han descrit com a caixes negres , [24] el que significa que es dificil entendre per que prenen les decisions que prenen com a resultat del gran nombre de calculs que realitzen. [25] Aixo fa que sigui dificil anticipar els fracassos. L'any 2018, un cotxe autonom va matar un vianant despres de no identificar-lo. A causa de la naturalesa de la caixa negra del programari d'IA, el motiu de la fallada encara no esta clar. [26]

Es habitual que els riscos de la IA (i els riscos tecnologics en general) es classifiquen com a mal us o accidents . [27] Alguns estudiosos han suggerit que aquest marc es queda curt. [27] Per exemple, la crisi dels missils de Cuba no va ser clarament un accident o un mal us de la tecnologia. [27] Els analistes politics Zwetsloot i Dafoe van escriure: "Les perspectives d'us indegut i d'accident tendeixen a centrar-se nomes en l'ultim pas d'una cadena causal que porta a un dany: es a dir, la persona que va fer un mal us de la tecnologia o el sistema que es va comportar de manera no desitjada... Sovint, pero, la cadena causal rellevant es molt mes llarga". Els riscos sovint sorgeixen de factors "estructurals" o "sistemics", com ara pressions competitives, difusio de danys, desenvolupament rapid, alts nivells d'incertesa i cultura de seguretat inadequada. [27] En el context mes ampli de l'enginyeria de seguretat , factors estructurals com la "cultura de seguretat organitzativa" tenen un paper central en el popular marc d'analisi de riscos STAMP. [28]

Referencies [ modifica ]

  1. 'The Godfather of A.I.' warns of 'nightmare scenario' where artificial intelligence begins to seek power ≫ (en angles). Fortune . [Consulta: 10 juny 2023].
  2. 2,0 2,1 Grace , Katja; Salvatier , John; Dafoe , Allan; Zhang , Baobao; Evans , Owain Journal of Artificial Intelligence Research , 62, 31-07-2018, pag. 729?754. DOI : 10.1613/jair.1.11222 . ISSN : 1076-9757 [Consulta: 28 novembre 2022].
  3. Zhang , Baobao; Anderljung , Markus; Kahn , Lauren; Dreksler , Noemi; Horowitz , Michael C. "Ethics and Governance of Artificial Intelligence: Evidence from a Survey of Machine Learning Researchers" , 05-05-2021. arXiv : 2105.02117 .
  4. Stein-Perlman , Zach. ≪ 2022 Expert Survey on Progress in AI ≫ (en angles). AI Impacts , 04-08-2022. Arxivat de l' original el 2022-11-23. [Consulta: 23 novembre 2022].
  5. Michael , Julian; Holtzman , Ari ; Parrish , Alicia; Mueller , Aaron; Wang , Alex "What Do NLP Researchers Believe? Results of the NLP Community Metasurvey" , 26-08-2022. arXiv : 2208.12852 .
  6. Mehrabi , Ninareh; Morstatter , Fred; Saxena , Nripsuta; Lerman , Kristina; Galstyan , Aram (en angles) ACM Computing Surveys , 54, 6, 2021, pag. 1?35. arXiv : 1908.09635 . DOI : 10.1145/3457607 . ISSN : 0360-0300 [Consulta: 28 novembre 2022].
  7. Barnes , Beth Lesswrong , 2021 [Consulta: 23 novembre 2022].
  8. Brundage , Miles; Avin , Shahar; Clark , Jack; Toner , Helen; Eckersley , Peter "The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation" , 30-04-2018. DOI : 10.17863/cam.22520 [Consulta: 28 novembre 2022].
  9. Carlsmith , Joseph "Is Power-Seeking AI an Existential Risk?" , 16-06-2022. arXiv : 2206.13353 .
  10. AGI Expert Peter Voss Says AI Alignment Problem is Bogus | NextBigFuture.com ≫ (en angles america), 04-04-2023. [Consulta: 23 juliol 2023].
  11. Dafoe , Allan. ≪ Yes, We Are Worried About the Existential Risk of Artificial Intelligence ≫ (en angles). MIT Technology Review , 2016. Arxivat de l' original el 2022-11-28. [Consulta: 28 novembre 2022].
  12. Markoff , John ≪ In 1949, He Imagined an Age of Robots ≫. The New York Times , 20-05-2013 [Consulta: 23 novembre 2022].
  13. AAAI . ≪ AAAI Presidential Panel on Long-Term AI Futures ≫ (en angles). Arxivat de l' original el 2022-09-01. [Consulta: 23 novembre 2022].
  14. Tran , Khoa A.; Kondrashova , Olga; Bradley , Andrew; Williams , Elizabeth D.; Pearson , John V. (en angles) Genome Medicine , 13, 1, 2021, pag. 152. DOI : 10.1186/s13073-021-00968-x . ISSN : 1756-994X . PMC : 8477474 . PMID : 34579788 .
  15. Ovadia , Yaniv; Fertig , Emily; Ren , Jie; Nado , Zachary; Sculley , D. "Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift" , 17-12-2019. arXiv : 1906.02530 .
  16. Brundage , Miles; Avin , Shahar; Clark , Jack; Toner , Helen; Eckersley , Peter "Description of Corner Cases in Automated Driving: Goals and Challenges" , 30-04-2018. DOI : 10.17863/cam.22520 [Consulta: 28 novembre 2022].
  17. Urbina , Fabio; Lentzos , Filippa; Invernizzi , Cedric; Ekins , Sean (en angles) Nature Machine Intelligence , 4, 3, 2022, pag. 189?191. DOI : 10.1038/s42256-022-00465-9 . ISSN : 2522-5839 . PMC : 9544280 . PMID : 36211133 .
  18. Center for Security and Emerging Technology ; Buchanan , Ben; Lohn , Andrew; Musser , Micah; Sedova , Katerina "Truth, Lies, and Automation: How Language Models Could Change Disinformation" , 2021. DOI : 10.51593/2021ca003 [Consulta: 28 novembre 2022].
  19. Propaganda-as-a-service may be on the horizon if large language models are abused ≫ (en angles). VentureBeat , 14-12-2021. Arxivat de l' original el 2022-11-24. [Consulta: 24 novembre 2022].
  20. Center for Security and Emerging Technology ; Buchanan , Ben; Bansemer , John; Cary , Dakota; Lucas , Jack "Automating Cyber Attacks: Hype and Reality" , 2020. DOI : 10.51593/2020ca002 [Consulta: 28 novembre 2022].
  21. Buchanan , Ben; Bansemer , John; Cary , Dakota; Lucas , Jack. ≪ Automating Cyber Attacks ≫ (en angles america). DOI : 10.51593/2020ca002 . [Consulta: 10 setembre 2023].
  22. Lessons Learned on Language Model Safety and Misuse ≫ (en angles). OpenAI , 03-03-2022. Arxivat de l' original el 2022-11-24. [Consulta: 24 novembre 2022].
  23. Markov , Todor. ≪ New-and-Improved Content Moderation Tooling ≫ (en angles). OpenAI , 10-08-2022. Arxivat de l' original el 2023-01-11. [Consulta: 24 novembre 2022].
  24. Savage , Neil Nature , 29-03-2022. DOI : 10.1038/d41586-022-00858-1 . PMID : 35352042 [Consulta: 24 novembre 2022].
  25. Rudner , Tim; Toner , Helen. ≪ Key Concepts in AI Safety: Interpretability in Machine Learning ≫ (en angles america). DOI : 10.51593/20190042 . [Consulta: 10 setembre 2023].
  26. McFarland , Matt. ≪ Uber pulls self-driving cars after first fatal crash of autonomous vehicle ≫ (en angles). CNNMoney , 19-03-2018. Arxivat de l' original el 2022-11-24. [Consulta: 24 novembre 2022].
  27. 27,0 27,1 27,2 27,3 Zwetsloot , Remco. ≪ Thinking About Risks From AI: Accidents, Misuse and Structure ≫ (en angles). Lawfare , 11-02-2019. Arxivat de l' original el 2022-11-24. [Consulta: 24 novembre 2022].
  28. Zhang , Yingyu; Dong , Chuntong; Guo , Weiqun; Dai , Jiabao; Zhao , Ziming (en angles) Safety Science , 152, 2022, pag. 105596. DOI : 10.1016/j.ssci.2021.105596 [Consulta: 28 novembre 2022].