Vés al contingut

OpenAI Five

De la Viquipèdia, l'enciclopèdia lliure

OpenAI Five és un programa informàtic d'OpenAI que juga al videojoc de cinc en cinc Dota 2. La seva primera aparició pública va tenir lloc l'any 2017, on es va demostrar en un partit en directe contra un contra el jugador professional Dendi, que va perdre. L'any següent, el sistema havia avançat fins al punt d'actuar com un equip complet de cinc persones, i va començar a jugar en contra i a demostrar la capacitat de derrotar equips professionals.

En triar un joc tan complex com Dota 2 per estudiar l'aprenentatge automàtic, OpenAI va pensar que podrien capturar amb més precisió la impredictibilitat i la continuïtat que es veuen al món real, construint així sistemes de resolució de problemes més generals. Els algorismes i el codi utilitzats per OpenAI Five van ser finalment manllevats per una altra xarxa neuronal en desenvolupament per l'empresa, una que controlava una mà robòtica física. OpenAI Five s'ha comparat amb altres casos similars d'intel·ligència artificial (IA) jugant contra humans i derrotant-los, com AlphaStar al videojoc StarCraft II, AlphaGo al joc de taula Go, Deep Blue als escacs i Watson al programa de televisió Jeopardy!.

Arquitectura OpenAI Five

Història

[modifica]

El desenvolupament dels algorismes utilitzats per als robots va començar el novembre de 2016. OpenAI va decidir utilitzar Dota 2, un videojoc competitiu de cinc en cinc, com a base perquè era popular a la plataforma de transmissió en directe Twitch, tenia suport natiu per a Linux i tenia una interfície de programació d'aplicacions (API) disponible.[1] Abans de convertir-se en un equip de cinc pe>rsones, la primera demostració pública va tenir lloc a The International 2017 a l'agost, el torneig anual d'estrena del campionat del joc, on Dendi, un jugador professional ucraïnès, va perdre contra un bot d'OpenAI en un enfrontament en directe un contra un.[2][3] Després del partit, el CTO Greg Brockman va explicar que el bot havia après jugant contra si mateix durant dues setmanes de temps real i que el programari d'aprenentatge era un pas en la direcció de crear programari que pugui gestionar tasques complexes "com ser un cirurgià".[4][5] L'OpenAI va utilitzar una metodologia anomenada aprenentatge de reforç, ja que els robots aprenen amb el temps jugant contra si mateixos centenars de vegades al dia durant mesos, en els quals són recompensats per accions com matar un enemic i destruir torres.[6]

Al juny de 2018, la capacitat dels robots es va ampliar per jugar junts com un equip complet de cinc persones i van poder derrotar equips de jugadors amateurs i semiprofessionals.[7][8][9] A The International 2018, OpenAI Five va jugar en dos partits contra equips professionals, un contra el paiN Gaming amb seu al Brasil i l'altre contra un equip d'estrelles d'antics jugadors xinesos.[10] Tot i que els robots van perdre els dos partits, OpenAI encara la considerava una empresa reeixida, afirmant que jugar contra alguns dels millors jugadors de Dota 2 els va permetre analitzar i ajustar els seus algorismes per a futurs jocs.[11] La demostració pública final dels robots va tenir lloc l'abril de 2019, on van guanyar una sèrie al millor de tres contra els campions OG de The International 2018 en un esdeveniment en directe a San Francisco.[12] El mateix mes va tenir lloc un esdeveniment en línia de quatre dies per jugar contra els robots, obert al públic. Allà, els robots van jugar en 42.729 jocs públics, guanyant el 99,4% d'aquests jocs.[13]

Arquitectura

[modifica]

Cada bot OpenAI Five és una xarxa neuronal que conté una sola capa amb un LSTM de 4096 unitats[14] que observa l'estat actual del joc extret de l'API del desenvolupador de Dota. La xarxa neuronal realitza accions mitjançant nombrosos caps d'acció possibles (no hi ha dades humanes implicades), i cada cap té un significat. Per exemple, el nombre de ticks per retardar una acció, quina acció seleccionar: la coordenada X o Y d'aquesta acció en una quadrícula al voltant de la unitat. A més, els caps d'acció es calculen de manera independent. El sistema d'IA observa el món com una llista de 20.000 números i fa una acció realitzant una llista de vuit valors d'enumeració. A més, selecciona diferents accions i objectius per entendre com codificar cada acció i observar el món.[15]

OpenAI Five s'ha desenvolupat com un sistema de formació d'aprenentatge de reforç de propòsit general a la infraestructura "Ràpid". Rapid consta de dues capes: fa girar milers de màquines i les ajuda a "parlar" entre elles i una segona capa executa programari. El 2018, OpenAI Five havia jugat uns 180 anys a jocs d'aprenentatge de reforç que s'executaven amb 256 GPU i 128.000 nuclis de CPU,[16] utilitzant Proximal Policy Optimization, un mètode de gradient de polítiques.[17]

Comparacions amb altres sistemes d'IA de jocs

[modifica]

Abans d'OpenAI Five, s'han utilitzat amb èxit altres experiments i sistemes d'IA versus humans, com ara Jeopardy! amb Watson, escacs amb Deep Blue i Go amb AlphaGo.[18][19] En comparació amb altres jocs que han utilitzat sistemes d'IA per jugar contra jugadors humans, Dota 2 difereix tal com s'explica a continuació:[20]

Vista a llarg termini: els robots funcionen a 30 fotogrames per segon durant un temps mitjà de partit de 45 minuts, el que resulta en 80.000 ticks per joc. OpenAI Five observa cada quart fotograma, generant 20.000 moviments. En comparació, els escacs solen acabar abans de 40 moviments, mentre que Go acaba abans de 150 moviments.

Estat parcialment observat del joc: els jugadors i els seus aliats només poden veure el mapa directament al seu voltant. La resta està coberta per una boira de guerra que amaga les unitats enemigues i els seus moviments. Per tant, jugar a Dota 2 requereix fer inferències basades en aquestes dades incompletes, així com predir què podria estar fent el seu oponent al mateix temps. En comparació, Chess and Go són "jocs d'informació completa", ja que no amaguen elements al jugador contrari.[21]

Espai d'acció contínua: cada personatge jugable d'un joc de Dota 2, conegut com a heroi, pot dur a terme desenes d'accions dirigides a una altra unitat o a una posició. Els desenvolupadors d'OpenAI Five permeten l'espai en 170.000 accions possibles per heroi. Sense comptar els aspectes perpetus del joc, hi ha una mitjana de ~ 1.000 accions vàlides cada marca. En comparació, la mitjana d'accions als escacs és de 35 i de 250 a Go.

Espai d'observació contínua: Dota 2 es juga en un gran mapa amb deu herois, cinc a cada equip, juntament amb desenes d'edificis i unitats de personatges no jugadors (NPC). El sistema OpenAI observa l'estat d'un joc a través de l'API del bot dels desenvolupadors, ja que 20.000 números que constitueixen tota la informació a la qual un humà pot accedir. Un tauler d'escacs es representa amb unes 70 llistes, mentre que un tauler Go té unes 400 enumeracions.

Recepció

[modifica]

OpenAI Five ha rebut el reconeixement de la comunitat d'IA, tecnologia i videojocs en general. El fundador de Microsoft, Bill Gates, ho va qualificar de "gran problema", ja que les seves victòries "requerien treball en equip i col·laboració".[22][23] El campió d'escacs Garry Kasparov, que va perdre contra el Deep Blue AI l'any 1997, va declarar que, malgrat la seva actuació perduda a The International 2018, els robots "hi arribarien, i abans del previst".[24]

En una conversa amb MIT Technology Review, els experts en IA també van considerar el sistema OpenAI Five com un assoliment important, ja que van assenyalar que Dota 2 era un "joc extremadament complicat", de manera que fins i tot vèncer jugadors no professionals va ser impressionant.[25] PC Gamer va escriure que les seves victòries contra jugadors professionals van ser un esdeveniment important en l'aprenentatge automàtic. En canvi, Motherboard va escriure que la victòria va ser "bàsicament enganyar" a causa dels grups d'herois simplificats d'ambdós costats, així com del fet que els robots tenien accés directe a l'API, en lloc d'utilitzar la visió per ordinador per interpretar els píxels de la pantalla. The Verge va escriure que els robots eren una evidència que l'enfocament de l'empresa per a l'aprenentatge de reforç i la seva filosofia general sobre la IA estava "aconseguint fites".

El 2019, DeepMind va presentar un bot similar per a Starcraft II, AlphaStar. Igual que OpenAI Five, AlphaStar va utilitzar l'aprenentatge de reforç i el joc propi. The Verge va informar que "l'objectiu d'aquest tipus d'investigació d'IA no és només aixafar els humans en diversos jocs només per demostrar que es pot fer. En canvi, és demostrar que, amb prou temps, esforç i recursos, el programari d'IA sofisticat pot superar els humans en pràcticament qualsevol repte cognitiu competitiu, ja sigui un joc de taula o un videojoc modern". Van afegir que les victòries de DeepMind i OpenAI també van ser un testimoni del poder de certs usos de l'aprenentatge de reforç.

Era l'esperança d'OpenAI que la tecnologia pogués tenir aplicacions fora de l'àmbit digital. El 2018, van poder reutilitzar els mateixos algorismes d'aprenentatge de reforç i codi d'entrenament d'OpenAI Five per a Dactyl, una mà de robot semblant a un humà amb una xarxa neuronal construïda per manipular objectes físics. El 2019, Dactyl va resoldre el cub de Rubik.

Referències

[modifica]
  1. OpenAI. «OpenAI Five» (en anglès). openai.com/five. Arxivat de l'original el 1 September 2018. [Consulta: 10 octubre 2018].
  2. Savov, Vlad. «My favorite game has been invaded by killer AI bots and Elon Musk hype» (en anglès). The Verge, 14-08-2017. Arxivat de l'original el 26 June 2018. [Consulta: 25 juny 2018].
  3. Frank, Blair Hanley. «OpenAI's bot beats top Dota 2 player so badly that he quits» (en anglès). Venture Beat. Arxivat de l'original el 12 August 2017. [Consulta: 12 agost 2017].
  4. OpenAI. «Dota 2» (en anglès). blog.openai.com, 11-08-2017. Arxivat de l'original el 11 August 2017. [Consulta: 12 agost 2017].
  5. OpenAI. «More on Dota 2» (en anglès). blog.openai.com, 16-08-2017. Arxivat de l'original el 16 August 2017. [Consulta: 16 agost 2017].
  6. «Bill Gates says gamer bots from Elon Musk-backed nonprofit are 'huge milestone' in A.I.» (en anglès). CNBC, 28-06-2018. Arxivat de l'original el 28 June 2018. [Consulta: 28 juny 2018].
  7. OpenAI. «OpenAI Five Benchmark» (en anglès). blog.openai.com, 18-07-2018. Arxivat de l'original el 26 August 2018. [Consulta: 25 agost 2018].
  8. Vincent, James. «AI bots trained for 180 years a day to beat humans at Dota 2» (en anglès). The Verge, 25-06-2018. Arxivat de l'original el 25 June 2018. [Consulta: 25 juny 2018].
  9. Savov, Vlad. «The OpenAI Dota 2 bots just defeated a team of former pros» (en anglès). The Verge, 06-08-2018. Arxivat de l'original el 7 August 2018. [Consulta: 7 agost 2018].
  10. Quach, Katyanna. «Game over, machines: Humans defeat OpenAI bots once again at video games Olympics» (en anglès). The Register. Arxivat de l'original el 25 August 2018. [Consulta: 25 agost 2018].
  11. OpenAI. «The International 2018: Results» (en anglès). blog.openai.com, 24-08-2018. Arxivat de l'original el 24 August 2018. [Consulta: 25 agost 2018].
  12. Wiggers, Kyle. «OpenAI Five defeats professional Dota 2 team, twice» (en anglès). Venture Beat, 13-04-2019. Arxivat de l'original el 13 April 2019. [Consulta: 13 abril 2019].
  13. Wiggers, Kyle. «OpenAI's Dota 2 bot defeated 99.4% of players in public matches». Venture Beat, 22-04-2019. [Consulta: 22 abril 2019].
  14. «Dota 2 with Large Scale Deep Reinforcement Learning» (en anglès). OpenAI. Arxivat de l'original el 26 September 2024. [Consulta: 29 setembre 2024].
  15. OpenAI. «OpenAI Five» (en anglès). blog.openai.com, 25-06-2018. Arxivat de l'original el 25 June 2018. [Consulta: 25 juny 2018].
  16. «Why are AI researchers so obsessed with games?» (en anglès). QUARTZ, 04-08-2018. Arxivat de l'original el 4 August 2018. [Consulta: 4 agost 2018].
  17. OpenAI. «OpenAI Five» (en anglès). blog.openai.com, 25-06-2018. Arxivat de l'original el 25 June 2018. [Consulta: 25 juny 2018].
  18. «Chess grandmaster Garry Kasparov on what happens when machines 'reach the level that is impossible for humans to compete'» (en anglès). Business Insider. Arxivat de l'original el 29 December 2017. [Consulta: 29 desembre 2017].
  19. «DeepMind's Go-playing AI doesn't need human help to beat us anymore» (en anglès). Verge, 18-10-2017. Arxivat de l'original el 18 October 2017. [Consulta: 18 octubre 2017].
  20. OpenAI. «OpenAI Five» (en anglès). blog.openai.com, 25-06-2018. Arxivat de l'original el 25 June 2018. [Consulta: 25 juny 2018].
  21. Knight, Will. «A team of AI algorithms just crushed humans in a complex computer game» (en anglès). MIT Tech Review, 25-06-2018. [Consulta: 25 juny 2018].
  22. «Bill Gates says gamer bots from Elon Musk-backed nonprofit are 'huge milestone' in A.I.» (en anglès). CNBC, 28-06-2018. Arxivat de l'original el 28 June 2018. [Consulta: 28 juny 2018].
  23. «Bill Gates hails 'huge milestone' for AI as bots work in a team to destroy humans at video game 'Dota 2'» (en anglès). Business Insider. Arxivat de l'original el 27 June 2018. [Consulta: 27 juny 2018].
  24. «Garry Kasparov's Twitter» (en anglès), 24-08-2018. [Consulta: 24 agost 2018].
  25. Knight, Will. «A team of AI algorithms just crushed humans in a complex computer game» (en anglès). MIT Tech Review, 25-06-2018. [Consulta: 25 juny 2018].