En AI har klart å jukse med det beste menneskeheten har å tilby etter å ha oppdaget en utnyttelse i det klassiske arkadespillet Q * bert og kjørt med det.
Mens tidligere iterasjoner av AI ville spille Q * bert riktig, oppdager det på et tidspunkt i sin læring av hvordan spillet fungerer, en utnyttelse som lar det samle vanvittige poeng. Naturligvis, som en hvilken som helst poengjaktende spiller, gjentar den prosessen slik at den kan øke poengsummen på den mest effektive måten.
Du kan se AI arbeide seg rundt plattformer i videoen nedenfor. Først ser det ut som om det hopper uten mål mellom plattformene. I stedet for å se spillet gå videre til neste runde, blir Q * bert sittende fast i en løkke der alle plattformene begynner å blinke - det er her AI kan deretter gå på en score-vanvidd og samle enorme poeng.
LES NESTE: En av de mest kontroversielle spillplatene er endelig blitt diskreditert
hvordan du slår på personlig hotspot
Hvordan AI vant Q * bert-krigen
Han slo rekorden om tittelen hele tiden, og AI fikk en umulig høy poengsum takket være utviklingsstrategi-algoritmeprogrammering. Evolusjonsstrategier (ES) skiller seg fra den vanlige forsterkningslæringen (RL) som tradisjonell AI bruker, da den blir sett på som mer skalerbar på grunn av generasjonslæring.
Hver læringssløyfe blir referert til som en generasjon og den fortsetter sin oppgave til en angitt betingelse er oppfylt (i dette tilfellet en høy score). For hver påfølgende generasjon absorberer AI kunnskapen fra den forrige generasjonen og er derfor bedre til å oppnå det samme målet og overgå det. Fortsett, og du vil ende opp med en AI som er helt uovertruffen i sin oppgave. Det var akkurat det som skjedde her med Q * bert-poengsummen.
Skissert i avisen , publisert forrige uke av forskere ved universitetet i Freiburg, Tyskland, ser det ut til at feilen ikke var en kjent mengde. Faktisk, selv om de ikke er så overrasket over å finne feilen, er det interessant å se hvordan AI deretter gikk videre og lærte å utnytte den hver gang den spilte for å maksimere poengpotensialet.
LES NESTE: Denne kunstige intelligensen har lært å mestre Super Mario Bros
For å finne feilen måtte agenten først lære å fullføre det første nivået - dette ble ikke gjort med en gang, men ved å bruke mange små forbedringer, forklarte forskerne til Registeret . Vi mistenker at en av avløsningsløsningene på et tidspunkt under opplæringen møtte feilen og fikk en mye bedre poengsum sammenlignet med søsknene, som igjen økte sitt bidrag til oppdateringen - vekten var den høyeste i det vektede gjennomsnittet. Dette sakte flyttet løsningen inn i rommet der flere og flere avkom begynte å møte den samme feilen.
Vi kjenner ikke de nøyaktige forholdene der feilen vises; det er mulig at det bare vises hvis agenten følger et mønster som virker suboptimalt, [for eksempel når agenten kaster bort tid, eller til og med mister et liv]. Hvis det var tilfelle, ville det være ekstremt vanskelig for standard RL å finne feilen: Hvis du bruker trinnvise belønninger, lærer du strategier som raskt gir litt belønning, i stedet for læringsstrategier som ikke gir mange belønninger på en stund og så plutselig vinne stort.
Se relatert Dragster-mester Todd Rogers har nettopp mistet kronen etter 35 år Denne kunstige intelligensen har lært å mestre Super Mario Bros 1-2 i 17 dager Se denne AI lære å kjøre i GTA V på Twitch
Til tross for botens fantastiske resultater sier forskerne imidlertid ikke at dette er en sak for å forkjempe ES-læring over RL. Faktisk har begge systemene sine egne problemer, og en kombinasjon av de to blir i stor grad sett på som det beste alternativet fremover.
Den samme ES-metoden på andre Atari-spill førte ikke til nær de samme positive resultatene. På den annen side er RL ansvarlig for å knuse rekorder til venstre, høyre og sentrum, inkludert å slå verdens beste GO-spiller. ES har fortsatt sin egen plass i ting skjønt, og det er faktisk hvordan Nvidia utfører mye av sin AI-trening på grunn av at det krever mer beregningskraft, men å oppnå bedre resultater over lengre tid.
Uansett hvilken vei som vil bli fremtiden for AI-utvikling, er i det minste denne bot-juksingen ikke så ille som denne nå vanæret videospill verdensmester .