Hoved Streamingtjenester AI lærer å jukse på Q * bert på en måte som ingen mennesker har gjort før

AI lærer å jukse på Q * bert på en måte som ingen mennesker har gjort før



En AI har klart å jukse med det beste menneskeheten har å tilby etter å ha oppdaget en utnyttelse i det klassiske arkadespillet Q * bert og kjørt med det.

Mens tidligere iterasjoner av AI ville spille Q * bert riktig, oppdager det på et tidspunkt i sin læring av hvordan spillet fungerer, en utnyttelse som lar det samle vanvittige poeng. Naturligvis, som en hvilken som helst poengjaktende spiller, gjentar den prosessen slik at den kan øke poengsummen på den mest effektive måten.

Du kan se AI arbeide seg rundt plattformer i videoen nedenfor. Først ser det ut som om det hopper uten mål mellom plattformene. I stedet for å se spillet gå videre til neste runde, blir Q * bert sittende fast i en løkke der alle plattformene begynner å blinke - det er her AI kan deretter gå på en score-vanvidd og samle enorme poeng.

LES NESTE: En av de mest kontroversielle spillplatene er endelig blitt diskreditert

hvordan du slår på personlig hotspot

Hvordan AI vant Q * bert-krigen

Han slo rekorden om tittelen hele tiden, og AI fikk en umulig høy poengsum takket være utviklingsstrategi-algoritmeprogrammering. Evolusjonsstrategier (ES) skiller seg fra den vanlige forsterkningslæringen (RL) som tradisjonell AI bruker, da den blir sett på som mer skalerbar på grunn av generasjonslæring.

Hver læringssløyfe blir referert til som en generasjon og den fortsetter sin oppgave til en angitt betingelse er oppfylt (i dette tilfellet en høy score). For hver påfølgende generasjon absorberer AI kunnskapen fra den forrige generasjonen og er derfor bedre til å oppnå det samme målet og overgå det. Fortsett, og du vil ende opp med en AI som er helt uovertruffen i sin oppgave. Det var akkurat det som skjedde her med Q * bert-poengsummen.

Skissert i avisen , publisert forrige uke av forskere ved universitetet i Freiburg, Tyskland, ser det ut til at feilen ikke var en kjent mengde. Faktisk, selv om de ikke er så overrasket over å finne feilen, er det interessant å se hvordan AI deretter gikk videre og lærte å utnytte den hver gang den spilte for å maksimere poengpotensialet.

LES NESTE: Denne kunstige intelligensen har lært å mestre Super Mario Bros

For å finne feilen måtte agenten først lære å fullføre det første nivået - dette ble ikke gjort med en gang, men ved å bruke mange små forbedringer, forklarte forskerne til Registeret . Vi mistenker at en av avløsningsløsningene på et tidspunkt under opplæringen møtte feilen og fikk en mye bedre poengsum sammenlignet med søsknene, som igjen økte sitt bidrag til oppdateringen - vekten var den høyeste i det vektede gjennomsnittet. Dette sakte flyttet løsningen inn i rommet der flere og flere avkom begynte å møte den samme feilen.

Vi kjenner ikke de nøyaktige forholdene der feilen vises; det er mulig at det bare vises hvis agenten følger et mønster som virker suboptimalt, [for eksempel når agenten kaster bort tid, eller til og med mister et liv]. Hvis det var tilfelle, ville det være ekstremt vanskelig for standard RL å finne feilen: Hvis du bruker trinnvise belønninger, lærer du strategier som raskt gir litt belønning, i stedet for læringsstrategier som ikke gir mange belønninger på en stund og så plutselig vinne stort.

Se relatert Dragster-mester Todd Rogers har nettopp mistet kronen etter 35 år Denne kunstige intelligensen har lært å mestre Super Mario Bros 1-2 i 17 dager Se denne AI lære å kjøre i GTA V på Twitch

Til tross for botens fantastiske resultater sier forskerne imidlertid ikke at dette er en sak for å forkjempe ES-læring over RL. Faktisk har begge systemene sine egne problemer, og en kombinasjon av de to blir i stor grad sett på som det beste alternativet fremover.

Den samme ES-metoden på andre Atari-spill førte ikke til nær de samme positive resultatene. På den annen side er RL ansvarlig for å knuse rekorder til venstre, høyre og sentrum, inkludert å slå verdens beste GO-spiller. ES har fortsatt sin egen plass i ting skjønt, og det er faktisk hvordan Nvidia utfører mye av sin AI-trening på grunn av at det krever mer beregningskraft, men å oppnå bedre resultater over lengre tid.

Uansett hvilken vei som vil bli fremtiden for AI-utvikling, er i det minste denne bot-juksingen ikke så ille som denne nå vanæret videospill verdensmester .

Interessante Artikler

Redaksjonens

Slik endrer du telefonnummeret ditt på Amazon
Slik endrer du telefonnummeret ditt på Amazon
Amazon er verdens største nettforhandler. Som sådan bør det ikke komme som en overraskelse at det å oppdatere detaljene dine på Amazon er en rask og enkel prosess for kundene over hele verden. Når du bruker Amazon, er det viktig det
Hva er anti-aliasing?
Hva er anti-aliasing?
Har du noen gang prøvd å spille et spill på PC-en din som var litt mer enn grafikkortet ditt taklet? I stedet for å se vidstrakte utsikter, har du pikselerte kanter og blokkerende former. Disse jaggiene blir vanligvis eliminert av
Det er en sammenheng mellom dårlig intelligens og å finne tull dypt
Det er en sammenheng mellom dårlig intelligens og å finne tull dypt
Fra nå av skal jeg starte hvert stykke jeg skriver på Alphr med et inspirerende sitat. Klar? Her er den første: Vi realiserer oss selv, vi helbreder, vi blir gjenfødt. Målet med en resonanskaskade er å plante
Hvordan fikse en Firestick-fjernkontroll som ikke fungerer
Hvordan fikse en Firestick-fjernkontroll som ikke fungerer
Få ting er mer irriterende enn at fjernkontrollen din ikke følger kommandoer. Disse problemene skjer imidlertid oftere enn du tror, ​​og Firestick TV-fjernkontrollen er intet unntak. Hvis Firestick-fjernkontrollen sviktet deg, har du kommet til
Oppgavebehandling
Oppgavebehandling
Task Manager er et Windows-verktøy som viser hvilke programmer og tjenester som kjører på datamaskinen din. Her er mer om hvordan du kommer dit og hvordan du bruker det.
HP G72 gjennomgang
HP G72 gjennomgang
HPs G72-bærbare datamaskin har en sjenerøs skjermstørrelse, stilig design og anstendige spesifikasjoner, men overraskende er det også et budsjettutskift av skrivebordet uten en bratt prislapp å matche. Den er innkapslet i et elefantgrått chassis, og
[Gjennomgang] Hva er nytt i Windows 8.1 Update 1
[Gjennomgang] Hva er nytt i Windows 8.1 Update 1
I dag har en forhåndsvisning av Windows 8.1 Update 1 lekket til Internett. Windows 8.1 Update 1 er en samleoppdatering av flere oppdateringer, samt noen nye funksjoner som Microsoft planlegger å tilby Windows 8.1-brukere. Selv om denne oppdateringen ikke har noe nytt av betydning for vanlige Desktop-brukere, inneholder den få bemerkelsesverdige endringer