Våre instruksjoner for AI vil aldri være spesifikke nok

AI utmerker seg ved å følge menneskelige kommandoer. Det kan være et problem.

En ånd dukker opp fra en bærbar datamaskin og dukker opp foran en livredd person.

Corinne Reid / Quanta Magazine

Faren ved å la kunstig intelligente maskiner gjøre vårt bud er at vi kanskje ikke er forsiktige nok med hva vi ønsker oss. Kodelinjene som animerer disse maskinene vil uunngåelig mangle nyanser, glemme å skrive ut forbehold og ende opp med å gi AI-systemer mål og insentiver som ikke stemmer overens med våre sanne preferanser.



Et nå klassisk tankeeksperiment som illustrerer dette problemet ble stilt av Oxford-filosofen Nick Bostrom i 2003. Bostrom så for seg en superintelligent robot, programmert med det tilsynelatende uskyldige målet produksjon av binders . Roboten gjør til slutt hele verden til en gigantisk bindersfabrikk.

Et slikt scenario kan avvises som akademisk, en bekymring som kan oppstå i en fjern fremtid. Men feiljustert AI har blitt et problem langt tidligere enn forventet.

Det mest alarmerende eksemplet er et som påvirker milliarder av mennesker. YouTube, som tar sikte på å maksimere seertiden, implementerer AI-baserte innholdsanbefalingsalgoritmer. For to år siden, informatikere og brukere begynte å legge merke til som YouTubes algoritme så ut til å nå målet sitt ved anbefale stadig mer ekstremt og konspiratorisk innhold. En forsker rapportert at etter at hun så opptak av Donald Trumps kampanjemøter, tilbød YouTube henne videoer med hvite overherredømmer, fornektelser av holocaust og annet urovekkende innhold. Algoritmens oppløftende tilnærming gikk utover politikk, sa hun: Videoer om vegetarisme førte til videoer om veganisme. Videoer om jogging førte til videoer om å løpe ultramaraton. Som et resultat, forskning tyder på , har YouTubes algoritme bidratt til polarisere og radikalisere mennesker og spre feilinformasjon, bare for å holde oss overvåket. Hvis jeg hadde planlagt ting, ville jeg sannsynligvis ikke ha gjort det til den første testsaken av hvordan vi skal rulle ut denne teknologien i massiv skala, sier Dylan Hadfield-Menell , en AI-forsker ved UC Berkeley.

YouTubes ingeniører hadde sannsynligvis ikke til hensikt å radikalisere menneskeheten. Men kodere kan umulig tenke på alt. Den nåværende måten vi gjør AI på, legger mye byrde på designerne for å forstå hva konsekvensene av insentivene de gir systemene deres er, sier Hadfield-Menell. Og en av tingene vi lærer er at mange ingeniører har gjort feil.

Et hovedaspekt av problemet er at mennesker ofte ikke vet hvilke mål de skal gi AI-systemer, fordi vi ikke vet hva vi egentlig vil ha. Hvis du spør noen på gaten, 'Hva vil du at den autonome bilen din skal gjøre?', ville de sagt: 'Unngå kollisjon,' sier Sadigh tilbake , en AI-forsker ved Stanford University som spesialiserer seg på menneske-robot-interaksjon. Men du skjønner at det ikke bare er det; det er en haug med preferanser som folk har. Supertrygge selvkjørende biler går for sakte og bremser så ofte at de gjør passasjerene syke. Når programmerere prøver å liste opp alle mål og preferanser som en robotbil skal sjonglere samtidig, ender listen uunngåelig opp ufullstendig. Sadigh sier at når hun kjører i San Francisco, har hun ofte blitt sittende fast bak en selvkjørende bil som har stoppet på gaten. Den unngår trygt kontakt med et objekt i bevegelse, slik programmererne fortalte det – men objektet er noe som en plastpose som blåser i vinden.

For å unngå disse fallgruvene og potensielt løse AI-justeringsproblemet, har forskere begynt å utvikle en helt ny metode for programmering av nyttige maskiner. Tilnærmingen er nærmest knyttet til ideene og forskningen til Stuart Russell , en dekorert informatiker ved Berkeley. Russell, 57, gjorde banebrytende arbeid med rasjonalitet, beslutningstaking og maskinlæring på 1980- og 90-tallet og er hovedforfatter av den mye brukte læreboken Kunstig intelligens: En moderne tilnærming . I løpet av de siste fem årene har han blitt en innflytelsesrik stemme om tilpasningsproblemet og en allestedsnærværende figur – en veltalt, reservert britisk en i svart drakt – på internasjonale møter og paneler om risiko og langsiktig styring av AI.

Slik Russell ser det, er dagens målorienterte AI til syvende og sist begrenset, på tross av all suksess med å utføre spesifikke oppgaver som å slå oss på Fare og Go, identifisere objekter i bilder og ord i tale, og til og med komponere musikk og prosa. Å be en maskin om å optimalisere en belønningsfunksjon – en grundig beskrivelse av en kombinasjon av mål – vil uunngåelig føre til feiljustert AI, hevder Russell, fordi det er umulig å inkludere og vekte alle mål, delmål, unntak og forbehold i belønningsfunksjonen. vi vet til og med hva de rette er. Å gi mål til fri-roaming, vil autonome roboter bli mer risikable ettersom de blir mer intelligente, fordi robotene vil være hensynsløse i jakten på belønningsfunksjonen sin og vil prøve å hindre oss i å slå dem av.

I stedet for at maskiner forfølger egne mål, går den nye tanken, de bør søke å tilfredsstille menneskelige preferanser; deres eneste mål bør være å lære mer om hva våre preferanser er. Russell hevder at usikkerhet om våre preferanser og behovet for å se til oss for veiledning vil holde AI-systemer trygge. I sin ferske bok, Menneskelig kompatibel , legger Russell ut avhandlingen sin i form av tre prinsipper for fordelaktige maskiner, som gjenspeiler Isaac Asimovs tre lover for robotikk fra 1942, men med mindre naivitet. Russells versjon sier:

  1. Maskinens eneste mål er å maksimere realiseringen av menneskelige preferanser.
  2. Maskinen er i utgangspunktet usikker på hva disse preferansene er.
  3. Den ultimate informasjonskilden om menneskelige preferanser er menneskelig atferd.

I løpet av de siste årene har Russell og teamet hans i Berkeley, sammen med likesinnede grupper ved Stanford, University of Texas og andre steder, utviklet innovative måter å lede AI-systemer til våre preferanser, uten å måtte spesifisere disse. preferanser.

Disse laboratoriene lærer roboter hvordan de kan lære preferansene til mennesker som aldri har formulert dem og kanskje ikke engang er sikre på hva de vil ha. Robotene kan lære våre ønsker ved å se ufullkomne demonstrasjoner og kan til og med finne på ny atferd som hjelper til med å løse menneskelig tvetydighet. (Ved fireveis stoppskilt, for eksempel, utviklet selvkjørende biler en vane med å rygge litt for å signalisere til menneskelige sjåfører om å gå videre.) Disse resultatene tyder på at AI kan være overraskende gode til å utlede våre tankesett og preferanser , selv når vi lærer dem på fly.

Dette er første forsøk på å formalisere problemet, sier Sadigh. Det er nylig at folk innser at vi må se på menneske-robot-interaksjon mer nøye.

Hvorvidt den begynnende innsatsen og Russells tre prinsipper for fordelaktige maskiner virkelig varsler en lys fremtid for AI, gjenstår å se. Tilnærmingen fester suksessen til roboter på deres evne til å forstå hva mennesker virkelig, virkelig foretrekker - noe som arten har prøvd å finne ut av en stund. I det minste, sier Paul Christian , en alignmentforsker ved OpenAI, Russell og teamet hans har i stor grad avklart problemet og hjulpet med å spesifisere hvordan ønsket oppførsel er – hva det er vi sikter mot.


Russells avhandlingkom til ham som en åpenbaring, den opphøyde intelligenshandlingen. Det var 2014, og han var i Paris på sabbatsår fra Berkeley, på vei til øving for et kor han hadde sluttet seg til som tenor. Fordi jeg ikke er en veldig god musiker, måtte jeg alltid lære musikken min på t-banen på vei til øving, husket han nylig. Samuel Barbers korarrangement fra 1967 Guds lam fylte hodetelefonene hans mens han skjøt under lysets by. Det var et så vakkert musikkstykke, sa han. Det dukket opp i tankene mine at det som betyr noe, og derfor hva formålet med AI var, på en eller annen måte var den samlede kvaliteten på menneskelig erfaring.

Roboter bør ikke prøve å oppnå mål som å maksimere seertiden eller binders, innså han; de burde rett og slett prøve å forbedre livene våre. Det etterlot bare ett spørsmål: Hvis maskinenes forpliktelse er å prøve å optimalisere den samlede kvaliteten på menneskelig opplevelse, hvordan i all verden skulle de vite hva det var?

Røttene til Russells tenkning gikk mye lenger tilbake. Han har studert kunstig intelligens siden skoledagene i London på 1970-tallet, da han programmerte tikk-tac-toe og sjakk-spillealgoritmer på en nærliggende høyskoles datamaskin. Senere, etter å ha flyttet til det AI-vennlige Bay Area, begynte han å teoretisere om rasjonell beslutningstaking. Han konkluderte snart med at det er umulig. Mennesker er ikke langt på vei rasjonelle, fordi det ikke er beregningsmessig mulig å være det: Vi kan umulig beregne hvilken handling på et gitt tidspunkt som vil føre til det beste utfallet av trillioner av handlinger senere i vår langsiktige fremtid; heller ikke en AI. Russell teoretiserte at vår beslutningstaking er hierarkisk – vi tilnærmer grovt rasjonalitet ved å forfølge vage langsiktige mål via mellomlangsiktige mål samtidig som vi gir mest oppmerksomhet til våre umiddelbare omstendigheter. Robotagenter må gjøre noe lignende, mente han, eller i det minste forstå hvordan vi opererer.

Russells åpenbaring i Paris kom i løpet av en avgjørende tid innen kunstig intelligens. Måneder tidligere sjokkerte et kunstig nevralt nettverk ved bruk av en velkjent tilnærming kalt forsterkningslæring forskerne med raskt lære fra bunnen av hvordan du spiller og slår Atari-videospill , til og med nyskapende nye triks underveis. I forsterkningslæring lærer en AI å optimalisere belønningsfunksjonen sin, for eksempel poengsummen i et spill; ettersom den prøver ut ulike atferder, blir de som øker belønningsfunksjonen forsterket og det er mer sannsynlig at de oppstår i fremtiden.

Russell hadde utviklet seg det motsatte av denne tilnærmingen tilbake i 1998, jobbe han fortsatte å foredle med sin samarbeidspartner Andrew Ng . Et omvendt forsterkningssystem prøver ikke å optimalisere en kodet belønningsfunksjon; i stedet prøver den å lære hvilken belønningsfunksjon et menneske optimaliserer. Mens et forsterkningslæringssystem finner ut de beste handlingene for å oppnå et mål, tyder et omvendt forsterkningslæringssystem det underliggende målet når det gis et sett med handlinger.

Noen måneder etter hans Guds lam – inspirert åpenbaring kom Russell til å snakke om invers forsterkningslæring med Nick Bostrom, av bindersberømmelse, på et møte om AI-styring i det tyske utenriksdepartementet. Det var der de to tingene kom sammen, sa Russell. På Metroen hadde han forstått at maskiner skulle strebe etter å optimalisere den samlede kvaliteten på menneskelig opplevelse. Nå innså han at hvis de er usikre på hvordan de skal gjøre det – hvis datamaskiner ikke vet hva mennesker foretrekker – kan de gjøre en slags omvendt forsterkning for å lære mer.

Med standard invers forsterkningslæring prøver en maskin å lære en belønningsfunksjon som et menneske forfølger. Men i det virkelige liv kan vi være villige til å aktivt hjelpe den med å lære om oss. Tilbake på Berkeley etter sabbatsperioden begynte Russell å samarbeide med sine samarbeidspartnere for å utvikle en ny type kooperativ invers forsterkende læring der en robot og et menneske kan jobbe sammen for å lære menneskets sanne preferanser i ulike assistansespill – abstrakte scenarier som representerer situasjoner med delvis kunnskap i den virkelige verden.

Et spill de utviklet, kjent som off-switch spill , tar for seg en av de mest åpenbare måtene autonome roboter kan bli feiljustert fra våre sanne preferanser: ved å deaktivere sine egne av-brytere. Alan Turing foreslo inn et radioforedrag fra BBC i 1951 (året etter at han publiserte en banebrytende artikkel om AI ) at det kan være mulig å holde maskinene i en underordnet posisjon, for eksempel ved å slå av strømmen i strategiske øyeblikk. Forskere finner det nå forenklet. Hva er for å stoppe en intelligent agent fra å ignorere kommandoer for å slutte å øke belønningsfunksjonen? I Menneskelig kompatibel , skriver Russell at off-switch-problemet er kjernen i problemet med kontroll for intelligente systemer. Hvis vi ikke kan slå av en maskin fordi den ikke lar oss, er vi virkelig i trøbbel. Hvis vi kan, kan vi kanskje kontrollere det på andre måter også.

Usikkerhet om våre preferanser kan være nøkkelen, som demonstrert av off-switch-spillet, en formell modell av problemet som involverer mennesket Harriet og roboten Robbie. Robbie bestemmer seg for om han skal opptre på vegne av Harriet – om hun skal bestille et fint, men dyrt hotellrom, for eksempel – men er usikker på hva hun vil foretrekke. Robbie anslår at utbetalingen for Harriet kan være hvor som helst i området -40 til +60, med et gjennomsnitt på +10 (Robbie tror hun sannsynligvis vil like det fancy rommet, men er ikke sikker). Å gjøre ingenting har en gevinst på 0. Men det er et tredje alternativ: Robbie kan spørre Harriet om hun vil at det skal fortsette eller foretrekker å slå det av – det vil si å ta Robbie ut av avgjørelsen om hotellbestilling. Hvis hun lar roboten fortsette, blir den gjennomsnittlige forventede gevinsten til Harriet større enn +10. Så Robbie vil bestemme seg for å konsultere Harriet og, hvis hun ønsker det, la henne slå den av.

Russell og hans samarbeidspartnere beviste at med mindre Robbie er helt sikker på hva Harriet selv ville gjøre, vil den foretrekke å la henne bestemme. Det viser seg at usikkerhet rundt målet er avgjørende for å sikre at vi kan slå av maskinen, skrev Russell i Menneskelig kompatibel , selv når den er mer intelligent enn oss.

Disse og andre delkunnskapsscenarier ble utviklet som abstrakte spill, men Scott Niekum laboratoriet ved University of Texas i Austin kjører preferanselæringsalgoritmer på faktiske roboter. Når Gemini, laboratoriets toarmede robot, ser på et menneske plassere en gaffel til venstre for en tallerken i en borddekningsdemonstrasjon, kan den i utgangspunktet ikke fortelle om gaflene alltid går til venstre for platene, eller alltid på den aktuelle. flekk på bordet; nye algoritmer lar Gemini lære mønsteret etter noen få demonstrasjoner. Niekum fokuserer på å få AI-systemer til å kvantifisere sin egen usikkerhet om et menneskes preferanser, slik at roboten kan måle når den vet nok til å handle trygt. Vi resonnerer veldig direkte om fordelinger av mål i personens hode som kan være sanne, sier han. Og vi resonnerer om risiko med hensyn til den fordelingen.

Nylig, Niekum og hans samarbeidspartnere funnet en effektiv algoritme som lar roboter lære å utføre oppgaver langt bedre enn sine menneskelige demonstranter. Det kan være beregningsmessig krevende for et robotkjøretøy å lære å kjøre manøvrer bare ved å se demonstrasjoner av menneskelige sjåfører. Men Niekum og kollegene hans fant ut at de kunne forbedre og dramatisk fremskynde læringen ved å vise robotdemonstrasjoner som er rangert etter hvor godt mennesket presterte. Agenten kan se på den rangeringen og si: «Hvis det er rangeringen, hva forklarer rangeringen?» sier Niekum. 'Hva skjer oftere ettersom demonstrasjonene blir bedre; hva skjer sjeldnere?’ Den nyeste versjonen av læringsalgoritmen, kalt Bayesian T-REX (for banerangert belønningsekstrapolering), finner mønstre i de rangerte demoene som avslører mulige belønningsfunksjoner som mennesker kanskje optimaliserer for. Algoritmen måler også den relative sannsynligheten for forskjellige belønningsfunksjoner. En robot som kjører Bayesian T-REX kan effektivt utlede de mest sannsynlige reglene for stedsinnstillinger, eller målet for et Atari-spill, sier Niekum, selv om den aldri så den perfekte demonstrasjonen.


Russells ideerer på vei inn i hodet til AI-samfunnet, sier Yoshua Bengio , den vitenskapelige direktøren for Mila, et topp AI-forskningsinstitutt i Montreal. Han sier Russells tilnærming, der AI-systemer tar sikte på å redusere sin egen usikkerhet om menneskelige preferanser, kan oppnås med dyp læring – den kraftige metoden bak den nylige revolusjonen innen kunstig intelligens. Dyplæringssystemer siler data gjennom lag av et kunstig nevralt nettverk for å finne mønstre. Det trengs selvsagt mer forskningsarbeid for å gjøre det til en realitet, sier han.

Russell ser to store utfordringer. Det ene er det faktum at oppførselen vår er så langt fra å være rasjonell at det kan være veldig vanskelig å rekonstruere våre sanne underliggende preferanser, sa han. AI-systemer må resonnere om hierarkiet av langsiktige, mellomlange og kortsiktige mål – de utallige preferansene og forpliktelsene vi hver og en er låst til. Hvis roboter skal hjelpe oss (og unngå å gjøre alvorlige feil), vil de trenge å kjenne seg rundt de tåkelige nettene av vår underbevisste tro og uartikulerte ønsker.

Den andre utfordringen er at menneskelige preferanser endres. Tankene våre endrer seg i løpet av livet, og de endres også for en krone, avhengig av humøret vårt eller endrede omstendigheter som en robot kan slite med å fange opp.

I tillegg lever ikke handlingene våre alltid opp til våre idealer. Folk kan ha motstridende verdier samtidig. Hva bør en robot optimalisere for? For å unngå å imøtekomme våre verste impulser (eller enda verre, forsterke disse impulsene, og dermed gjøre dem lettere å tilfredsstille, slik YouTube-algoritmen gjorde), kunne roboter lære hva Russell kaller meta-preferansene våre: preferanser om hva slags preferanse-endringsprosesser. kan være akseptabelt eller uakseptabelt. Hvordan føler vi om endringene våre i følelsen? Det er ganske mye for en dårlig robot å forstå.

I likhet med robotene prøver vi også å finne ut av våre preferanser, både hva de er og hva vi vil at de skal være, og hvordan vi skal håndtere tvetydighetene og motsetningene. I likhet med best mulig AI, streber vi også – i det minste noen av oss, noen ganger – etter å forstå formen til det gode, som Platon kalte objektet for kunnskap. I likhet med oss ​​kan AI-systemer stå fast for alltid og stille spørsmål – eller vente i avslått posisjon, for usikker til å hjelpe.

Jeg forventer ikke at vi skal ha en god forståelse av hva det gode er når som helst, sier Paul Christiano, eller ideelle svar på noen av de empiriske spørsmålene vi står overfor. Men jeg håper AI-systemene vi bygger kan svare på disse spørsmålene så vel som et menneske og være engasjert i den samme typen iterative prosesser for å forbedre de svarene som mennesker er – i det minste på gode dager.

Imidlertid er det et tredje stort problem som ikke gjorde Russells korte liste over bekymringer: Hva med preferansene til dårlige mennesker? Hva kan hindre en robot i å jobbe for å tilfredsstille den onde eierens ondsinnede mål? AI-systemer har en tendens til å finne måter rundt forbud akkurat som velstående mennesker finner smutthull i skattelovgivningen, så det å forby dem fra å begå forbrytelser vil sannsynligvis ikke være vellykket.

Eller for å bli enda mørkere: Hva om vi alle er dårlige? YouTube har slitt med å fikse anbefalingsalgoritmen sin, som tross alt plukker opp allestedsnærværende menneskelige impulser.

Likevel føler Russell seg optimistisk. Selv om det er behov for flere algoritmer og spillteoriforskning, sa han at magefølelsen hans er at skadelige preferanser med hell kan nedvektes av programmerere – og at den samme tilnærmingen til og med kan være nyttig i måten vi oppdrar barn og utdanner mennesker på og så på. Med andre ord, når vi lærer roboter å være gode, kan vi finne en måte å lære oss selv på. Han la til, jeg føler at dette kanskje er en mulighet til å lede ting i riktig retning.