Ny avhandling visar hur AI kan lära sig att fatta effektiva beslut genom förstärkningsinlärning och belöningssystem
I en ny avhandling i matematik visar Björn Lindenberg hur förstärkningsinlärning inom AI kan användas för att skapa effektiva strategier för självständigt beslutsfattande i olika miljöer. Belöningssystem kan utvecklas för att stärka korrekt beteende, som att hitta optimala prissättningsstrategier för finansiella instrument eller styrning av robotar och nätverkstrafik.
Förstärkningsinlärning är en del av AI där en digital beslutsfattare, en så kallad agent, lär sig att fatta beslut genom att interagera med sin miljö och få belöningar eller straff beroende på hur väl den utför sina handlingar. Agenten får belöningar och bestraffningar i inlärningsprocessen genom att agera i en miljö och få feedback baserat på sina handlingar. Genom att maximera belöningar och minimera bestraffningar lär sig AI:n gradvis att utföra önskvärda handlingar och förbättra sin prestanda i den givna uppgiften.
Förstärkningsinlärning inom AI: En effektiv metod för självständigt beslutsfattande
Syftet är att utveckla algoritmer och modeller som hjälper agenten att göra de bästa besluten. Detta uppnås genom inlärningsalgoritmer som tar hänsyn till agentens tidigare erfarenheter och förbättrar dess prestanda över tid. Det finns många tillämpningsområden för förstärkningsinlärning, såsom spelteori, robotik, finansiell analys och styrning av industriella processer.
– Min forskning fokuserar på förstärkningsinlärning där en agent placeras i en miljö, säger Björn Lindenberg. Agenten observerar tillståndet i miljön vid varje steg, likt hur vi människor upplever vår omgivning. Exempelvis kan det vara brädpositionen i schack, inkommande videobild, industridata eller sensordata hos en robot. Agenten tar beslut genom att välja en handling från en lista av alternativ som till exempel att flytta en schackpjäs eller styra en robotrörelse. Dessa val kan sedan påverka miljön och skapa en ny spelsituation i schack eller ge nya sensorvärden för en robot.
Från professionell pokerspelare till doktor i matematik
Efter ett par års studier inom fysik på KTH, livnärde sig Björn som professionell pokerspelare i 9 år. Under den tiden läste han mycket om spelteori, främst sådant som handlade om självspelande agenter.
Efter att ha stött på en särskilt intressant artikel som teoretiskt gav lösningen på hur man vinner i poker, insåg han att dessa egenstudier hade blivit roligare än själva jobbet som pokerspelare och bestämde sig för att börja plugga igen.
Björn läste först teknisk fysik i Lund, där han kom till slutsatsen att han egentligen bara var intresserad av teoretiska ämnen som kvantmekanik och i dess förlängning matematik.
Efter ytterligare letande hittade han 2014 sitt hem i matematiken vid Linnéuniversitetet. Där tog han en kandidatexamen och påbörjade sedan en master 2016 som 2017 direkt ledde till en doktorandanställning i matematik under handledning av Karl-Olof Lindahl.
I sin avhandling har Björn Lindenberg utvecklat en modell för djup förstärkningsinlärning med flera samtidiga agenter, som kan öka inlärningsprocessen och göra den mer robust och effektiv. Han har också undersökt hur många iterationer, det vill säga upprepade försök, som krävs för att ett system ska bli stabilt och fungera bra.
– Djup förstärkningsinlärning utvecklas i samma takt som övrig AI-teknologi, det vill säga i rasande fart, säger Björn Lindenberg. Det beror till stor del på en exponentiellt ökande hårdvarukapacitet, det vill säga att datorerna blir alltmer kraftfulla, tillsammans med nya rön för nätverksarkitekturer.
Framtidens AI-teknologi: Utmaningar och möjligheter inom förstärkningsinlärning
Ju mer komplexa applikationer blir, desto mer avancerad matematik och djupinlärning behövs inom förstärkningsinlärning. Detta behov är tydligt för att främja förståelsen av befintliga problem och för att hitta nya algoritmer.
– Metoder som presenteras i avhandlingen kan ingå i en mängd olika beslutsfattande AI-applikationer som, vare sig vi märker det eller ej, blir en alltmer förekommande del av vår vardag, säger Björn Lindenberg.
Mer information
Länk till avhandlingen: Reinforcement Learning and Dynamical Systems
Kontakt
Björn Lindenberg, doktor i matematik vid institutionen för matematik, epost: bjorn.lindenberg@lnu.se, mobilnr: 073-819 56 19
Fakta om AI och förstärkningsinlärning
Förstärkningsinlärning av AI handlar i grunden om matematik och beräkningar, där belöningar används för att träna AI-agenten att fatta beslut. Det innebär att utveckla matematiska modeller och algoritmer för att träna en AI att göra optimala val genom att ge den belöningar när den gör rätt och bestraffningar när den gör fel. Man kan förenkla det på följande sätt:
AI:n har en "hjärna" som hjälper den att fatta beslut. Tänk på hjärnan som en funktion som tar in information om en situation och genererar ett val. För att träna AI:n börjar man med slumpmässiga värden för hjärnans val. AI:n gör val och får belöningar eller bestraffningar baserat på hur bra dess val var. För att lära sig, ändrar AI:n gradvis sina val baserat på feedbacken.
Om AI:n får en hög belöning för ett val, ökar chansen att den gör samma val igen. Om AI:n får en bestraffning, minskar chansen att den gör samma val igen. På så sätt lär sig AI:n successivt vilka val som leder till högre belöningar och undviker val som leder till bestraffningar.
Genom att upprepa processen med att göra val, få feedback och justera sina val, blir AI:n allt bättre på att göra de mest gynnsamma valen för att få högsta möjliga belöningar.
Björn ger två tankeexempel
Tänk dig en städrobot som ska plocka upp pantburkar. Varje gång roboten tar ett beslut och rör sig, kan den få antingen en positiv eller negativ belöning. Om den tar ett beslut som gör att den sparar energi eller hittar pantburkar, får den en positiv belöning. Men om den använder mycket energi utan att hitta något värdefullt, får den en negativ belöning. Målet är att roboten ska lära sig att fatta beslut som leder till mer positiva belöningar på lång sikt, även om det kan innebära att den måste använda energi först. Det liknar hur människor måste göra ansträngningar först för att få något bättre senare.
Om Björn i vardagsrummet vill ha ett glas mjölk i köket så måste han först röra sig och slösa energi för att sedan efter en tid återvinna energin genom förtäring. Vår hjärna har lärt sig att det är värt det. På samma sätt kan AI-agenten lära sig att det är värt att göra vissa saker som kan verka mindre bra på kort sikt, för att få större belöningar i framtiden.