robothand som flyttar schackpjäs

Projekt: Algoritmer för förstärkningsinlärning

Förstärkningsinlärning är ett hett område inom maskininlärning och artificiell intelligens. Det ligger till grund för utveckling inom robotik, bildigenkänning, självkörande bilar och val av aktieportföljer, för att nämna några exempel. Projektets huvudmål är att utveckla robusta algoritmer inom förstärkningsinlärning som kan användas inom optimering och teknikutveckling.

Fakta om projektet

Projektledare
Karl-Olof Lindahl
Övriga projektmedlemmar
Björn Lindenberg, Jonas Nordqvist
Deltagande organisationer
Linnéuniversitetet
Finansiär
Linnéuniversitetet
Tidsplan
2019–
Ämne
Matematik (Institutionen för matematik, Fakulteten för teknik)

Mer om projektet

Förstärkningsinlärning är ett hett område inom maskininlärning och artificiell intelligens som ligger till grund för utveckling inom robotik, bildigenkänning, självkörande bilar och val av aktieportföljer, för att nämna några exempel. Området handlar om att maximera framtida ackumulerad belöning över tid för ett intelligent system verkande i en miljö.

Utmärkande för förstärkningsinlärning är att systemets interaktion med miljön kan beskrivas i termer av beslutsprocesser. Fokus ligger på att hitta en balans mellan utforskning av outforskat territorium och utnyttjande av aktuell kunskap vid beslutsfattande – att testa nya, oprövade kort eller satsa på beprövade vars belöning man har en känsla för från tidigare erfarenheter. Vårt huvudsakliga mål är att utveckla robusta algoritmer inom förstärkningsinlärning som kan användas inom optimering och teknikutveckling.

I projektet studeras speciellt fördelningsbaserad förstärkningsinlärning (DRL, distributional reinforcement learning). Den totala belöningen över tid karaktäriseras i dessa fall med en stokastisk variabel vars fördelningsfunktion man sedan försöker skatta.

I DRL kan konvergens under iteration ge upphov till övermänskliga strategier med avstamp enligt idén tabula rasa. Det vill säga, maskinen kan själv hitta optimala lösningar i olika miljöer utan mänsklig inblandning. Bland annat arbetar vi med utveckling av algoritmer som vi implementerar och utvärderar i en standardiserad testsvit bestående av Atari 2600-spel. Detta ger upphov till komplexa och multidimensionella miljöer där algoritmer använder tillstånd baserade på skärmbilder. Prestandan jämförs sedan med state-of-the-art bland etablerade algoritmer inom samma område.

I projektet utvecklar vi

  • Specialiserade algoritmer för maskininlärning
  • Kod för implementering
  • Analysverktyg för robusthet
Adaptive Categorical Networks (ACN) är en algoritm för förstärkningsinlärning som använder en så kallad distributionsvy över framtida belöningar. Filmen visar ett ACN-program som spelar spelet Centipede för Atari 2600.

  

Publikationer

Medarbetare