leksaksrobot i plåt framför bärbar dator

Nytt program kan spåra robot-inlägg på Twitter oavsett språk

Ett samarbete mellan forskare i datavetenskap, matematik och språk har resulterat i ett program som skiljer automatiska inlägg på Twitter från manuella, oberoende av språket. Syftet är att öka korrektheten när man använder texter från Twitter i språksociologiska studier.

Twitter har över 300 miljoner aktiva användare varje månad och är populärt i samhällsdebatten. Detta gör Twitter till en utmärkt plattform för forskning – men även för spammare och automatiska program.

Undersökningar har uppskattat att 5–10 % av alla användare är så kallade bot-konton, som automatiskt skapar egna tweetar och skickar vidare andras, och att 20–25 % av alla tweetar är automatiska. Många bot-konton används för att påverka i samhälleliga frågor, exempelvis vid val, och för att sprida falska nyheter. De kan därmed även inverka på den forskning som görs inom områden som politiska kampanjer och sociala förändringar.

Människa eller maskin?

Därför är det värdefullt att kunna undersöka om ett givet twitterinlägg är skrivet av en människa eller en maskin. För detta ändamål har forskare inom digital humaniora – datavetenskap, matematik och språk – vid Linnéuniversitetet och Östra Finlands universitet utvecklat ett dataprogram som använder maskininlärning.

– Programmet ger data av bättre kvalitet och därmed en bättre bild av verkligheten när man samlar in texter från Twitter för språksociologisk forskning utifrån innehållet i dem, säger Jonas Lundberg, lektor i datavetenskap vid Linnéuniversitetet.

Unik egenskap

Det program forskarna har tagit fram har en unik egenskap som skiljer det från tidigare försök.

– Algoritmen i programmet undersöker enbart parametrar som är både språk- och landsoberoende i den metadata som följer med varje tweet. Texten, själva meddelandet, används inte. Detta gör algoritmen språkoberoende och möjlig att tillämpa även på mindre språk och på datamängder som använder flera olika språk, säger Jonas Lundberg.

Resultaten är lovande. Efter att programmet hade tränats på svenska och finska tweetar, kunde det korrekt klassificera 98,2 % av alla tweetar på ett tredje språk, engelska. Men utvecklingsarbetet fortsätter.

– Mycket arbete återstår. Vi behöver träna och testa algoritmen på fler språk innan den kan anses som tillförlitlig, säger Jonas Lundberg.

Tvärvetenskaplig forskning

Artikeln heter Towards a language independent Twitter bot detector och presenterades vid konferensen 4th Digital Humanities in the Nordic Countries.

Arbetet är en del av forskningen i gruppen Data Intensive Digital Humanities vid Linnéuniversitetet. Denna tvärvetenskapliga forskargrupp kombinerar traditionella filologiska metoder med empiriska bevis för att utveckla och tillämpa nya metoder för att berika och (visuellt) analysera dataströmmar med naturligt språk i sociala medier. Målet är att få nya insikter om språkvariation i sociala sammanhang.

Det program som utvecklats används i dagsläget främst för att rensa bort maskingenererade tweetar innan man sätter igång med lingvistiska analyser. Man har dock även gjort försök med att använda programmet till att känna igen twitteranvändare med en mycket stor andel maskingenererade tweetar, det vill säga så kallade botar (av ordet robot).