Projekt: StaViCTA
Ställningstaganden är en viktig faktor för det sociala samspelet inom kommunikation. Detta tvärvetenskapliga projekt ska kartlägga hur vi uttrycker ställningstaganden på Internet – dels skapa en djupare teoretisk förståelse av dem som fenomen, dels ta fram praktiska metoder för att analysera uttryck för ställningstaganden i verkliga språkdata.
Detta projekt avslutades under 2017.
Fakta om projektet
Projektledare
Andreas Kerren
Projektmedlemmar
Andreas Kerren (Lnu), Carita Paradis (Lunds universitet) och Magnus Sahlgren (Gavagai AB)
Övriga forskare/doktorander
Maria Skeppstedt, Vasiliki Simaki, Kostiantyn Kucher
Finansiär
Vetenskapsrådet
Tidsplan
2013-2017
Ämne
Datavetenskap (Institutionen för datavetenskap, Fakulteten för teknik)
Webbplats
http://cs.lnu.se/stavicta
Mer om projektet
Det fullständiga namnet på detta tvärvetenskapliga projekt är "Nya landvinningar inom beskrivning och förklaring av ställningstagande i språklig kommunikation genom datalogiska informationvisualseringsmetoder och innovationer", förkortat StaViCTA.
Projektet ska kartlägga hur vi människor uttrycker perspektiv och ställningstaganden – det vill säga åsikter, känslor, trovärdighet, säkerhet, tveksamhet och tillit – i digitaliserade, webbaserade media som nyhets- och hemsidor, mikrobloggar som Twitter, sociala media som Facebook och elektroniska fora.
Ställningstaganden utgör en viktig faktor i den kommunikativa dynamiken. De förmedlar inte bara faktisk information, utan spelar också en avgörande roll för det sociala samspelet. Detta till trots behövs såväl en djupare teoretisk förståelse av ställningstagande som fenomen, som praktiska metoder för att analysera uttryck för ställningstagande i verkliga språkdata.
De analysmetoder som står till buds är simplistiska och i huvudsak utvecklade för små och statiska datamängder. Vårt mål är att utveckla innovativa analys- och visualiseringsmetoder för undersökningar av ställningstaganden i mycket stora och dynamiska textmängder. Metoderna som utvecklas i detta projekt sammanför på ett unikt sätt teori, dataanalys och informationsvisualisering, och ger därför en ny och djupare förståelse av uttryck för ställningstagande i text.
Projektet genomfördes inom ramen för forskargruppen Information and Software Visualization.
Populärvetenskaplig sammanfattning
StaViCTA är ett tvärvetenskapligt projekt mellan lingvistik, datalingvistik och datavisualisering som har studerat hur vi människor uttrycker vår inställning till det vi talar om i olika sammanhang i sociala medier såsom Twitter, Facebook, och andra elektroniska fora.
Vilka ställningstaganden vi gör bottnar i våra åsikter, känslor, övertygelser och tveksamheter, och utgör en mycket viktig faktor i den kommunikativa dynamiken mellan människor. Eftersom sociala medier i många stycken är fulla av sådana uttryck såg vi dessa som en utomordentlig källa till ny kunskap om ämnet.
Projektet bestod av tre sammanflätade delar av vilka språket är basen. Vi utarbetade ett ramverk för studiet av ställningstagande i språklig kommunikation. Ramverket består av tio typer av ställningstaganden:
1) INSTÄMMANDE/INTE INSTÄMMANDE med ett annat uttalande, 2-3) om en talare utrycker SÄKERHET eller OSÄKERHET i sitt ställningstagande, 4) om en talare KONTRASTERAR två olika ställningstaganden, 5) om en talare uttrycker ARTIGHET/OARTIGHET i sin kommunikation, 6) om en talare gör en FÖRUTSÄGELSE om framtiden, 7) om en talare utfärdar en REKOMMENDATION/BEFALLNING, 8) om ett ställningstagande innehåller ett HYPOTETISKT resonemang, 9) om en talare anger en extern KÄLLA eller ett specifikt sinnesintryck som bakgrund för sitt ställningstagande, och 10) om en talare uttrycker ett ställningstagande som innefattar VILJA/INTENTION.
Detta ramverk använde vi för att identifiera de språkliga uttrycken för olika ställningstaganden. För detta syfte sammanställde vi en korpus bestående av texter från sociala medier som alla handlade om Brexit eftersom det fanns anledning att anta att dessa var rika på ställningstaganden. Korpusen annoterades av kompetenta språkbrukare, vars uppgift var att identifiera uttryck som användes för de tio olika typerna av ställningstagande. Vi kunde fastställa att vårt ramverk fungerade väl och, i enlighet med vad vi antog, tar vi inte ställning genom enskilda ord utan också genom konstruktioner som innehåller flera ord och genom schematiska ramar som "om inte..., så" och liknande. Korpusen är öppet tillgänglig för forskare genom SND.
I den datalingvistiska delen utvecklade vi maskininlärningsklassificerare specialiserade på politisk text som automatiskt kan identifiera de ovan nämnda typerna av ställningstagande i sociala medietexter. Vi använde en maskininlärningsteknik som heter aktiv inlärning och som automatiskt väljer ut träningsexempel som är användbara för klassificeraren. Vi kunde visa att vi med denna metod gjorde den möjligt att samla in träningsexempel för klassifikation av ställningstagande på ett resurseffektivt sätt, och vi har gjort vår implementation av metoden öppet tillgänglig.
Den tredje delen av projektet knyter ihop de båda föregående genom att utveckla redskap för att på ett effektivt sätt få tillgång till texter på nätet, tillämpa och tolka resultaten av klassificeringar och också för att göra processen med att samla och träna data för klassificering mera effektiv och tydlig. För detta syfte utvecklade vi därför en rad nya webbaserade visualiseringstekniker för ställningstagande i sociala medier samt för stöd till annotering av textdata och träning av klassificerare. Till sist implementerade vi visualiseringsverktygen som vi utvecklat inom projektet för specifika tillämpningsområden, till exempel digital humaniora.