Skärm som personer tittar på.

Doktorandprojekt: Återanvändning av vårddata genom att kombinera det bästa från två världar.

Metod för automatisk generering av variabler med hög prediktionsförmåga.

Fakta om projektet

Doktorandprojektets fullständiga namn
Återanvändning av vårddata genom att kombinera det bästa från två världar - Generering av ny kunskap baserat på utförda registerstudier ihop med domänexperter, validerat med stöd av maskininlärning.
Doktorand

Olle Björneld
Huvudhandledare
Martin Carlsson
Biträdande handledare
Welf Löwe, Tora Hammar, Pär Wanby
Deltagande organisationer
Linnéuniversitetet, Region Kalmar län
Finansiär
Region Kalmar län
Tidsplan
1 okt 2017–
Ämne
Datavetenskap (institutionen för datavetenskap och medieteknik, fakulteten för teknik)
Forskargrupp/Spetsforskningscenter
E-health – Improved Data to and from Patients
Linnaeus University Centre of Excellence (LNUC) for Data Intensive Sciences and Applications
eHälsoinstitutet

Mer om projektet

I stora drag handlar projektet om att utifrån basala hälsodata från vårdsystem generera och verifiera användbar kunskap för bättre prediktion. Dvs att generera mer kunskap, tex i form av en starkare hypotes, med en mindre insats. En plattform för strukturerad metod inklusive metadata har tagits fram och utvärderats. Namnet på metoden är automatic Knowledge Driven Feature Engineering (aKDFE).

Mer i detalj handlar projektet om att analysera, validera samt automatisera processen med att skapa variabler för prediktionsmodeller i samband med registerstudier. Det manuella arbetet med att generera nya prediktiva variabler inkluderar en domänexpert, dataanalytiker och statistiker. I projektet utvärderas, med stöd av maskininlärning, en metod för att effektivisera denna iterativa framtagningsprocess av nya variabler med hög prediktionsförmåga.

Processen med att hitta ny kunskap, även kallad datamining, startar med att en domänexpert eller forskare ser ett svagt samband eller mönster som väcker intresset tillika en forskningsfrågeställning. Förklaringsmodellen för frågeställningen inkluderar ofta många förklarande variabler och relationer i tid eller genom andra beroenden. Forskaren är nyfiken och vill utreda om det finns någon sanning i de iakttagna händelserna genom att formulera en forskningshypotes som ska prövas.

Att utföra datamining i hälsodata kan stundtals vara mycket tidskrävande och begränsas av ostrukturerade data samt låg registreringskvalitet. En framgångsfaktor vid registerforskning är om domänexperter, dataanalytiker och statistiker i nära samarbete manuellt kan ta fram variabler med hög prediktionsförmåga. Detta arbete är dock resurskrävande.

Arbetet med att generera nya variabler kallas variabelgenerering (Feature Engineering). Genom att studera utförda medicinska registerforskningsprojekt har en teoretisk modell samt teknisk plattform för automatisk variabelgenerering och validering tagits fram (aKDFE). Med aKDFE kan resursanvändandet minimeras utan att framtagna modellers prediktionsförmåga påverkas negativt.

Andra resultat från projektet är:

  • Detaljerad beskrivning av processen för utförande av medicinska registerstudier
  • Svart på frågan: Varför genereras mer kunskap om en dataanalytiker involveras i medicinska registerstudier?
  • Etiska aspekter på hypotesgenerering baserade på maskininlärning.

Projektet är en del av forskningen i forskargruppen E-health – Improved Data to and from Patients, ett tillämpningsområde inom Linnaeus University Centre of Excellence (LNUC) for Data Intensive Sciences and Applications och ingår i eHälsoinstitutet som en del av en övergripande satsning på e-hälsa vid Linnéuniversitetet.