SICS Björn Levin (blevin@sics.se) [:-o]

Praktisk dataanalys med hjälp av lärande system

Bakgrund

I de flesta industriella sammanhang blir dataanalys ("data mining", sökandet efter och analyserandet av strukturer och samband i data) ett allt viktigare begrepp. Med ett ökande antal mätutrustningar, sensorer och datoriserade registreringar samlas stora mängder data in; data som man sedan har behov av att analysera eller göra förutsägelser från. Det kan till exempel handla om att förutsäga resultatet av en kemisk process utifrån mätningar av yttre eller inre omständigheter, att sortera ut viktiga från oviktiga signaler i ett system, eller att utifrån olika signaler karakterisera en viss situation. Trots uppenbara skillnader i det man önskar mäta gör likheter i analysmetoderna att det inom ett stort antal olika industrier finns ett behov av likartade verktyg för avancerad analys av stora datamängder.

Syfte

Det finns idag en mängd olika metoder för dataanalys som bygger på tekniker från ett antal forskningsområden inom lärande system, exempelvis artificiella neuronnät, icke-linjära multivariata statistiska modeller och induktiv logik. Detta projekt syftar till att sprida dessa metoder till industrin samt att ge insikter om olika metoders styrkor och svagheter genom att tillämpa dessa för att lösa ett antal konkreta problem från de deltagande industrierna. För att kunna göra en bedömning av dessa metoders kvaliteter kommer även där lämpligt en jämförelse med i industrin mer etablerade metoder att göras.

Övergripande mål

Ett primärt mål är att till industrin överföra kunnande om lärande system, samt att påvisa dessa systems styrka och etablera dem som ett användbart alternativ för dataanalys. Genom att tillämpa metoderna på ett antal konkreta problemdomäner kommer forskningen också att kunna tillgodogöra sig värdefulla erfarenheter av metoderna som inte kan fås enbart i laboratoremiljö. Projektet förväntas möjliggöra praktisk användning av lärande system inom främst de områden som de medverkande industrierna representerar. Användningen av metoderna på flera skilda typer av problem förväntas också ge insikter som kan återföras och användas till att öka metodernas effektivitet inom samtliga problemområden. Utvecklingen inom dataanalysområdet går snabbt. Det finns därför ett stort behov av att sprida de nya metoderna till industrin. Metoderna i fråga behöver också anpassas i verkliga industrimiljöer innan de är helt mogna för exploatering, samtidigt som industrin genom samarbetet lättare kan inspirera nya ideer i forskningen. Stora vinster finns att göra redan i att bättre utnyttja de data som idag samlas in. Den formliga explosion i antalet sensorer och regsitreringssytem som pågår kommer att göra en avancerad och automatiserad analys än mer kritisk för industrin. Bättre utnyttjande av resurser som bandbredd, råvaror, energi eller produktionkapacitet innebär en betydande potential för vår industris konkurrenskraft. Genom att med de metoder som föreslås söka samband mellan parametrarna i en process kan ofta en tillräckligt god modell skapas för att förbättra regleringen och planeringen. De linjära multivariata metoder som normalt används i industrin vid dataanalys idag fungerar ofta bra som lokala modeller. Modellverktyg som hanterar varierande variabelbeskrivningar, olinjära och diskontinuerliga variabler/samband, och vilka är mer globala till sin natur än linjära modeller är starkt efterfrågade och kan utgöra såväl ett komplement till befintliga angreppssätt som att ge nya infallsvinklar på processer och samband som är av betydelse för industrin. Ett resultat av att använda dataanalysmetoder är ofta också en ökad förståelse för det system man mäter på. Man får ofta en god inblick i vilka variabler som påverkar varandra och metoderna kan därigenom leda till att bättre system utvecklas. En effektiv visualisering av analyserad information är också viktigt för maximalt utnytjande av data.

Angreppssätt

Projektet är baserat på att analysera ett antal konkreta problemställningar från de deltagande parterna. Varje problemställning attackeras med ett antal olika lösningsmetoder. Genom att generalisera egenskaper hos de olika problemställningarna, samt hos de olika lösningsmetoderna, förväntas man kunna dra generella slutsatser om styrkorna och svagheterna med olika metoder till olika typer av problem. Nedan följer en sammanfattning av de konkreta problem som de ingående industrierna önskar lösa.

Några generella problemställningar som återkommer inom flera av de konkreta uppgifterna, och som projektet kommer att fokusera på att lösa är:

Exempel på de metoder för vilka kompetens finns inom projektet är:

Deltagare

Deltagande industrier: Deltagande universitet och institut:

------------------------------------------------------------

Björn Levin (blevin@sics.se) January 30th, 2002.