Informationsåtkomst och informationsförädling

Beskrivning av ett forskningstema

Kristofer Franzen Preben Hansen Jussi Karlgren Fredrik Olsson
Mars 2001

Introduktion

Temat för informationsåtkomst och informationsförädling arbetar med frågor om hur information i textform kan hittas och anpassas till någon användares eller någon grupp användares specifika informationsbehov. Området berör flera forskningsområden och utnyttjar många olika sorters tekniker - det här dokumentet ger en översikt över vilka frågor vi arbetar med och vilka problem vi ser som mest centrala för egen del.

Centrala begrepp

Informationsåtkomst

Informationsåtkomst handlar om att med olika hjälpmedel och metoder ge människor tillgång till den information som de behöver på ett pålitligt och enkelt sätt. Informationssökningssystem är exempel på system för informationsåtkomst.

Informationsbehov

System för informationsåtkomst är avsedda att fylla informationsbehov. Systemen utgår från en situation där folk har behov av information för någonting som de behöver göra: de har ett kunskapsgap mellan den kunskap de har och den de tror behövs. Ett systems användare försöker formulera sig på ett sådant sätt att ett system för informationsåtkomst kan fylla detta gap. Processen att formulera informationsbehovet är en av de centrala studieobjekten för forskning i informationsåtkomst. Och behovet, som vi formulerat det här, är starkt relaterat till användarens aktuella situation och den kontext i vilken behovet uppstod.

Kontext och process

En informationssökningsprocess är aldrig isolerad från den kontext den uppträder i. Det går att studera söksystem utan att ta hänsyn till situationen sökningen görs i, men om avsikten är att bygga system för informationsförädling måste det göras utifrån kunskap om hur och varför människor söker, samlar in och bearbetar information.

Till exempel är inte informationsbehovet alltid statiskt. Informationssökningsprocessen är en dynamisk process där informationsbehovet, informationskällorna, uppgiftens karakteristika och typ av text som söks kan förändras under en söksituation. Om den sortens kontext finns med i bilden kan systemet som ska lösa ett visst informationsbehov designas och konstrueras så att kontexten återspeglas i interaktionen mellan användaren och systemet.

Information i text

Information behöver generellt inte vara bunden till något speciellt medium: den kan vara språklig, symbolbaserad på annat sätt eller avbildad, och den kan vara i text, tal eller till exempel grafisk form.

Huvudobjektet för informationsåtkomstsystem idag är text. Text har nackdelen att vara amorft: information kan uttryckas på många olika sätt i text och ett av de stora problemen för informationshanteringssystem är att försöka förstå den informationsstruktur som den aktuella texten anammat. Det är bestickande att försöka organisera informationssystem så att informationsinnehållet är förstrukturerat efter någon viss standard, men förstrukturering innebär dels en alltför stor kostnad för informationsproducenten och dels är det svårt eller omöjligt att förutse vilken informationsmodell som är adekvat för alla framtida tänkbara och otänkbara informationsbehov. Både dyrt och omöjligt, med andra ord: det är mycket mer ändamålsenligt att försöka bygga system som återskapar informationsstrukturer eller informationsmodeller baserade på fritt uttryckta textuella data.

Tal är givetvis ännu mer amorft och kräver ännu mindre förarbete för att produceras än text. Vi arbetar idag inte med tal av två skäl: först och viktigast eftersom vi saknar kompetens i den ganska besvärliga teknik som behövs för att omvandla kontinuerliga akustiska signaler till diskreta symboler där vår kompetens tar vid, och nästan lika viktigt, för att vi vill arbeta med välformulerat material där innehållet kan förväntas ha avsetts se ut på det sätt det ser ut: där ytformen i mindre grad beror på tillfälligheter som inte har direkt med den uttryckta informationens kvaliteter att göra. Text har oftast redigerats bättre än tal, vilket gör att ett informationsåtkomstsystem för text går att generalisera till innehållsnivå, utan att vara begränsat av producenten, i samma grad som ett informationsåtkomstsystem för talat språk skulle vara.

Struktur i text

Text är ett av våra primära forskningsobjekt. Texter har innehåll, och system för informationsåtkomst och speciellt informationsförädling arbetar med att försöka modellera det.

Texter har en förledande enkel struktur: de kan tyckas vara endimensionella, sekventiella objekt. I själva verket är texterna en endimensionell projektion av en mycket mer komplex struktur. Om man tittar närmre på en text så upptäcker man nämligen att det finns en mängd relationer och referenser mellan dess olika delar. Detta gäller på ordnivå, frasnivå, satsnivå och diskursnivå. Ordet 'detta' i föregående mening relaterar till exempel till hela eller delar av den tidigare satsen; ordet 'text' förekommer genom hela detta dokument; texten liknar andra argumenterande texter men den liknar inte dikter. Informationen som finns uttryckt i en text realiseras både genom en väv av relationer mellan olika element inom texten och dessa elements anknytningar och referenser till fenomen som ligger i världen utanför texten.

Relationsväven finns hos allt mänskligt språk. När en text skrivs och formuleras kodar skribenten än mängd sådana beroenden till ett format som är lämpligt för sekventiell överföring mellan människor. En del av den processen är automatisk och omärklig för skribenten, som att se till att bestämda artiklar har samma genus som sitt huvudord; en del är svårt och kräver medvetet arbete och ibland stor vånda, som att formulera en text så den varken är anfådd eller långrandig och välbalanserad utan att vara tjatig. När en text läses så avkodas formatet för att skapa en ny komplex struktur. Skribenten kan oftast anta ha intresse av att koda budskapet på ett sådant sätt att läsaren ska kunna återskapa det, men det är förmodligen sällsynt att läsarens avkodning skapar en likadan struktur: texten lämnar en del information ospecificerad och läsarens och skribentens bakgrund, läsvana och intressen är naturligtvis starka faktorer i tolkning av text. Och ska vi arbeta med datorer är det naturligtvis komplicerat att arbeta så kunskapsintensivt. Språkvetenskap ger oss vissa verktyg för att automatiskt och algoritmiskt återskapa en del av de beroenden som skribenten placerat i texten, men andra ligger utanför lingvistikens kompetensområde.

En sådan här syn på text som en representation av en mer mångdimensionell intellektuell struktur gör det möjligt att tala om perspektiv på text. Olika läsare av en och samma text har olika perspektiv på den, bland annat beroende på deras informationsbehov, förkunskaper och inställning, och dessa perspektiv kan ses som olika sätt att åter spänna upp informationsrymdens många dimensioner som texten representerar i en enda. Det gör det naturligt att se texter som någonting som system för informationsåtkomst inte bara ska återfinna och leverera utan vidare öppna, förstå och rapportera till en läsare på olika sätt alltefter läsarens perspektiv.

Relevans

Det som knyter ihop allt det ovanstående: behov, sökprocess och textinnehåll är relevans. Vad detta begrepp innebär tas ofta för givet i systemorienterad evaluering av informationssökningsalgoritmer; det krävs inte mycket eftertanke för att inse att vad relevans innebär varken är givet eller fixt; relevans varierar i högsta grad efter individ, situation, uppgift och interaktionssätt. Det här är ännu outforskat område, men det är tydligt att läsare är mycket bra på att förstå och bedöma texters relevans.

Informationsförädling

Med informationsförädling menar vi bearbetning av text för att hitta och sammanställa den information som är relevant från ett visst perspektiv på texten. Textsammanfattning, informationsextraktion, rapportgenerering och deltextanalys är exempel på tekniker för informationsförädling: alla inbegriper att systemet går in i texten.

Humaniora och teknologi

Vi arbetar med både humaniora och teknologi. Tvärvetenskap kan vara en svår sak: risken är att det blir varken det ena eller det andra, eller dålig forskning i båda på en gång. De två forskningsområdena är väsensskilda. Humanismen studerar människan och avser fördjupa den kunskapen på mångahanda olika sätt: genom studier av mänskligt beteende och artefakter som människan åstadkommit. Teknologin eller ingenjörskonsten bygger verktyg. Den tvärvetenskap vi arbetar med vill bygga verktyg baserade på mer kunskap om människan och om människans texter, och därför måste vi studera dem båda. Den kunskap vi då vinner kommer vi dels vilja göra känd genom att publicera den - som bidrag till vår kunskap om människan - och dels vilja använda genom att bygga bättre prylar för människor att använda. Och de prylarna vill vi naturligtvis publicera också, efter att vi utvärderat dem på något sätt. På så sätt verkar vi i två fält med två skilda sorters verksamheter: våra humanistiska resultat ska vara inspirerande för verktygsutvecklare och våra verktyg kan inspirera till humanistiska studier. Men de är inte samma sak, och för att andra också ska kunna använda våra resultat - i båda ändar! - är det viktigt att försöka hålla dem isär.

Språklig kunskap

De system vi arbetar med representerar språklig kunskap på olika sätt.

Flera system bygger på explicit representerad kunskap om språkliga enheter och deras relationer uttryckta som någon form av regler. De använder bearbetade och ofta manuellt insamlade lexikon och regler för analys av ordformer, stavelsestrukturer och betydelse.

Andra åter baserar sig på data, automatiskt eller manuellt hopsamlade, i vilka den språkliga kunskapen finns implicit representerad som förekomstfrekvenser eller någon annan slags sannolikhetsteoretiska data.

En del språkliga processer är väl lämpade för regelbaserade kunskapsmodeller; en del är mer rimligt att representera dataorienterat. Regelbaserade system har fördelen att de kan ge ett bättre humanistiskt förklaringsdjup och är lättare att avlusa. Statistiskt baserade å sin sida är billiga att åstadkomma och underhålla och är flexibla om oväntade situationer behöver analyseras. Båda är var på sitt sätt motiverbara på psykologisk grund.

Vi arbetar i huvudsak med regelbaserade system. Vi har intresse av att manipulera kunskapen explicit. Sättet att förbättra statistiska modeller och styra inhämtningen av information i rätt spår går genom att på något sätt introducera symboliskt representerad kunskap i dem; sättet att mjuka upp stela regelbaserade system och att inhämta nya regler går via data och någon form av perception. Hur kombinationen kan utföras är en av språkteknologins tiotusenkronorsfrågor; det är en nödvändig forskningsfråga för alla som vill arbeta med språkteknologi.

Världsspråk, multinationella företag och kulturblomstring

Det finns fler språk i världen än engelska. Det är inte självklart för de flesta forskare i språkteknologi: det stora flertalet är enspråkigt engelskspråkiga, och arbetar från de förutsättningar de har. Men för oss i ett mindre språkområde är det givet att arbeta med flera språk simultant. Svensk exportindustri behöver arbeta med lokala språk runt om i världen; svensk offentlig sektor behöver föra det offentliga samtalet med landets befolkning på lokala språk (för närvarande sex officiellt erkända språk i Sverige); svenska mediehus producerar främst material på svenska men vill göra sin produktion synlig även utanför sitt omedelbara upptagningsområde.

Utan stöd för lokala språk är informationsteknologin ett hot mot aktivt deltagande i demokrati, mot genomskinlig och begriplig lagstiftning och rättssäkerhet, mot allmänt tillgängliga utbildningssystem, mot en bredare spridning av teknologi och mot en livskraftig informationsindustri som fyller alla medborgares behov. I Sverige klarar en stor del av befolkningen av att utföra enklare sysslor även på engelska, men det är inte fallet för större delen av världens länder; även i Sverige är det en liten minoritet som kan uttrycka sig levande och övertygande på främmande språk och ytterst få som klarar av att bedöma trovärdighet och värderingsgrunder i information given på andra språk än modersmålet.

Språkteknologin är inte en stötesten för informationslokalisering - eller borde inte vara det. Det mesta av den teknologi som finns tillgänglig är utvecklad enbart för engelska, vilket ibland används som motivering för att arbeta med eller enbart producera engelskspråkigt material. Men det finns inga egentliga hinder för att stödja flera språk: efter en initialinvestering är språkteknologiska mekanismer väl ägnade att stödja flerspråkighet. Dels genom att bygga system som är anpassade till lokala förhållanden och dels genom att sänka språkgränserna. System för informationsåtkomst kan synliggöra material över språkgränserna, kan möjliggöra sökning på fler språk än det läsaren valt att söka på, kan tillhandahålla stödverktyg för att snabbt förstå text på andra språk.

Dagens system, forskningsfronter och våra planer

Dagens system antar att texter är enkla påsar av ord, att alla användare är likadana, att informationsbehov är statiska och att informationssökningsdialoger är enkla engångstransaktioner där användare nöjt byter två-tre innehållsord mot en lista av flera tusen texter.

För att kunna förädla information och förbättra dagens system måste vi samtidigt arbeta med åtminstone tre saker.

Det är bara genom att samtidigt studera alla tre vi kan göra någonting intressant. Utan att veta vad den syftar till är inte mer kunskap om texten till någon glädje; utan förståelse av användningssituationen kan vi inte presentera information bättre; utan kunskap om texters särdrag kan vi inte lista ut hur läsaren väljer bland dem.

Kunskap om läsaren

Det är först på senare tid som det i forskningen uppmärksammats att informationsåtkomst inte är individuella och isolerade enstaka aktioner utan en process som förekommer i ett sammanhang där detta sammanhang påverkar processen genom vilken användaren kommer åt relevant information. Att bygga system medvetet baserade på en informationsåtkomstprocess som stödjer användaren i uppgiften användaren utför är svårt om inte domänen redan innan är välmodellerad och har en väl etablerad kunskapsstruktur. Inom många områden är informationsåtkomst bara delvis individuell - användare samarbetar med andra för att tillfredsställa ett informationsbehov. Det går inte att bygga system som stödjer fleranvändning om inte behovsanalysen för att modellera den aktuella uppgiften uppmärksammar interaktionen som kan pågå utanför systemets ram.

Kunskap om läsaren och informationsåtkomstbeteende måste hämtas in via olika former av användar- och användningsstudier: behovsanalyser, situationsbeskrivningar, systemutvärderingar, studier av interaktion mellan användare och system å ena sidan och användare och andra användare å andra. Och kunskapen kan inhämtas genom såväl kvalitativa som kvantitativa metoder, genom observationer, experiment, logg-studier och intervjuer både på fältet och i laboratorier. Traditionellt har systembaserad evaluering och användarbaserad utvärdering inte synkroniserats: systemens funktion har utvecklats utan direkt förankring i systemens bruk; systemens bruk har studerats utan möjlighet att påverka systemens funktion. Användarorienterad evaluering behöver inte enbart innebära kvalitativa studier i verklig miljö; systemevaluering behöver inte bortse från användningsaspekter.

Vi måste kombinera användningsstudier med systemevaluering, studera informationsåtkomstprocesser mer än enstaka sökfrågor, relatera informationsåtkomst till uppgifter och domäner och förstå samarbete mellan flera användare, och vi måste fokusera studierna så att vi kan dra slutsatser om systemdesign från den kunskap vi inhämtar.

Kunskap om texten

Vi arbetar på att förstå texten bättre. För att göra det förutsätter vi att det finns en grundläggande syntaktisk analys av texten som är korrekt. Vi vill inte utveckla den utan använda befintliga modeller. Någon semantisk analys finns det inte stöd för att göra: det saknas generell teori för det idag, och i likhet med de flesta språkteknologiskt baserade projekt siktar vi också mer på att gradvis förfina den syntaktiska modellen mot semantik. Det här är dock inte en av våra forskningsfrågor, utan är en uppgift för andra forskare.

Viktigare än generell semantik är att vi vill basera vår analys av texten på en modell av domänen, uttryckt på något sätt, och införskaffad genom studium av tidigare texter. Den modellen skall vara enkel nog så att läsare kan förhålla sig till den och genom exempel uttrycka sig. Det här är alltså en modell som på något sätt relaterar texten till andra texter och till omvärlden. Det här är en av våra forskningsfrågor.

Vår plan för att utveckla den formella beskrivningen av text avser att försöka fånga flera av de beroenden inom texten - anafor, hänvisningar, retoriska strukturer och sådant - som tentativt beskrivits i den senaste tidens språkteknologiska litteratur. I förlängningen vill vi med den här forskningsriktningen kunna förstå vilka saker en text är om, ur något perspektiv. Det här är också en av våra forskningsfrågor. System som hanterar aspekter av informationsåtkomst och informationsförädling kräver ofta kunskapsintensiva tekniker och metoder. När väl en hypotes har implementerats pch testats i form av ett system för ett visst perspektiv på text, så är frågan hurvida systemet, eller dess delar, kan användas för att testa liknande eller samma hypotes givet ett nytt perspektiv på texten. Metoder och tekniker för att anpassa fungerande informationsåtkomstsystem för att möta nya informationsbehov, ny kontext eller en ny typ av text är en av våra forskningsfrågor.

Kunskap om läsning och relevans

I vårt område är det tydligt att vi måste studera hur människan möter texten: hur läser vi egentligen, och varför. Vilka faktorer i text är centrala för relevansbedömningar och läsbeslut. Det här inte kartlagda områden, och vi kommer bryta helt ny mark vad vi än lyckas eller misslyckas med här.

Varför vi är bäst - vad som skiljer oss från andra

Informationsförädling behandlas av flera forskningsgrupper i världen än oss, även om vi själv präglat termen. Andra grupper arbetar också med informationsextraktion. Andra jobbar också på ontologier och hur de ska införskaffas. Många funderar på hur folk beter sig för att hitta information. Några - inte så många - arbetar med textstrukturer.

Det som gör vårt forskningstema speciellt är att vi arbetar med både början och slutet av kedjan, och att vi strävar efter en modell som är i första hand beteendevetenskapligt och språkvetenskapligt verifierbar och i andra hand ingenjörsmässig. Det är ett sätt att inte fastna i lokala minima: språkvetenskap kan vara opraktisk och beteendevetenskap världsfrånvänd, men snittet dem emellan, särskilt om vi inte försöker lösa problem ingenjörsmässigt och inkrementellt utan genom större steg ger oss en helhetslösning - om än på sikt.

Konkreta planer

På kort sikt (ca ett år)

På lång sikt (ca tre år)

På riktigt lång sikt (lååång sikt)

Projekt just nu eller nyligen