Till exempel är inte informationsbehovet alltid statiskt. Informationssökningsprocessen är en dynamisk process där informationsbehovet, informationskällorna, uppgiftens karakteristika och typ av text som söks kan förändras under en söksituation. Om den sortens kontext finns med i bilden kan systemet som ska lösa ett visst informationsbehov designas och konstrueras så att kontexten återspeglas i interaktionen mellan användaren och systemet.
Huvudobjektet för informationsåtkomstsystem idag är text. Text har nackdelen att vara amorft: information kan uttryckas på många olika sätt i text och ett av de stora problemen för informationshanteringssystem är att försöka förstå den informationsstruktur som den aktuella texten anammat. Det är bestickande att försöka organisera informationssystem så att informationsinnehållet är förstrukturerat efter någon viss standard, men förstrukturering innebär dels en alltför stor kostnad för informationsproducenten och dels är det svårt eller omöjligt att förutse vilken informationsmodell som är adekvat för alla framtida tänkbara och otänkbara informationsbehov. Både dyrt och omöjligt, med andra ord: det är mycket mer ändamålsenligt att försöka bygga system som återskapar informationsstrukturer eller informationsmodeller baserade på fritt uttryckta textuella data.
Tal är givetvis ännu mer amorft och kräver ännu mindre förarbete för att produceras än text. Vi arbetar idag inte med tal av två skäl: först och viktigast eftersom vi saknar kompetens i den ganska besvärliga teknik som behövs för att omvandla kontinuerliga akustiska signaler till diskreta symboler där vår kompetens tar vid, och nästan lika viktigt, för att vi vill arbeta med välformulerat material där innehållet kan förväntas ha avsetts se ut på det sätt det ser ut: där ytformen i mindre grad beror på tillfälligheter som inte har direkt med den uttryckta informationens kvaliteter att göra. Text har oftast redigerats bättre än tal, vilket gör att ett informationsåtkomstsystem för text går att generalisera till innehållsnivå, utan att vara begränsat av producenten, i samma grad som ett informationsåtkomstsystem för talat språk skulle vara.
Texter har en förledande enkel struktur: de kan tyckas vara endimensionella, sekventiella objekt. I själva verket är texterna en endimensionell projektion av en mycket mer komplex struktur. Om man tittar närmre på en text så upptäcker man nämligen att det finns en mängd relationer och referenser mellan dess olika delar. Detta gäller på ordnivå, frasnivå, satsnivå och diskursnivå. Ordet 'detta' i föregående mening relaterar till exempel till hela eller delar av den tidigare satsen; ordet 'text' förekommer genom hela detta dokument; texten liknar andra argumenterande texter men den liknar inte dikter. Informationen som finns uttryckt i en text realiseras både genom en väv av relationer mellan olika element inom texten och dessa elements anknytningar och referenser till fenomen som ligger i världen utanför texten.
Relationsväven finns hos allt mänskligt språk. När en text skrivs och formuleras kodar skribenten än mängd sådana beroenden till ett format som är lämpligt för sekventiell överföring mellan människor. En del av den processen är automatisk och omärklig för skribenten, som att se till att bestämda artiklar har samma genus som sitt huvudord; en del är svårt och kräver medvetet arbete och ibland stor vånda, som att formulera en text så den varken är anfådd eller långrandig och välbalanserad utan att vara tjatig. När en text läses så avkodas formatet för att skapa en ny komplex struktur. Skribenten kan oftast anta ha intresse av att koda budskapet på ett sådant sätt att läsaren ska kunna återskapa det, men det är förmodligen sällsynt att läsarens avkodning skapar en likadan struktur: texten lämnar en del information ospecificerad och läsarens och skribentens bakgrund, läsvana och intressen är naturligtvis starka faktorer i tolkning av text. Och ska vi arbeta med datorer är det naturligtvis komplicerat att arbeta så kunskapsintensivt. Språkvetenskap ger oss vissa verktyg för att automatiskt och algoritmiskt återskapa en del av de beroenden som skribenten placerat i texten, men andra ligger utanför lingvistikens kompetensområde.
En sådan här syn på text som en representation av en mer mångdimensionell intellektuell struktur gör det möjligt att tala om perspektiv på text. Olika läsare av en och samma text har olika perspektiv på den, bland annat beroende på deras informationsbehov, förkunskaper och inställning, och dessa perspektiv kan ses som olika sätt att åter spänna upp informationsrymdens många dimensioner som texten representerar i en enda. Det gör det naturligt att se texter som någonting som system för informationsåtkomst inte bara ska återfinna och leverera utan vidare öppna, förstå och rapportera till en läsare på olika sätt alltefter läsarens perspektiv.
Flera system bygger på explicit representerad kunskap om språkliga enheter och deras relationer uttryckta som någon form av regler. De använder bearbetade och ofta manuellt insamlade lexikon och regler för analys av ordformer, stavelsestrukturer och betydelse.
Andra åter baserar sig på data, automatiskt eller manuellt hopsamlade, i vilka den språkliga kunskapen finns implicit representerad som förekomstfrekvenser eller någon annan slags sannolikhetsteoretiska data.
En del språkliga processer är väl lämpade för regelbaserade kunskapsmodeller; en del är mer rimligt att representera dataorienterat. Regelbaserade system har fördelen att de kan ge ett bättre humanistiskt förklaringsdjup och är lättare att avlusa. Statistiskt baserade å sin sida är billiga att åstadkomma och underhålla och är flexibla om oväntade situationer behöver analyseras. Båda är var på sitt sätt motiverbara på psykologisk grund.
Vi arbetar i huvudsak med regelbaserade system. Vi har intresse av att manipulera kunskapen explicit. Sättet att förbättra statistiska modeller och styra inhämtningen av information i rätt spår går genom att på något sätt introducera symboliskt representerad kunskap i dem; sättet att mjuka upp stela regelbaserade system och att inhämta nya regler går via data och någon form av perception. Hur kombinationen kan utföras är en av språkteknologins tiotusenkronorsfrågor; det är en nödvändig forskningsfråga för alla som vill arbeta med språkteknologi.
Utan stöd för lokala språk är informationsteknologin ett hot mot aktivt deltagande i demokrati, mot genomskinlig och begriplig lagstiftning och rättssäkerhet, mot allmänt tillgängliga utbildningssystem, mot en bredare spridning av teknologi och mot en livskraftig informationsindustri som fyller alla medborgares behov. I Sverige klarar en stor del av befolkningen av att utföra enklare sysslor även på engelska, men det är inte fallet för större delen av världens länder; även i Sverige är det en liten minoritet som kan uttrycka sig levande och övertygande på främmande språk och ytterst få som klarar av att bedöma trovärdighet och värderingsgrunder i information given på andra språk än modersmålet.
Språkteknologin är inte en stötesten för informationslokalisering - eller borde inte vara det. Det mesta av den teknologi som finns tillgänglig är utvecklad enbart för engelska, vilket ibland används som motivering för att arbeta med eller enbart producera engelskspråkigt material. Men det finns inga egentliga hinder för att stödja flera språk: efter en initialinvestering är språkteknologiska mekanismer väl ägnade att stödja flerspråkighet. Dels genom att bygga system som är anpassade till lokala förhållanden och dels genom att sänka språkgränserna. System för informationsåtkomst kan synliggöra material över språkgränserna, kan möjliggöra sökning på fler språk än det läsaren valt att söka på, kan tillhandahålla stödverktyg för att snabbt förstå text på andra språk.
För att kunna förädla information och förbättra dagens system måste vi samtidigt arbeta med åtminstone tre saker.
Det är bara genom att samtidigt studera alla tre vi kan göra någonting intressant. Utan att veta vad den syftar till är inte mer kunskap om texten till någon glädje; utan förståelse av användningssituationen kan vi inte presentera information bättre; utan kunskap om texters särdrag kan vi inte lista ut hur läsaren väljer bland dem.
Kunskap om läsaren och informationsåtkomstbeteende måste hämtas in via olika former av användar- och användningsstudier: behovsanalyser, situationsbeskrivningar, systemutvärderingar, studier av interaktion mellan användare och system å ena sidan och användare och andra användare å andra. Och kunskapen kan inhämtas genom såväl kvalitativa som kvantitativa metoder, genom observationer, experiment, logg-studier och intervjuer både på fältet och i laboratorier. Traditionellt har systembaserad evaluering och användarbaserad utvärdering inte synkroniserats: systemens funktion har utvecklats utan direkt förankring i systemens bruk; systemens bruk har studerats utan möjlighet att påverka systemens funktion. Användarorienterad evaluering behöver inte enbart innebära kvalitativa studier i verklig miljö; systemevaluering behöver inte bortse från användningsaspekter.
Vi måste kombinera användningsstudier med systemevaluering, studera informationsåtkomstprocesser mer än enstaka sökfrågor, relatera informationsåtkomst till uppgifter och domäner och förstå samarbete mellan flera användare, och vi måste fokusera studierna så att vi kan dra slutsatser om systemdesign från den kunskap vi inhämtar.
Viktigare än generell semantik är att vi vill basera vår analys av texten på en modell av domänen, uttryckt på något sätt, och införskaffad genom studium av tidigare texter. Den modellen skall vara enkel nog så att läsare kan förhålla sig till den och genom exempel uttrycka sig. Det här är alltså en modell som på något sätt relaterar texten till andra texter och till omvärlden. Det här är en av våra forskningsfrågor.
Vår plan för att utveckla den formella beskrivningen av text avser att försöka fånga flera av de beroenden inom texten - anafor, hänvisningar, retoriska strukturer och sådant - som tentativt beskrivits i den senaste tidens språkteknologiska litteratur. I förlängningen vill vi med den här forskningsriktningen kunna förstå vilka saker en text är om, ur något perspektiv. Det här är också en av våra forskningsfrågor. System som hanterar aspekter av informationsåtkomst och informationsförädling kräver ofta kunskapsintensiva tekniker och metoder. När väl en hypotes har implementerats pch testats i form av ett system för ett visst perspektiv på text, så är frågan hurvida systemet, eller dess delar, kan användas för att testa liknande eller samma hypotes givet ett nytt perspektiv på texten. Metoder och tekniker för att anpassa fungerande informationsåtkomstsystem för att möta nya informationsbehov, ny kontext eller en ny typ av text är en av våra forskningsfrågor.
Det som gör vårt forskningstema speciellt är att vi arbetar med både början och slutet av kedjan, och att vi strävar efter en modell som är i första hand beteendevetenskapligt och språkvetenskapligt verifierbar och i andra hand ingenjörsmässig. Det är ett sätt att inte fastna i lokala minima: språkvetenskap kan vara opraktisk och beteendevetenskap världsfrånvänd, men snittet dem emellan, särskilt om vi inte försöker lösa problem ingenjörsmässigt och inkrementellt utan genom större steg ger oss en helhetslösning - om än på sikt.