Läskurs i informationsextraktion VT-2000, tema 4
Relationen mellan informationsextraktion
och informationsåtkomst
Anna Jonsson
anjo@sics.se
Detta är en sammanfattning av presentationen av tema 4: Relationen mellan informationsåtkomst och informationsextraktion, i läskursen Informationsextraktion99, som gavs under vårterminen 2000. Denna sammanfattning kommer att ge en kort beskrivning av vad informationsåtkomst är, däremot kommer inte informationsextraktion att beskrivas närmare eftersom detta framgått med all önskvärd tydlighet under hela kursens gång. Vidare kommer jag att ge exempel på kombinationer av de två teknikerna, dels några projekt och dels förslag där de tu skulle kunna samarbeta mot ett gemensamt mål; allt hämtat från den valda litteraturen.
1 Vad är informationsåtkomstInformationsåtkomst (IR från engelskans Information Retrieval) kallas ibland också dokumentåtkomst eller textåtkomst. Av dessa benämningar kan man nästan sluta sig till att processen går ut på att komma åt information, dokument eller text från en större samling information, dokument eller text. Hearst (1999) liknar informationsåtkomstproceduren vid att finna en nål i en nålstack. Det vill säga, det finns många potentiellt relevanta dokument i en samling och problemet är att hitta det eller de dokument som bäst matchar användarens informationsbehov. Denna uppfattning delas även av Voorhees (1997) och Smeaton (1997) vilket kanske inte är så underligt, eftersom det är så traditionell IR fungerar. Det vill säga, användaren av systemet anger en sökfråga och som svar på denna fås tillbaka en lista med de dokument i samlingen som av systemet bedömts vara relevanta. IR-system försöker således matcha användaren sökbehov, inte som i informationsextraktion (IE från engelskans Information Extraction) där systemet försöker besvara en specifik fråga.1.1 Informationsåtkomstens två processerSom nämnts i ovanstående stycke görs i IR en matchning mellan användarens sökfråga och de dokument som finns i samlingen. Hur går då denna matchning till? De flesta IR-systemen använder, enligt Voorhees (1997) statistiska beräkningsmetoder för att på så sätt få fram likhetsmått mellan sökfråga och dokument. Detta likhetsmått tas i huvudsak fram genom följande två processer:Indexering – en lista med nyckelord som tas fram från såväl dokumentet som sökfråga, och som kan sägas beskriva texterna i fråga. De flesta söksystem idag använder sig av automatisk indexering, men det finns även manuella varianter. Nyckelordslistan produceras i tre steg:· tokenisering – texten styckas upp i vad som kan anses vara ”ord”· högfrekventa, vanliga ord tas bort ur texten (t.ex. och, i, men etc.)· lemmatisering, i vissa fall. D.v.s. ord i olika böjningsform böjs till grundform. Att kapa orden efter en viss längd (t.ex. efter 6 bokstäver) för att på så sätt reducera böjningsvariationer förekommer också.Matchning – denna görs sedan genom att jämföra sökfrågans index med respektive dokuments dito, och ta fram likhetsmått dem emellan. Vanliga beräkningsmått är tf*idf (hur många gånger en term förekommer i en text visavi hur många dokument termen förekommer i, i hela samlingen). En svårigheten är dock att sökfrågan ofta bara består av ett fåtal ord, medan dokumenten kan vara flera sidor. När matchningen är klar får användaren oftast en rankad lista med de dokument systemet anser bäst matcha sökbehovet, sorterad i fallande relevansordning.1.2 Olika typer av informationsåtkomstsystem
Enligt vad som framgått i de tidigare kapitlen i denna sammanfattning kan man tro att det bara finns en typ av IR-system. Men det finns, enligt Voorhees (1997) ett antal olika system som skiljer sig åt på olika sätt.Booleska system
Detta är en tidig form av IR-system där dokumenten matchas mot sökfrågan vilken angetts med hjälp av olika booleska kombinationer; till exempel OCH, ELLER, eller INTE. En stor nackdel i dessa system är att det är svårt att kontrollera mängden svar man får, ej heller får man någon indikation på vilka dokument som kan tänkas vara mer relevanta än andra eftersom dokumentlistan inte går att ranka. Systemen brukar också anses svåra att förstå sig på och att använda för gemene man på grund av deras booleska natur.
Vektorrymdsystem (vector-space model)
Detta är också, som de booleska systemen, en tidig IR-modell som också den förekommer än idag. Dokument och frågor representeras båda n-dimensionella vektorer, där n är antalet unika termer i dokumentsamling, och varje axel motsvarar en term. Givet en sökfråga producerar systemet en rankad lista med dokument vilken baseras på likheten mellan sökfrågan och dokumenten.
Termviktsmodell
Den typ av IR-system som är vanligast numera, och som enligt Voorhees (1997) också ger bäst sökresultat, är termviktsmodellen. Det finns dock olika sätt att kombinera mått för att beräkna termvikter, men de system som klarar sig bäst i jämförelse med andra använder en kombination av följande mått:
· termfrekvens (tf) - mått i proportion till antalet förekomster termen har i dokumentet
· invers dokumentfrekvens (idf) - mått inverst proportionell till antalet dokument i samlingen som innehåller termen i fråga
· dokumentets längd (dl) - mått som kompenserar för dokumentens varierande längd.
1.3 Varför fungerar IR-systemen så pass dåligt?
Trots att IR-system förekommit under en relativt lång tid, fungerar de ändå inte alltför väl. Det finns en rad olika förklaringar till varför det är på det viset. Smeaton (1997) hävdar till exempel att det mesta av problemen är inbyggda i IR-systemens arkitektur. Som exempel förutsätter söksystemen att användaren vet vad hon/han söker, och att de kan uttrycka exakt detta i sin sökfråga; att användarens informationsbehov är konstant under hela sökningen; att författaren till ett dokument vet vad hon/han vill ha sagt och kan uttrycka det exakt i texten; och slutligen att användaren vet vilka termer som används i ett dokument.Eftersom ovan förutsättningar väldigt sällan uppfylls, åtminstone inte på en och samma gång, blir en alldeles korrekt matchning mellan en sökfråga och ett dokument sällan gjord. Om det dessutom skulle vara så att användaren vet exakt vad hon/han är ute efter kanske hon/han hellre vänder sig till en annan typ av söksystem; till exempel söka i Libris istället för på Altavista.
2 Skillnader mellan IR och IE
Informationsextraktion är till sin natur relaterat till informationsåtkomst; IR hämtar texter till en användare i enlighet till dennas sökfråga, medan IE processar texten till ett fixt format visavi en färdig mall. Båda ämnar dock strukturera en stor mängd dokument eller texter i enlighet med någon uppgift. I Smeatons (1997) artikel finns ett avsnitt som dock behandlar skillnaderna mellan IR och IE, så som Cunningham presenterat dem. Generellt sett anses att IE är svårare än IR, och att det kräver mer kunskap att bygga ett IE-system; IE är mer bundet till domän och scenario; det kräver mer databehandling; ger generellt sett högre precision än IR; och IE möjliggör korsspråkliga operationer (CLIR – cross-lingual information retrieval).Normalt i de (i och för sig sällsynta) fall där IE och IR båda används i ett och samma system, brukar IE-delen agera ett slags filter, till exempel för att indexerar texterna innan IR-delen av systemet tar vid och gör sina statistiska beräkningar på dem. Men IE-system kan också användas på samma nivå som IR-systemen, till exempel för att automatiskt extrahera data från ett korpus, inom något intresseområde för en användare, för att sedan använda denna som indata till ett kalkylblad eller en databas. (Smeaton, 1997.)
3 Hur kan IR och IE kombineras?
Smeaton (1997) ger tre förslag på tänkbara scenarier där man kan låta tekniker från informationsåtkomstområdet kombineras med tekniker från informationsextraktionsområdet: IE-system kan efterbehandla utdata från ett IR-system (två exempel på detta ges i stycke 3.1 och 3.2 nedan); IE kan fungera som komponent i ett IR-system, t.ex. i indexering, och hjälpa till ”named entity”- uppgifter där IR har problem; IE kan samarbeta med IR-system i fall där en användare t.ex. söker och bläddrar igenom en stor informationsrymd, och där producera sammanfattningar av användarens sökresultat, till exempel på webben.
3.1 Exempel på tillämpningar 1
Bear m.fl. (1997) har gjort ett försök att använda IE i en så kallad ”routing task” i TREC-6, det vill säga man frågar en stor dokumentdatabas efter ett visst ämne, och till svar får man en mängd dokument sorterade i relevansordning (normalt en renodlad IR-uppgift). Det Bear och de andra gjorde var att anpassa ett existerande IE-system (FASTUS) för sina syften, d.v.s. skriva grammatikor för några av de ämnen som var aktuella för TREC-uppgiften, grammatikor vilka de sedan använde som frågor på de 2000 dokument per fråga som IR-systemet (SMART) hittat. Det vill säga, IE användes som postfilter på utdata producerat av IR-systemet.
Alltså, SMART producerade en lista med 2000 rankade dokument från dokumentdatabasen. En något modifierad FASTUS ämnade därefter ranka om denna lista, genom att man körde de specialskrivna grammatikorna som sökfrågor (man hade gjort grammatikor på 23 av de 47 aktuella ämnena). Omrankningen skedde genom att matcha fraser i dokumenten med mönster i FASTUS.
Resultat:
Resultaten var inte så överväldigande bra som Bear m.fl. kanske hade hoppats på. Medelvärdet på precisionen av omrankningen blev att 12 av ämnena hamnade över medianvärdet (varav 7 ganska bra); 3 ämnen hamnade på samma poäng som medianvärdet; och 8 ämnen hamnade under medianvärdet.
I Bear et als (1997) artikel diskuteras några anledningar till de mediokra resultaten. Till exempel kom de fram till att mängden relevanta dokument måste vara tillräckligt stor vid tillverkningen av grammatikor, något som tydligen inte var fallet i detta experiment. Vidare sluter de sig till att man även bör träna sitt system på relevanta dokument, något som de inte heller tycks ha haft möjlighet till.
3.2 Exempel på tillämpningar 2
Grishman m.fl. (1996) gjorde ett liknande, om än som det tycks mer informellt, försök att introducera IE i IR-sammanhang i ett projekt på New York University. Bakgrunden till det hela var insikten att nyckelordsbaserade system generellt sett har svårt att matcha sökfrågor som eftersöker relationer och händelser. Det man gjorde var att välja ut en fråga som använts i TREC-1, som handlade om presidenter, och därefter tillverkades en uppsättning mönster för att möjliggöra identifiering av relevanta dokument. Det första försöket gav som resultat att en rad dokument som inte bedömts av NIST hamnade högst upp på dokumentlistan. Detta resultat kunde därför inte utvärderas.
Man gjorde därefter ett nytt försök på samma tema, men denna gång enbart på dokument där man hade tillgång till NIST:s bedömningar. Inledningsvis kördes dokumenten genom sökmotorn ZPRISE, vilken plockade fram en lista på dokument som var sorterade i fallande relevansordning (som brukligt är i de flesta IR-system). Därefter kördes den erhållna dokumentlistan genom extraktionsmotorn som rankade om den. I de fall där extraktionsmotorn kom fram till samma rankning som ZPRISE på ett dokument behölls ZPRISE:s rankning. Ju fler mönster som extraktionsmotorn kunde matcha, desto högre rankning fick dokumentet. Exakt hur denna matchning gick till framgår dock inte av projektrapporten.ResultatDe 15 högst rankade dokumenten var för extraktionsmotorn alla relevanta, medan de som rankats av ZPRISE innehöll 5 icke relevanta dokument. Av 30 erhållna dokument som rankats som relevanta hade extraktionsmotorn tagit med 1 dokument som inte var relevant, medan ZPRISE fått med 11 stycken.Dessa resultat kan tyckas väldigt bra, och det är de, men extraktionssystemet kunde endast handskas med en fråga, och frågan är om det är värt att specialanpassa ett verktyg för specifika frågor på detta vis? I vissa fall kanske, men generellt sett tror jag knappast det. Dessutom är det i detta fall endast relevant för IR-system som letar efter relationer och händelser i texter.4 DiskussionTrots det, enligt mig, uppenbara behovet och stora användningsområdet av en kombination av informationsåtkomstmetoder och informationsextraktionsmetoder var det inte alltför lätt att hitta exempel på detta i litteraturen. Kanhända detta beror på att dylika samarbeten inte förekommer, eller kanske att det visst förekommer, men det kanske inte beskrivs i termer av kombinerad IR och IE, utan kanske som kort och gott NLP (från engelskans Natural Language Processing) eller något annat? Utgår man från att det inte förs dylika samarbeten är min teori att människor som specialiserat sig inom de två olika genrerna är föga benägna att ta till sig och lära sig av, och än mindre samarbeta med, sina medmänniskor från den andra genren. Detta är dock inte på något sätt belagt, men det är en misstanke.Efter att detta tema presenterats på den i övrigt eminent genomförda läskursen kom det dock till min kännedom ytterligare ett, fortfarande pågående, projekt där man kombinerar bland annat IR och IE; projektet TRESTLE (Text Retrieval Extraction and Summarisation for Large Enterprises) på Sheffield University (2000). Där jobbar man med att anpassa existerande IR-system (Inquery) med existerande IE-system (LaSie) för att kunna producera bland annat sammanfattningar av dokument.ReferenserBear, J., Israel, D., Petit, J., and Martin, D. (1997). Using Information Extraction to improve Document Retrieval. In Proceedings of The Sixth Text REtrieval Conference (TREC 6), pp. 367-377, Gaithersburg, Maryland, November 19-21.Cunningham, H. (1997). Information Extraction – A User’s Guide. Department of Computer Science, University of Sheffield Research Memo CS-97-02.Grishman, R. (1996). Final Project Report: Combining Automated Training and User Guidance for Document Retrieval and Information Extraction. New York University. (Not available unless you have the right contacts.)Hearst, M. (1999). Untangling Text Data Mining. In Proceedings of ACL’99: the 37th Annual Meeting of the Association for Computational Linguistics, University of Maryland, June 20-26.Smeaton, A.F. (1997). Information Retrieval: Still Butting Heads with Natural Language Processing?. In Maria Teresa Pazienza, editor, Information Extraction: A Multidisciplinary Approach to an Emerging Information Technology, volume 1299 of Lecture Notes in Artificial Intelligence, chapter 7, pp. 115-138. Springer. International Summer School, SCIE-97. Frascati, Italy, July 14-18, 1997.TRESTLE. (2000). http://www.dcs.shef.ac.uk/research/groups/nlp/trestle/Voorhees, E.M. (1997). Natural Language Processing and Information Retrieval. Information Extraction: Towards Scalable, Adaptable Systems. M.T Pazienza (Ed.), Springer-Verlag. Lecture Notes in Computer Science #1714, pp. 32-48.