Summary: | I dette prosjektet er det laget et norsk system for Question Answering(QA), Mathilda2, som kan besvare norske faktaspørsmål innen bestemte spørsmålstyper med et kort svar i form av noen få ord. For å gjøre dette har Mathilda2 brukt Oslo-Bergen-taggeren, Google og et sett av overflatemønster. Systemet er delvis basert på Ravichandran og Hovy sin overflatemønstermetode. Denne metoden er basert på redundans og bruker Internett som kilde. Ved å bruke et sett av mønster som er laget ut fra et treningssett bestående av spørsmål/svar-par klarer Mathilda2 å gjenfinne svar i fritekst. Denne svarekstraksjonen har vært hovedfokuset i Mathilda2. Overflatemønstermetoden er også blitt utvidet til å kunne filtrere bort svar som ikke er av rett ordklasse i forhold til forventet svar. Det er laget et sett av mønster for hver spørsmålstype Mathilda2 dekker. Mathilda2 har blitt evaluert på 60 spørsmål hentet fra "Hvem, hva, hvors store spørrebok". Denne evalueringen viser at overflatemønster i kombinasjon med filtrering på ordklasse og ordform fungerer godt til å besvare norske spørsmål. Mathilda2 viser at ikke alle spørsmålstyper er like enkle å få riktig svar på. De spørsmålstypene som fungerer best er de som enten har gode mønster eller som har en god filtrering. En viktig faktor er også at de har nok tilgjengelig informasjon. STED og FORKORTELSE er to spørsmålstyper som har disse egenskapene. FØDSELDATO og OPPFINNER fungerer også veldig bra, men lider av at de ikke får hentet ned nok informasjon fra Internett. DEFINISJON mangler alle disse egenskapene og fungerer derfor ikke i det hele tatt. Den samme evalueringen som ble gjort på Mathilda2, ble også gjort på Mathilda2a, Mathilda2b og søkemotorene Google og Kvasir. Mathilda2a er en redusert versjon av Mathilda2 der en siste finpuss av svarene er tatt bort, slik at brukeren får en lang liste av svar istedenfor å få ett kort svar. Mathilda2b er redusert slik at man har tatt bort filtreringen på ordklassene og det er bare mønstrene som bestemmer svaret. Her får man også en liste med svar, samt at det er mer kontekst rundt svarene. Resultatene av evalueringen viser at Mathilda2 er det beste systemet når bare det første treffet er tellende. Dermed kan man si at Mathilda2 er best på å finne ett kort svar, slik at brukeren ikke trenger å lese så mye informasjon. Tar man med fem svar øker besvarelsesevnen til Google og Kvasir betraktelig og de kommer opp på nivå med Mathilda2 når den bare gir ut ett svar. Mathilda2a gjør det aller best når man tar med fem svar. Dette viser at mønster og filtrering fungerer relativt bra, men at finpussen av svarene svikter. Med dette systemet er det bevist at det finnes enkle metoder for å lage norske QA-systemer som fungerer godt til å besvare norske naturlig språk-spørsmål innen bestemte spørsmålstyper. Det er også bevist at Ravichandran og Hovy sin overflatemønstermetode fungerer bra i et norsk QA-system. Evalueringen av systemet har også vist at ikke alle spørsmålstyper er like enkle å besvare, og at man i en videreutvikling av Mathilda2 bør hente ned flere dokumenter og ta bort mønster som er for generelle eller har lav presisjon, eller kompensere med en god filtreringsfunksjon. Som en del av forarbeidet for å finne interessante metoder for å utvikle et norsk QA-system ble det sett nærmere på et sett av engelske QA-systemer. Systemer som ble undersøkt i mitt høstprosjekt 2004 ble diskutert igjen. De nye systemene som ble studert er Aranea, AskMSR og Ravichandran og Hovy sine overflatemønster. I tillegg har teoristoff rundt teknikker for å utvikle QA-systemer, samt avgrensninger man må gjøre blitt framstilt. Resultatet av dette forarbeidet inngår også i rapporten.
|