Menings- och dokumentklassficering för identifiering av meningar
Detta examensarbete undersöker hur väl tekniker inom meningsklassificering och dokumentklassificering fungerar för att välja ut meningar som innehåller de variabler som använts i experiment som beskrivs i medicinska dokument. För meningsklassificering används tillståndsmaskiner och nyckelord, för do...
Main Authors: | , |
---|---|
Format: | Others |
Language: | Swedish |
Published: |
Högskolan i Skövde, Institutionen för informationsteknologi
2018
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:his:diva-16373 |
id |
ndltd-UPSALLA1-oai-DiVA.org-his-16373 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-his-163732018-11-13T07:30:47ZMenings- och dokumentklassficering för identifiering av meningarsweSentence and document classification for identification of sentencesPaulson, JörgenHuynh, PeterHögskolan i Skövde, Institutionen för informationsteknologiHögskolan i Skövde, Institutionen för informationsteknologi2018natural language processingclassificationfinite state automataspråkteknologiklassificeringtillståndsmaskinerComputer and Information SciencesData- och informationsvetenskapDetta examensarbete undersöker hur väl tekniker inom meningsklassificering och dokumentklassificering fungerar för att välja ut meningar som innehåller de variabler som använts i experiment som beskrivs i medicinska dokument. För meningsklassificering används tillståndsmaskiner och nyckelord, för dokumentklassificering används linjär SVM och Random forest. De textegenskaper som har valts ut är LIX (läsbarhetsindex) och ordmängd (word count). Textegenskaperna hämtas från en färdig datamängd som skapades av Abrahamsson (T.B.D) från artiklar som samlas in för denna studie. Denna datamängd används sedan för dokumentklassificering. Det som undersöks hos dokumentklassificeringsteknikerna är förmågan att skilja dokument av typerna vetenskapliga artiklar med experiment, vetenskapliga artiklar utan experiment, vetenskapliga artiklar med metaanalyser och dokument som inte är vetenskapliga artiklar åt. Dessa dokument behandlas med meningsklassificering för att undersöka hur väl denna hittar meningar sominnehåller definitioner av variabler. Resultatet från experimentet tydde på att teknikerna för meningsklassificering inte var dugliga för detta ändamål på grund av låg precision. För dokumentklassificering var Randomforest bäst lämpad men hade problem att skilja olika typer av vetenskapliga artiklar åt. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:his:diva-16373application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
Swedish |
format |
Others
|
sources |
NDLTD |
topic |
natural language processing classification finite state automata språkteknologi klassificering tillståndsmaskiner Computer and Information Sciences Data- och informationsvetenskap |
spellingShingle |
natural language processing classification finite state automata språkteknologi klassificering tillståndsmaskiner Computer and Information Sciences Data- och informationsvetenskap Paulson, Jörgen Huynh, Peter Menings- och dokumentklassficering för identifiering av meningar |
description |
Detta examensarbete undersöker hur väl tekniker inom meningsklassificering och dokumentklassificering fungerar för att välja ut meningar som innehåller de variabler som använts i experiment som beskrivs i medicinska dokument. För meningsklassificering används tillståndsmaskiner och nyckelord, för dokumentklassificering används linjär SVM och Random forest. De textegenskaper som har valts ut är LIX (läsbarhetsindex) och ordmängd (word count). Textegenskaperna hämtas från en färdig datamängd som skapades av Abrahamsson (T.B.D) från artiklar som samlas in för denna studie. Denna datamängd används sedan för dokumentklassificering. Det som undersöks hos dokumentklassificeringsteknikerna är förmågan att skilja dokument av typerna vetenskapliga artiklar med experiment, vetenskapliga artiklar utan experiment, vetenskapliga artiklar med metaanalyser och dokument som inte är vetenskapliga artiklar åt. Dessa dokument behandlas med meningsklassificering för att undersöka hur väl denna hittar meningar sominnehåller definitioner av variabler. Resultatet från experimentet tydde på att teknikerna för meningsklassificering inte var dugliga för detta ändamål på grund av låg precision. För dokumentklassificering var Randomforest bäst lämpad men hade problem att skilja olika typer av vetenskapliga artiklar åt. |
author |
Paulson, Jörgen Huynh, Peter |
author_facet |
Paulson, Jörgen Huynh, Peter |
author_sort |
Paulson, Jörgen |
title |
Menings- och dokumentklassficering för identifiering av meningar |
title_short |
Menings- och dokumentklassficering för identifiering av meningar |
title_full |
Menings- och dokumentklassficering för identifiering av meningar |
title_fullStr |
Menings- och dokumentklassficering för identifiering av meningar |
title_full_unstemmed |
Menings- och dokumentklassficering för identifiering av meningar |
title_sort |
menings- och dokumentklassficering för identifiering av meningar |
publisher |
Högskolan i Skövde, Institutionen för informationsteknologi |
publishDate |
2018 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:his:diva-16373 |
work_keys_str_mv |
AT paulsonjorgen meningsochdokumentklassficeringforidentifieringavmeningar AT huynhpeter meningsochdokumentklassficeringforidentifieringavmeningar AT paulsonjorgen sentenceanddocumentclassificationforidentificationofsentences AT huynhpeter sentenceanddocumentclassificationforidentificationofsentences |
_version_ |
1718790731293786112 |