Menings- och dokumentklassficering för identifiering av meningar

Detta examensarbete undersöker hur väl tekniker inom meningsklassificering och dokumentklassificering fungerar för att välja ut meningar som innehåller de variabler som använts i experiment som beskrivs i medicinska dokument. För meningsklassificering används tillståndsmaskiner och nyckelord, för do...

Full description

Bibliographic Details
Main Authors: Paulson, Jörgen, Huynh, Peter
Format: Others
Language:Swedish
Published: Högskolan i Skövde, Institutionen för informationsteknologi 2018
Subjects:
Online Access:http://urn.kb.se/resolve?urn=urn:nbn:se:his:diva-16373
id ndltd-UPSALLA1-oai-DiVA.org-his-16373
record_format oai_dc
spelling ndltd-UPSALLA1-oai-DiVA.org-his-163732018-11-13T07:30:47ZMenings- och dokumentklassficering för identifiering av meningarsweSentence and document classification for identification of sentencesPaulson, JörgenHuynh, PeterHögskolan i Skövde, Institutionen för informationsteknologiHögskolan i Skövde, Institutionen för informationsteknologi2018natural language processingclassificationfinite state automataspråkteknologiklassificeringtillståndsmaskinerComputer and Information SciencesData- och informationsvetenskapDetta examensarbete undersöker hur väl tekniker inom meningsklassificering och dokumentklassificering fungerar för att välja ut meningar som innehåller de variabler som använts i experiment som beskrivs i medicinska dokument. För meningsklassificering används tillståndsmaskiner och nyckelord, för dokumentklassificering används linjär SVM och Random forest. De textegenskaper som har valts ut är LIX (läsbarhetsindex) och ordmängd (word count). Textegenskaperna hämtas från en färdig datamängd som skapades av Abrahamsson (T.B.D) från artiklar som samlas in för denna studie. Denna datamängd används sedan för dokumentklassificering. Det som undersöks hos dokumentklassificeringsteknikerna är förmågan att skilja dokument av typerna vetenskapliga artiklar med experiment, vetenskapliga artiklar utan experiment, vetenskapliga artiklar med metaanalyser och dokument som inte är vetenskapliga artiklar åt. Dessa dokument behandlas med meningsklassificering för att undersöka hur väl denna hittar meningar sominnehåller definitioner av variabler. Resultatet från experimentet tydde på att teknikerna för meningsklassificering inte var dugliga för detta ändamål på grund av låg precision. För dokumentklassificering var Randomforest bäst lämpad men hade problem att skilja olika typer av vetenskapliga artiklar åt. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:his:diva-16373application/pdfinfo:eu-repo/semantics/openAccess
collection NDLTD
language Swedish
format Others
sources NDLTD
topic natural language processing
classification
finite state automata
språkteknologi
klassificering
tillståndsmaskiner
Computer and Information Sciences
Data- och informationsvetenskap
spellingShingle natural language processing
classification
finite state automata
språkteknologi
klassificering
tillståndsmaskiner
Computer and Information Sciences
Data- och informationsvetenskap
Paulson, Jörgen
Huynh, Peter
Menings- och dokumentklassficering för identifiering av meningar
description Detta examensarbete undersöker hur väl tekniker inom meningsklassificering och dokumentklassificering fungerar för att välja ut meningar som innehåller de variabler som använts i experiment som beskrivs i medicinska dokument. För meningsklassificering används tillståndsmaskiner och nyckelord, för dokumentklassificering används linjär SVM och Random forest. De textegenskaper som har valts ut är LIX (läsbarhetsindex) och ordmängd (word count). Textegenskaperna hämtas från en färdig datamängd som skapades av Abrahamsson (T.B.D) från artiklar som samlas in för denna studie. Denna datamängd används sedan för dokumentklassificering. Det som undersöks hos dokumentklassificeringsteknikerna är förmågan att skilja dokument av typerna vetenskapliga artiklar med experiment, vetenskapliga artiklar utan experiment, vetenskapliga artiklar med metaanalyser och dokument som inte är vetenskapliga artiklar åt. Dessa dokument behandlas med meningsklassificering för att undersöka hur väl denna hittar meningar sominnehåller definitioner av variabler. Resultatet från experimentet tydde på att teknikerna för meningsklassificering inte var dugliga för detta ändamål på grund av låg precision. För dokumentklassificering var Randomforest bäst lämpad men hade problem att skilja olika typer av vetenskapliga artiklar åt.
author Paulson, Jörgen
Huynh, Peter
author_facet Paulson, Jörgen
Huynh, Peter
author_sort Paulson, Jörgen
title Menings- och dokumentklassficering för identifiering av meningar
title_short Menings- och dokumentklassficering för identifiering av meningar
title_full Menings- och dokumentklassficering för identifiering av meningar
title_fullStr Menings- och dokumentklassficering för identifiering av meningar
title_full_unstemmed Menings- och dokumentklassficering för identifiering av meningar
title_sort menings- och dokumentklassficering för identifiering av meningar
publisher Högskolan i Skövde, Institutionen för informationsteknologi
publishDate 2018
url http://urn.kb.se/resolve?urn=urn:nbn:se:his:diva-16373
work_keys_str_mv AT paulsonjorgen meningsochdokumentklassficeringforidentifieringavmeningar
AT huynhpeter meningsochdokumentklassficeringforidentifieringavmeningar
AT paulsonjorgen sentenceanddocumentclassificationforidentificationofsentences
AT huynhpeter sentenceanddocumentclassificationforidentificationofsentences
_version_ 1718790731293786112