Automatic Question Generation with Pre-trained Masked Language Models
In this project, we study the task of generating a question from a given passage-answer pair using pre-trained masked language models. Asking questions is of importance in artificial intelligence development because it makes a machine look intelligent when it raises a reasonable and well-constructed...
Main Author: | |
---|---|
Format: | Others |
Language: | English |
Published: |
KTH, Skolan för elektroteknik och datavetenskap (EECS)
2020
|
Subjects: | |
Online Access: | http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-289559 |
id |
ndltd-UPSALLA1-oai-DiVA.org-kth-289559 |
---|---|
record_format |
oai_dc |
spelling |
ndltd-UPSALLA1-oai-DiVA.org-kth-2895592021-08-03T09:28:36ZAutomatic Question Generation with Pre-trained Masked Language ModelsengAutomatisk frågegenerering med förtränade maskerade språkmodellerLin, Chun HungKTH, Skolan för elektroteknik och datavetenskap (EECS)2020Computer SciencesDatavetenskap (datalogi)In this project, we study the task of generating a question from a given passage-answer pair using pre-trained masked language models. Asking questions is of importance in artificial intelligence development because it makes a machine look intelligent when it raises a reasonable and well-constructed question. Also, question generation has its applications such as drafting questions for a reading comprehension test and augmenting data for expanding the training set of a question answering task. We focus on using pre-trained masked language models throughout this project. Masked language modeling is relatively new in question generation, but it has been being explored in the machine translation domain. In our experiments, we used two training techniques and two types of generation orderings. We are the first to adopt one of these training techniques for the question generation task. In our evaluation, n-gram based precision-recall evaluation and a human evaluation were conducted for comparing and analyzing. The experiment results showed that the best of our methods was as good as LSTM-based methods by comparing the results with the previous research literature. Moreover, all combinations of the training techniques and the generation orderings are acceptable according to our human evaluation results. We also demonstrated that one of our techniques enables us to control how long the generated question would be. I detta projekt studerar vi uppgiften att generera en fråga från ett givet par av ett textstycke och ett svar med förtränade maskerade språkmodeller. Att ställa frågor är viktigt i utvecklingen av artificiell intelligens eftersom det får en maskin att se intelligent ut när den ställer en rimlig och välkonstruerad fråga. Frågegenerering har också sina applikationer som att formulera frågor för ett läsförståelsetest och att utöka datamängder som kan användas för att träna frågebesvarande program. Vi fokuserar på att använda förtränade maskerade språkmodeller under hela detta projekt. Maskerade språkmodeller är relativt nya i samband med frågegenerering men det har undersökts i maskinöversättningsdomänen. I våra experiment använde vi två träningstekniker och två typer av genereringsordningar. Vi är de första att anta en av dessa träningstekniker för frågegenerering. För utvärdering använde vi n-grambaserad precision-täckning. Vi gjorde även en utvärdering med försökspersoner. Experimentresultaten visade att den bästa metoden var lika bra som LSTM-baserade metoder genom att jämföra resultaten med den tidigare forskningslitteraturen. Dessutom är alla kombinationer av träningsteknikerna och genereringsordningarna acceptabla enligt våra mänskliga utvärderingsresultat. Vi visade också att den nyligen föreslagna tekniken gör det möjligt för oss att kontrollera hur lång den genererade frågan skulle vara. Student thesisinfo:eu-repo/semantics/bachelorThesistexthttp://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-289559TRITA-EECS-EX ; 2020:902application/pdfinfo:eu-repo/semantics/openAccess |
collection |
NDLTD |
language |
English |
format |
Others
|
sources |
NDLTD |
topic |
Computer Sciences Datavetenskap (datalogi) |
spellingShingle |
Computer Sciences Datavetenskap (datalogi) Lin, Chun Hung Automatic Question Generation with Pre-trained Masked Language Models |
description |
In this project, we study the task of generating a question from a given passage-answer pair using pre-trained masked language models. Asking questions is of importance in artificial intelligence development because it makes a machine look intelligent when it raises a reasonable and well-constructed question. Also, question generation has its applications such as drafting questions for a reading comprehension test and augmenting data for expanding the training set of a question answering task. We focus on using pre-trained masked language models throughout this project. Masked language modeling is relatively new in question generation, but it has been being explored in the machine translation domain. In our experiments, we used two training techniques and two types of generation orderings. We are the first to adopt one of these training techniques for the question generation task. In our evaluation, n-gram based precision-recall evaluation and a human evaluation were conducted for comparing and analyzing. The experiment results showed that the best of our methods was as good as LSTM-based methods by comparing the results with the previous research literature. Moreover, all combinations of the training techniques and the generation orderings are acceptable according to our human evaluation results. We also demonstrated that one of our techniques enables us to control how long the generated question would be. === I detta projekt studerar vi uppgiften att generera en fråga från ett givet par av ett textstycke och ett svar med förtränade maskerade språkmodeller. Att ställa frågor är viktigt i utvecklingen av artificiell intelligens eftersom det får en maskin att se intelligent ut när den ställer en rimlig och välkonstruerad fråga. Frågegenerering har också sina applikationer som att formulera frågor för ett läsförståelsetest och att utöka datamängder som kan användas för att träna frågebesvarande program. Vi fokuserar på att använda förtränade maskerade språkmodeller under hela detta projekt. Maskerade språkmodeller är relativt nya i samband med frågegenerering men det har undersökts i maskinöversättningsdomänen. I våra experiment använde vi två träningstekniker och två typer av genereringsordningar. Vi är de första att anta en av dessa träningstekniker för frågegenerering. För utvärdering använde vi n-grambaserad precision-täckning. Vi gjorde även en utvärdering med försökspersoner. Experimentresultaten visade att den bästa metoden var lika bra som LSTM-baserade metoder genom att jämföra resultaten med den tidigare forskningslitteraturen. Dessutom är alla kombinationer av träningsteknikerna och genereringsordningarna acceptabla enligt våra mänskliga utvärderingsresultat. Vi visade också att den nyligen föreslagna tekniken gör det möjligt för oss att kontrollera hur lång den genererade frågan skulle vara. |
author |
Lin, Chun Hung |
author_facet |
Lin, Chun Hung |
author_sort |
Lin, Chun Hung |
title |
Automatic Question Generation with Pre-trained Masked Language Models |
title_short |
Automatic Question Generation with Pre-trained Masked Language Models |
title_full |
Automatic Question Generation with Pre-trained Masked Language Models |
title_fullStr |
Automatic Question Generation with Pre-trained Masked Language Models |
title_full_unstemmed |
Automatic Question Generation with Pre-trained Masked Language Models |
title_sort |
automatic question generation with pre-trained masked language models |
publisher |
KTH, Skolan för elektroteknik och datavetenskap (EECS) |
publishDate |
2020 |
url |
http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-289559 |
work_keys_str_mv |
AT linchunhung automaticquestiongenerationwithpretrainedmaskedlanguagemodels AT linchunhung automatiskfragegenereringmedfortranademaskeradesprakmodeller |
_version_ |
1719458658465611776 |