Learning discrete word embeddings to achieve better interpretability and processing efficiency

L’omniprésente utilisation des plongements de mot dans le traitement des langues naturellesest la preuve de leur utilité et de leur capacité d’adaptation a une multitude de tâches. Ce-pendant, leur nature continue est une importante limite en terme de calculs, de stockage enmémoire et d’interprétati...

Full description

Bibliographic Details
Main Author: Beland-Leblanc, Samuel
Other Authors: Tapp, Alain
Format: Others
Language:English
Published: 2021
Subjects:
Online Access:http://hdl.handle.net/1866/25464
id ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-25464
record_format oai_dc
spelling ndltd-umontreal.ca-oai-papyrus.bib.umontreal.ca-1866-254642021-08-27T17:22:21Z Learning discrete word embeddings to achieve better interpretability and processing efficiency Beland-Leblanc, Samuel Tapp, Alain plongements discret binaire Transformer LSTM sémantique morphème Search Data Structure Learning Multi-Bernouilli Regression Search généralisation interprétabilité embeddings discrete binary semantic morpheme generalization interpretability Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800) L’omniprésente utilisation des plongements de mot dans le traitement des langues naturellesest la preuve de leur utilité et de leur capacité d’adaptation a une multitude de tâches. Ce-pendant, leur nature continue est une importante limite en terme de calculs, de stockage enmémoire et d’interprétation. Dans ce travail de recherche, nous proposons une méthode pourapprendre directement des plongements de mot discrets. Notre modèle est une adaptationd’une nouvelle méthode de recherche pour base de données avec des techniques dernier crien traitement des langues naturelles comme les Transformers et les LSTM. En plus d’obtenirdes plongements nécessitant une fraction des ressources informatiques nécéssaire à leur sto-ckage et leur traitement, nos expérimentations suggèrent fortement que nos représentationsapprennent des unités de bases pour le sens dans l’espace latent qui sont analogues à desmorphèmes. Nous appelons ces unités dessememes, qui, de l’anglaissemantic morphemes,veut dire morphèmes sémantiques. Nous montrons que notre modèle a un grand potentielde généralisation et qu’il produit des représentations latentes montrant de fortes relationssémantiques et conceptuelles entre les mots apparentés. The ubiquitous use of word embeddings in Natural Language Processing is proof of theirusefulness and adaptivity to a multitude of tasks. However, their continuous nature is pro-hibitive in terms of computation, storage and interpretation. In this work, we propose amethod of learning discrete word embeddings directly. The model is an adaptation of anovel database searching method using state of the art natural language processing tech-niques like Transformers and LSTM. On top of obtaining embeddings requiring a fractionof the resources to store and process, our experiments strongly suggest that our representa-tions learn basic units of meaning in latent space akin to lexical morphemes. We call theseunitssememes, i.e., semantic morphemes. We demonstrate that our model has a greatgeneralization potential and outputs representation showing strong semantic and conceptualrelations between related words. 2021-08-25T12:35:03Z NO_RESTRICTION 2021-08-25T12:35:03Z 2021-07-14 2020-12 thesis thèse http://hdl.handle.net/1866/25464 eng application/pdf
collection NDLTD
language English
format Others
sources NDLTD
topic plongements
discret
binaire
Transformer
LSTM
sémantique
morphème
Search Data Structure Learning
Multi-Bernouilli Regression Search
généralisation
interprétabilité
embeddings
discrete
binary
semantic
morpheme
generalization
interpretability
Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
spellingShingle plongements
discret
binaire
Transformer
LSTM
sémantique
morphème
Search Data Structure Learning
Multi-Bernouilli Regression Search
généralisation
interprétabilité
embeddings
discrete
binary
semantic
morpheme
generalization
interpretability
Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Beland-Leblanc, Samuel
Learning discrete word embeddings to achieve better interpretability and processing efficiency
description L’omniprésente utilisation des plongements de mot dans le traitement des langues naturellesest la preuve de leur utilité et de leur capacité d’adaptation a une multitude de tâches. Ce-pendant, leur nature continue est une importante limite en terme de calculs, de stockage enmémoire et d’interprétation. Dans ce travail de recherche, nous proposons une méthode pourapprendre directement des plongements de mot discrets. Notre modèle est une adaptationd’une nouvelle méthode de recherche pour base de données avec des techniques dernier crien traitement des langues naturelles comme les Transformers et les LSTM. En plus d’obtenirdes plongements nécessitant une fraction des ressources informatiques nécéssaire à leur sto-ckage et leur traitement, nos expérimentations suggèrent fortement que nos représentationsapprennent des unités de bases pour le sens dans l’espace latent qui sont analogues à desmorphèmes. Nous appelons ces unités dessememes, qui, de l’anglaissemantic morphemes,veut dire morphèmes sémantiques. Nous montrons que notre modèle a un grand potentielde généralisation et qu’il produit des représentations latentes montrant de fortes relationssémantiques et conceptuelles entre les mots apparentés. === The ubiquitous use of word embeddings in Natural Language Processing is proof of theirusefulness and adaptivity to a multitude of tasks. However, their continuous nature is pro-hibitive in terms of computation, storage and interpretation. In this work, we propose amethod of learning discrete word embeddings directly. The model is an adaptation of anovel database searching method using state of the art natural language processing tech-niques like Transformers and LSTM. On top of obtaining embeddings requiring a fractionof the resources to store and process, our experiments strongly suggest that our representa-tions learn basic units of meaning in latent space akin to lexical morphemes. We call theseunitssememes, i.e., semantic morphemes. We demonstrate that our model has a greatgeneralization potential and outputs representation showing strong semantic and conceptualrelations between related words.
author2 Tapp, Alain
author_facet Tapp, Alain
Beland-Leblanc, Samuel
author Beland-Leblanc, Samuel
author_sort Beland-Leblanc, Samuel
title Learning discrete word embeddings to achieve better interpretability and processing efficiency
title_short Learning discrete word embeddings to achieve better interpretability and processing efficiency
title_full Learning discrete word embeddings to achieve better interpretability and processing efficiency
title_fullStr Learning discrete word embeddings to achieve better interpretability and processing efficiency
title_full_unstemmed Learning discrete word embeddings to achieve better interpretability and processing efficiency
title_sort learning discrete word embeddings to achieve better interpretability and processing efficiency
publishDate 2021
url http://hdl.handle.net/1866/25464
work_keys_str_mv AT belandleblancsamuel learningdiscretewordembeddingstoachievebetterinterpretabilityandprocessingefficiency
_version_ 1719472852343717888