Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux 2008

La cartographie des réseaux de régulation de la transcription des gènes et des mécanismes moléculaires impliqués sont des problématiques importantes pour les biologistes. Les ressources bibliographiques de biologie moléculaire sont une mine prodigieuse d informations expérimentales qui couvrent l�...

Full description

Bibliographic Details
Main Author: Lorec, Julien
Language:FRE
Published: Université de Nantes 2008
Subjects:
Online Access:http://tel.archives-ouvertes.fr/tel-00481403
http://tel.archives-ouvertes.fr/docs/00/48/14/03/PDF/these_julien_lorec.pdf
id ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-00481403
record_format oai_dc
spelling ndltd-CCSD-oai-tel.archives-ouvertes.fr-tel-004814032013-01-07T18:04:22Z http://tel.archives-ouvertes.fr/tel-00481403 http://tel.archives-ouvertes.fr/docs/00/48/14/03/PDF/these_julien_lorec.pdf Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux 2008 Lorec, Julien [INFO] Computer Science [SDV] Life Sciences Bioinformatique Expression génique Transcription génétique Analyse automatique (linguistique) La cartographie des réseaux de régulation de la transcription des gènes et des mécanismes moléculaires impliqués sont des problématiques importantes pour les biologistes. Les ressources bibliographiques de biologie moléculaire sont une mine prodigieuse d informations expérimentales qui couvrent l'état de l'art actuel dans le domaine de l expression de gènes. Cependant en raison de la taille gigantesque que représentent les données textuelles du domaine, des méthodes automatisées doivent être mises au point afin d explorer ces données de manière systématique. Dans cette thèse, nous proposons un ensemble de méthodes pour fouiller la littérature de biologie moléculaire et extraire les faits pertinents en relation avec l'expression de gènes humains. Nous présentons tout d'abord une procédure générique destinée à l extraction d'entités nommées candidates à partir des textes. Celle-ci combine une approche d identification à base de règles de groupes nominaux en tant qu entités nommées candidates avec une étape de mise en correspondance au sein de dictionnaires expertisés et élaborés à partir de ressources terminologiques publiques. Des techniques de désambiguïsation spécifiques au domaine sont aussi présentées afin de déterminer la nature réelle de l entité nommée identifiée. Nous détaillons ensuite une méthode qui permet à la fois d extraire les relations pertinentes établies entre les entités nommées et de retrouver certaines caractéristiques de ces associations grâce à une analyse syntaxique dite profonde et l utilisation de structures prédicat-arguments. Nous montrons que l'acquisition de la sémantique à partir de la syntaxe peut être séparée en deux phases distinctes afin de réduire le coût associé à la conception manuelle de règles d'extraction spécifiques au domaine. Finalement, les performances du système sont évaluées à l'aide d'un corpus annoté de pubIications complètes de biologie moléculaire. Les résultats sont prometteurs et malgré la nature hétérogène des données extraites, le système présente des performances à la fois homogènes et compatibles avec la montée en charge. 2008-10-02 FRE PhD thesis Université de Nantes
collection NDLTD
language FRE
sources NDLTD
topic [INFO] Computer Science
[SDV] Life Sciences
Bioinformatique
Expression génique
Transcription génétique
Analyse automatique (linguistique)
spellingShingle [INFO] Computer Science
[SDV] Life Sciences
Bioinformatique
Expression génique
Transcription génétique
Analyse automatique (linguistique)
Lorec, Julien
Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux 2008
description La cartographie des réseaux de régulation de la transcription des gènes et des mécanismes moléculaires impliqués sont des problématiques importantes pour les biologistes. Les ressources bibliographiques de biologie moléculaire sont une mine prodigieuse d informations expérimentales qui couvrent l'état de l'art actuel dans le domaine de l expression de gènes. Cependant en raison de la taille gigantesque que représentent les données textuelles du domaine, des méthodes automatisées doivent être mises au point afin d explorer ces données de manière systématique. Dans cette thèse, nous proposons un ensemble de méthodes pour fouiller la littérature de biologie moléculaire et extraire les faits pertinents en relation avec l'expression de gènes humains. Nous présentons tout d'abord une procédure générique destinée à l extraction d'entités nommées candidates à partir des textes. Celle-ci combine une approche d identification à base de règles de groupes nominaux en tant qu entités nommées candidates avec une étape de mise en correspondance au sein de dictionnaires expertisés et élaborés à partir de ressources terminologiques publiques. Des techniques de désambiguïsation spécifiques au domaine sont aussi présentées afin de déterminer la nature réelle de l entité nommée identifiée. Nous détaillons ensuite une méthode qui permet à la fois d extraire les relations pertinentes établies entre les entités nommées et de retrouver certaines caractéristiques de ces associations grâce à une analyse syntaxique dite profonde et l utilisation de structures prédicat-arguments. Nous montrons que l'acquisition de la sémantique à partir de la syntaxe peut être séparée en deux phases distinctes afin de réduire le coût associé à la conception manuelle de règles d'extraction spécifiques au domaine. Finalement, les performances du système sont évaluées à l'aide d'un corpus annoté de pubIications complètes de biologie moléculaire. Les résultats sont prometteurs et malgré la nature hétérogène des données extraites, le système présente des performances à la fois homogènes et compatibles avec la montée en charge.
author Lorec, Julien
author_facet Lorec, Julien
author_sort Lorec, Julien
title Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux 2008
title_short Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux 2008
title_full Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux 2008
title_fullStr Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux 2008
title_full_unstemmed Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux 2008
title_sort extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux 2008
publisher Université de Nantes
publishDate 2008
url http://tel.archives-ouvertes.fr/tel-00481403
http://tel.archives-ouvertes.fr/docs/00/48/14/03/PDF/these_julien_lorec.pdf
work_keys_str_mv AT lorecjulien extractiondinformationssurlaregulationtranscriptionnelledegenesapartirdarticlesbiomedicaux2008
_version_ 1716397697222574080