Natural language processing of incident and accident reports : application to risk management in civil aviation

Cette thèse décrit les applications du traitement automatique des langues (TAL) à la gestion des risques industriels. Elle se concentre sur le domaine de l'aviation civile, où le retour d'expérience (REX) génère de grandes quantités de données, sous la forme de rapports d'accidents et...

Full description

Bibliographic Details
Main Author: Tulechki, Nikola
Other Authors: Toulouse 2
Language:en
Published: 2015
Subjects:
Online Access:http://www.theses.fr/2015TOU20035/document
id ndltd-theses.fr-2015TOU20035
record_format oai_dc
collection NDLTD
language en
sources NDLTD
topic Traitement automatique des langues
Retour d'expérience
Aviation civile
Similarité textuelle
Gestion du risque
Natural language processing
Incident reporting
Civil aviation
Textual similarity
Safety management
Автоматичната обработка на естествен език
Гражданско въздухоплаване
Докладване на инциденти
Текстова сходност
Управление на риска

spellingShingle Traitement automatique des langues
Retour d'expérience
Aviation civile
Similarité textuelle
Gestion du risque
Natural language processing
Incident reporting
Civil aviation
Textual similarity
Safety management
Автоматичната обработка на естествен език
Гражданско въздухоплаване
Докладване на инциденти
Текстова сходност
Управление на риска

Tulechki, Nikola
Natural language processing of incident and accident reports : application to risk management in civil aviation
description Cette thèse décrit les applications du traitement automatique des langues (TAL) à la gestion des risques industriels. Elle se concentre sur le domaine de l'aviation civile, où le retour d'expérience (REX) génère de grandes quantités de données, sous la forme de rapports d'accidents et d'incidents. Nous commençons par faire un panorama des différentes types de données générées dans ce secteur d'activité. Nous analysons les documents, comment ils sont produits, collectés, stockés et organisés ainsi que leurs utilisations. Nous montrons que le paradigme actuel de stockage et d’organisation est mal adapté à l’utilisation réelle de ces documents et identifions des domaines problématiques ou les technologies du langage constituent une partie de la solution. Répondant précisément aux besoins d'experts en sécurité, deux solutions initiales sont implémentées : la catégorisation automatique de documents afin d'aider le codage des rapports dans des taxonomies préexistantes et un outil pour l'exploration de collections de rapports, basé sur la similarité textuelle. En nous basant sur des observations de l'usage de ces outils et sur les retours de leurs utilisateurs, nous proposons différentes méthodes d'analyse des textes issus du REX et discutons des manières dont le TAL peut être appliqué dans le cadre de la gestion de la sécurité dans un secteur à haut risque. En déployant et évaluant certaines solutions, nous montrons que même des aspects subtils liés à la variation et à la multidimensionnalité du langage peuvent être traités en pratique afin de gérer la surabondance de données REX textuelles de manière ascendante === This thesis describes the applications of natural language processing (NLP) to industrial risk management. We focus on the domain of civil aviation, where incident reporting and accident investigations produce vast amounts of information, mostly in the form of textual accounts of abnormal events, and where efficient access to the information contained in the reports is required. We start by drawing a panorama of the different types of data produced in this particular domain. We analyse the documents themselves, how they are stored and organised as well as how they are used within the community. We show that the current storage and organisation paradigms are not well adapted to the data analysis requirements, and we identify the problematic areas, for which NLP technologies are part of the solution. Specifically addressing the needs of aviation safety professionals, two initial solutions are implemented: automatic classification for assisting in the coding of reports within existing taxonomies and a system based on textual similarity for exploring collections of reports. Based on the observation of real-world tool usage and on user feedback, we propose different methods and approaches for processing incident and accident reports and comprehensively discuss how NLP can be applied within the safety information processing framework of a high-risk sector. By deploying and evaluating certain approaches, we show how elusive aspects related to the variability and multidimensionality of language can be addressed in a practical manner and we propose bottom-up methods for managing the overabundance of textual feedback data === Тoзи реферат описва приложението на автоматичната обработка на естествен език (ОЕЕ) в контекста на управлението на риска в гражданското въздухоплаване. В тази област докладването на инциденти и разследването на произшествия генерират голямо количество информация, главно под формата на текстови описания на необичайни събития. На първо време описваме раличните типове (текстови) данни, които секторът произвежда. Анализираме самите документи, методите за съхраняването им, как са организирани, както и техните употреби от екперти по сигурността. Показваме, че съвремените парадигми за съхраняване и организация не са добре приспособени към реалната употреба на този тип данни и установяваме проблемните зони, в които ОЕЕ е част от решението. Две приложения, отговарящи прецизно на нуждите на експерти по авиационна сигурност, са имплементирани: автоматична класификация на доклади за инциденти и система за проучване на на колекции, основаваща се върху текстовото сходство. Въз основа на наблюдения на реалната употреба на приложенията, предлагаме няколко метода за обработка на доклади за инциденти и произшествия и обсъждаме в дълбочина как ОЕЕ може да бъде проложено на различни нива в информационнo-обработващите структури на един високорисков сектор. Оценявайки методите показваме, че трудностите свързани с многоизмерността и изменимостта на човешкия език могат да бъдат ефективно адресирани и предлагаме надеждни възходящи методи за справяне със свръхизобилието на доклади за инциденти в текстови формат
author2 Toulouse 2
author_facet Toulouse 2
Tulechki, Nikola
author Tulechki, Nikola
author_sort Tulechki, Nikola
title Natural language processing of incident and accident reports : application to risk management in civil aviation
title_short Natural language processing of incident and accident reports : application to risk management in civil aviation
title_full Natural language processing of incident and accident reports : application to risk management in civil aviation
title_fullStr Natural language processing of incident and accident reports : application to risk management in civil aviation
title_full_unstemmed Natural language processing of incident and accident reports : application to risk management in civil aviation
title_sort natural language processing of incident and accident reports : application to risk management in civil aviation
publishDate 2015
url http://www.theses.fr/2015TOU20035/document
work_keys_str_mv AT tulechkinikola naturallanguageprocessingofincidentandaccidentreportsapplicationtoriskmanagementincivilaviation
AT tulechkinikola traitementautomatiquederapportsdincidentsetaccidentsapplicationalagestiondurisquedanslaviationcivile
AT tulechkinikola avtomatičnaobrabotkanadokladizaincidentipriloženiâvupravlenietonariskavgraždanskotovʺzduhoplavane
_version_ 1718491410365153280
spelling ndltd-theses.fr-2015TOU200352017-07-06T04:34:20Z Natural language processing of incident and accident reports : application to risk management in civil aviation Traitement automatique de rapports d’incidents et accidents : application à la gestion du risque dans l’aviation civile Автоматична обработка на доклади за инциденти : приложения в управлението на риска в гражданското въздухоплаване Traitement automatique des langues Retour d'expérience Aviation civile Similarité textuelle Gestion du risque Natural language processing Incident reporting Civil aviation Textual similarity Safety management Автоматичната обработка на естествен език Гражданско въздухоплаване Докладване на инциденти Текстова сходност Управление на риска Cette thèse décrit les applications du traitement automatique des langues (TAL) à la gestion des risques industriels. Elle se concentre sur le domaine de l'aviation civile, où le retour d'expérience (REX) génère de grandes quantités de données, sous la forme de rapports d'accidents et d'incidents. Nous commençons par faire un panorama des différentes types de données générées dans ce secteur d'activité. Nous analysons les documents, comment ils sont produits, collectés, stockés et organisés ainsi que leurs utilisations. Nous montrons que le paradigme actuel de stockage et d’organisation est mal adapté à l’utilisation réelle de ces documents et identifions des domaines problématiques ou les technologies du langage constituent une partie de la solution. Répondant précisément aux besoins d'experts en sécurité, deux solutions initiales sont implémentées : la catégorisation automatique de documents afin d'aider le codage des rapports dans des taxonomies préexistantes et un outil pour l'exploration de collections de rapports, basé sur la similarité textuelle. En nous basant sur des observations de l'usage de ces outils et sur les retours de leurs utilisateurs, nous proposons différentes méthodes d'analyse des textes issus du REX et discutons des manières dont le TAL peut être appliqué dans le cadre de la gestion de la sécurité dans un secteur à haut risque. En déployant et évaluant certaines solutions, nous montrons que même des aspects subtils liés à la variation et à la multidimensionnalité du langage peuvent être traités en pratique afin de gérer la surabondance de données REX textuelles de manière ascendante This thesis describes the applications of natural language processing (NLP) to industrial risk management. We focus on the domain of civil aviation, where incident reporting and accident investigations produce vast amounts of information, mostly in the form of textual accounts of abnormal events, and where efficient access to the information contained in the reports is required. We start by drawing a panorama of the different types of data produced in this particular domain. We analyse the documents themselves, how they are stored and organised as well as how they are used within the community. We show that the current storage and organisation paradigms are not well adapted to the data analysis requirements, and we identify the problematic areas, for which NLP technologies are part of the solution. Specifically addressing the needs of aviation safety professionals, two initial solutions are implemented: automatic classification for assisting in the coding of reports within existing taxonomies and a system based on textual similarity for exploring collections of reports. Based on the observation of real-world tool usage and on user feedback, we propose different methods and approaches for processing incident and accident reports and comprehensively discuss how NLP can be applied within the safety information processing framework of a high-risk sector. By deploying and evaluating certain approaches, we show how elusive aspects related to the variability and multidimensionality of language can be addressed in a practical manner and we propose bottom-up methods for managing the overabundance of textual feedback data Тoзи реферат описва приложението на автоматичната обработка на естествен език (ОЕЕ) в контекста на управлението на риска в гражданското въздухоплаване. В тази област докладването на инциденти и разследването на произшествия генерират голямо количество информация, главно под формата на текстови описания на необичайни събития. На първо време описваме раличните типове (текстови) данни, които секторът произвежда. Анализираме самите документи, методите за съхраняването им, как са организирани, както и техните употреби от екперти по сигурността. Показваме, че съвремените парадигми за съхраняване и организация не са добре приспособени към реалната употреба на този тип данни и установяваме проблемните зони, в които ОЕЕ е част от решението. Две приложения, отговарящи прецизно на нуждите на експерти по авиационна сигурност, са имплементирани: автоматична класификация на доклади за инциденти и система за проучване на на колекции, основаваща се върху текстовото сходство. Въз основа на наблюдения на реалната употреба на приложенията, предлагаме няколко метода за обработка на доклади за инциденти и произшествия и обсъждаме в дълбочина как ОЕЕ може да бъде проложено на различни нива в информационнo-обработващите структури на един високорисков сектор. Оценявайки методите показваме, че трудностите свързани с многоизмерността и изменимостта на човешкия език могат да бъдат ефективно адресирани и предлагаме надеждни възходящи методи за справяне със свръхизобилието на доклади за инциденти в текстови формат Electronic Thesis or Dissertation Text en http://www.theses.fr/2015TOU20035/document Tulechki, Nikola 2015-09-30 Toulouse 2 Tanguy, Ludovic