Αυτόματη εξαγωγή περίληψης από ελληνικό κείμενο

Η παρούσα διπλωματική εργασία πραγματεύεται το θέμα της αυτόματης εξαγωγής περίληψης από κείμενο ελληνικής γλώσσας. Η ανάκτηση πληροφορίας είναι ένας τομέας της επεξεργασίας φυσικής γλώσσας η οποία αποτελεί υποτομέα της Τεχνητής Νοημοσύνης. Σκοπός της είναι η ανάκτηση σημαντικών πληροφοριών από μεγά...

Full description

Bibliographic Details
Main Author: Κυριάκου, Ερωτόκριτος
Other Authors: Φακωτάκης, Νίκος
Language:gr
Published: 2009
Subjects:
Online Access:http://nemertes.lis.upatras.gr/jspui/handle/10889/2097
Description
Summary:Η παρούσα διπλωματική εργασία πραγματεύεται το θέμα της αυτόματης εξαγωγής περίληψης από κείμενο ελληνικής γλώσσας. Η ανάκτηση πληροφορίας είναι ένας τομέας της επεξεργασίας φυσικής γλώσσας η οποία αποτελεί υποτομέα της Τεχνητής Νοημοσύνης. Σκοπός της είναι η ανάκτηση σημαντικών πληροφοριών από μεγάλες συλλογές δεδομένων. Ο συγκεκριμένος τομέας που συγκεντρώνεται στην εξαγωγή συνοπτικών περιλήψεων από κείμενα καλείται Αυτόματη Εξαγωγή Περίληψης Κειμένου. Το πρόγραμμα αφαιρεί τις πλεονάζουσες πληροφορίες από το κείμενο εισόδου και παράγει ένα μικρότερο, απαλλαγμένο από πλεονασμούς, κείμενο εξόδου. Το κείμενο αυτό είναι ένα extract από το αρχικό κείμενο. Με αυτό εννοούμε ότι καμία από τις νέες προτάσεις δεν παράγεται από την αρχή, αντ' αυτού, αρχικές μη τροποποιημένες προτάσεις χρησιμοποιούνται για να σχηματιστεί η περίληψη. Οι πιο σημαντικές προτάσεις επιλέγονται με την εφαρμογή κριτήριων που έχουν ειδικά σχεδιαστεί για να βαθμολογήσουν τη κάθε πρόταση. Το αποτέλεσμα συγκρίνεται με «ανθρώπινα» κατασκευασμένες περιλήψεις και με κάποια γνωστά προγράμματα αυτόματης σύνοψης κειμένου. === This diploma dissertation is about automatic text summarization for the Greek language. Information retrieval is a field of natural language processing which is a subfield of Artificial Intelligence. Its purpose is to retrieve important information out of large collections of data. The specific domain that concentrates on text-data and the extraction of short summaries is called automatic text summarization. A computer program that summarizes a text. The summarizer removes redundant information from the input text and produces a shorter non-redundant output text. The output text is an extract from the original text. With extract, we mean that no sentence is produced from scratch, but instead original sentences are used to form the summary. The most important sentences are chosen by application of some criteria that are specially designed to rank each sentence. The results are compared to human made summaries and to some well-known summarization programs.