Διαχωριστική ανάλυση - λογιστική παλινδρόμηση

Στην σημερινή εποχή είναι μεγάλη η ανάγκη να κατατάσσουμε παρατηρήσεις σε γνωστές ομάδες - πληθυσμούς καθώς επίσης και να κάνουμε προβλέψεις. Υπάρχουν πολλές μέθοδοι που κάνουν ή σκοπό έχουν να κατατάσσουν παρατηρήσεις. Στην διπλωματική εργασία περιγράφω δυο από τις σημαντικότερες μεθόδους που χ...

Full description

Bibliographic Details
Main Author: Χουντής, Βασίλειος
Other Authors: Αλεβίζος, Φίλιππος
Language:gr
Published: 2010
Subjects:
Online Access:http://nemertes.lis.upatras.gr/jspui/handle/10889/3287
id ndltd-upatras.gr-oai-nemertes-10889-3287
record_format oai_dc
collection NDLTD
language gr
sources NDLTD
topic Διαχωριστική ανάλυση
Λογιστική παλινδρόμηση
519.5
Discriminant analysis
Logistic regression
spellingShingle Διαχωριστική ανάλυση
Λογιστική παλινδρόμηση
519.5
Discriminant analysis
Logistic regression
Χουντής, Βασίλειος
Διαχωριστική ανάλυση - λογιστική παλινδρόμηση
description Στην σημερινή εποχή είναι μεγάλη η ανάγκη να κατατάσσουμε παρατηρήσεις σε γνωστές ομάδες - πληθυσμούς καθώς επίσης και να κάνουμε προβλέψεις. Υπάρχουν πολλές μέθοδοι που κάνουν ή σκοπό έχουν να κατατάσσουν παρατηρήσεις. Στην διπλωματική εργασία περιγράφω δυο από τις σημαντικότερες μεθόδους που χρησιμοποιούνται ευρέως στην στατιστική, την διαχωριστική ανάλυση (discriminant analysis) και την λογιστική παλινδρόμηση (logistic regression). Στο πρώτο μέρος αναφέρω τι είναι η διαχωριστική ανάλυση, δίνω συνοπτικά μερικές εφαρμογές της μεθόδου και περιγράφω την διαφορά από την ανάλυση σε συστάδες. Στην συνέχεια αναλύω τον διαχωρισμό δυο πληθυσμών που ακολουθούν την κανονική κατανομή και τα κριτήρια που πρέπει να λάβουμε υπόψη. Στόχος μας είναι να κατασκευάσουμε μια συνάρτηση που θα διαχωρίζει όσο το δυνατόν καλύτερα τους δυο πληθυσμούς. Πρέπει να σημειώσουμε ότι δεν υπάρχει τέλειος διαχωρισμός, δηλαδή ενδέχεται η συνάρτηση να κατατάσσει λανθασμένα μια παρατήρηση σε μια από τις δυο ομάδες. Για αυτό πρέπει να λάβουμε υπόψη τα κόστη λανθασμένης κατάταξης και τις εκ των προτέρων πιθανότητες. Ο βέλτιστος διαχωρισμός θα πραγματοποιηθεί αν καταφέρουμε να ελαχιστοποιήσουμε το κόστος λανθασμένης κατάταξης. Στο τμήμα 3 βρίσκω την συνάρτηση κατάταξης όταν οι δυο πληθυσμοί έχουν ίσους πίνακες διασποράς (γραμμικός κανόνας κατάταξης) αλλά και όταν έχουν άνισες διασπορές (τετραγωνικός κανόνας κατάταξης). Εφόσον, έχω φτιάξει την συνάρτηση κατάταξης το επόμενο βήμα είναι να την αξιολογήσω. Περιγράφω δυο τρόπους αξιολόγησης (επικύρωσης), τον υπολογισμό του ρυθμού σφάλματος και την holdout διαδικασία. Στο τμήμα 5 αναφέρω την διαχωριστική ανάλυση του Fisher, τι υποθέσεις έκανε και πως κατάφερε να φτάσει στην ίδια συνάρτηση κατάταξης. Στην συνέχεια κάνω μια γενίκευση της διαχωριστικής ανάλυσης αν έχω g πληθυσμούς και δίνω το νέο τύπο της συνάρτησης κατάταξης όταν έχω ίσους και άνισους πίνακες διασποράς (γραμμικό – τετραγωνικό διαχωριστικό σκορ). Ερμηνεύω γεωμετρικά το γραμμικό διαχωριστικό σκορ. Στο τελευταίο τμήμα μελετάω την μέθοδο του Fisher όταν έχω g πληθυσμούς και αποδεικνύω μερικά θεωρήματα. Στο δεύτερος μέρος της διπλωματικής περιγράφω μια άλλη διαδικασία κατάταξης, την λογιστική παλινδρόμηση. Δίνω συνοπτικά μερικές εφαρμογές της μεθόδου και αναλύω πότε χρησιμοποιούμε αυτή την μέθοδο. Ξεκινώντας από το απλό γραμμικό μοντέλο παλινδρόμησης , αναφέρω τα προβλήματα που έχουμε τώρα που η μεταβλητή είναι δυαδική και πως τα αντιμετωπίζουμε, καταλήγοντας στην μορφή που έχει η απλή λογιστική συνάρτηση. Περιγράφω τις ιδιότητες της λογιστικής αποκρινόμενης συνάρτησης και πως προσαρμόζουμε το λογιστικό μοντέλο παλινδρόμησης χρησιμοποιώντας τους εκτιμητές μέγιστης πιθανοφάνειας. Κατόπιν δίνω την ερμηνεία του συντελεστή παλινδρόμησης και δίνω την μορφή της λογαριθμικής συνάρτησης πιθανοφάνειας όταν έχω επαναλαμβανόμενες παρατηρήσεις. Στο τμήμα 4 περιγράφω το πολλαπλό λογιστικό μοντέλο παλινδρόμησης και στο τμήμα 5 πως κατασκευάζεται το μοντέλο. Ελέγχω αν μπορούμε να παραλείψουμε μερικές προβλέπουσες μεταβλητές, χρησιμοποιώντας ένα στατιστικό που λέγεται μοντέλο απόκλισης, αλλά και από τον έλεγχο του λόγου πιθανοφάνειας. Προτού όμως χρησιμοποιήσω το μοντέλο στην πράξη εξετάζω την καταλληλότητα του, δηλαδή αν ικανοποιεί τις ιδιότητες της λογιστικής αποκρινόμενης συνάρτησης και αναζητώ τα outliers και τις παρατηρήσεις που έχουν την μεγαλύτερη επιρροή. Στα τμήματα 7 και 8 περιγράφω τα συμπεράσματα για τις παραμέτρους της λογιστικής παλινδρόμησης και για τον αποκρινόμενο μέσο, ενώ στο τμήμα 9 αναφέρω πως γίνεται η πρόβλεψη καινούριων παρατηρήσεων. Τελειώνοντας αναφέρω την πολύτομη λογιστική παλινδρόμηση και περιγράφω συνοπτικά τις ομοιότητες- διαφορές της διαχωριστικής ανάλυσης και της λογιστικής παλινδρόμησης. === -
author2 Αλεβίζος, Φίλιππος
author_facet Αλεβίζος, Φίλιππος
Χουντής, Βασίλειος
author Χουντής, Βασίλειος
author_sort Χουντής, Βασίλειος
title Διαχωριστική ανάλυση - λογιστική παλινδρόμηση
title_short Διαχωριστική ανάλυση - λογιστική παλινδρόμηση
title_full Διαχωριστική ανάλυση - λογιστική παλινδρόμηση
title_fullStr Διαχωριστική ανάλυση - λογιστική παλινδρόμηση
title_full_unstemmed Διαχωριστική ανάλυση - λογιστική παλινδρόμηση
title_sort διαχωριστική ανάλυση - λογιστική παλινδρόμηση
publishDate 2010
url http://nemertes.lis.upatras.gr/jspui/handle/10889/3287
work_keys_str_mv AT chountēsbasileios diachōristikēanalysēlogistikēpalindromēsē
_version_ 1718117743368077312
spelling ndltd-upatras.gr-oai-nemertes-10889-32872015-10-30T05:03:10Z Διαχωριστική ανάλυση - λογιστική παλινδρόμηση Χουντής, Βασίλειος Αλεβίζος, Φίλιππος Αλεβίζος, Φίλιππος Κουρούκλης, Σταύρος Πετρόπουλος, Κωνσταντίνος Διαχωριστική ανάλυση Λογιστική παλινδρόμηση 519.5 Discriminant analysis Logistic regression Στην σημερινή εποχή είναι μεγάλη η ανάγκη να κατατάσσουμε παρατηρήσεις σε γνωστές ομάδες - πληθυσμούς καθώς επίσης και να κάνουμε προβλέψεις. Υπάρχουν πολλές μέθοδοι που κάνουν ή σκοπό έχουν να κατατάσσουν παρατηρήσεις. Στην διπλωματική εργασία περιγράφω δυο από τις σημαντικότερες μεθόδους που χρησιμοποιούνται ευρέως στην στατιστική, την διαχωριστική ανάλυση (discriminant analysis) και την λογιστική παλινδρόμηση (logistic regression). Στο πρώτο μέρος αναφέρω τι είναι η διαχωριστική ανάλυση, δίνω συνοπτικά μερικές εφαρμογές της μεθόδου και περιγράφω την διαφορά από την ανάλυση σε συστάδες. Στην συνέχεια αναλύω τον διαχωρισμό δυο πληθυσμών που ακολουθούν την κανονική κατανομή και τα κριτήρια που πρέπει να λάβουμε υπόψη. Στόχος μας είναι να κατασκευάσουμε μια συνάρτηση που θα διαχωρίζει όσο το δυνατόν καλύτερα τους δυο πληθυσμούς. Πρέπει να σημειώσουμε ότι δεν υπάρχει τέλειος διαχωρισμός, δηλαδή ενδέχεται η συνάρτηση να κατατάσσει λανθασμένα μια παρατήρηση σε μια από τις δυο ομάδες. Για αυτό πρέπει να λάβουμε υπόψη τα κόστη λανθασμένης κατάταξης και τις εκ των προτέρων πιθανότητες. Ο βέλτιστος διαχωρισμός θα πραγματοποιηθεί αν καταφέρουμε να ελαχιστοποιήσουμε το κόστος λανθασμένης κατάταξης. Στο τμήμα 3 βρίσκω την συνάρτηση κατάταξης όταν οι δυο πληθυσμοί έχουν ίσους πίνακες διασποράς (γραμμικός κανόνας κατάταξης) αλλά και όταν έχουν άνισες διασπορές (τετραγωνικός κανόνας κατάταξης). Εφόσον, έχω φτιάξει την συνάρτηση κατάταξης το επόμενο βήμα είναι να την αξιολογήσω. Περιγράφω δυο τρόπους αξιολόγησης (επικύρωσης), τον υπολογισμό του ρυθμού σφάλματος και την holdout διαδικασία. Στο τμήμα 5 αναφέρω την διαχωριστική ανάλυση του Fisher, τι υποθέσεις έκανε και πως κατάφερε να φτάσει στην ίδια συνάρτηση κατάταξης. Στην συνέχεια κάνω μια γενίκευση της διαχωριστικής ανάλυσης αν έχω g πληθυσμούς και δίνω το νέο τύπο της συνάρτησης κατάταξης όταν έχω ίσους και άνισους πίνακες διασποράς (γραμμικό – τετραγωνικό διαχωριστικό σκορ). Ερμηνεύω γεωμετρικά το γραμμικό διαχωριστικό σκορ. Στο τελευταίο τμήμα μελετάω την μέθοδο του Fisher όταν έχω g πληθυσμούς και αποδεικνύω μερικά θεωρήματα. Στο δεύτερος μέρος της διπλωματικής περιγράφω μια άλλη διαδικασία κατάταξης, την λογιστική παλινδρόμηση. Δίνω συνοπτικά μερικές εφαρμογές της μεθόδου και αναλύω πότε χρησιμοποιούμε αυτή την μέθοδο. Ξεκινώντας από το απλό γραμμικό μοντέλο παλινδρόμησης , αναφέρω τα προβλήματα που έχουμε τώρα που η μεταβλητή είναι δυαδική και πως τα αντιμετωπίζουμε, καταλήγοντας στην μορφή που έχει η απλή λογιστική συνάρτηση. Περιγράφω τις ιδιότητες της λογιστικής αποκρινόμενης συνάρτησης και πως προσαρμόζουμε το λογιστικό μοντέλο παλινδρόμησης χρησιμοποιώντας τους εκτιμητές μέγιστης πιθανοφάνειας. Κατόπιν δίνω την ερμηνεία του συντελεστή παλινδρόμησης και δίνω την μορφή της λογαριθμικής συνάρτησης πιθανοφάνειας όταν έχω επαναλαμβανόμενες παρατηρήσεις. Στο τμήμα 4 περιγράφω το πολλαπλό λογιστικό μοντέλο παλινδρόμησης και στο τμήμα 5 πως κατασκευάζεται το μοντέλο. Ελέγχω αν μπορούμε να παραλείψουμε μερικές προβλέπουσες μεταβλητές, χρησιμοποιώντας ένα στατιστικό που λέγεται μοντέλο απόκλισης, αλλά και από τον έλεγχο του λόγου πιθανοφάνειας. Προτού όμως χρησιμοποιήσω το μοντέλο στην πράξη εξετάζω την καταλληλότητα του, δηλαδή αν ικανοποιεί τις ιδιότητες της λογιστικής αποκρινόμενης συνάρτησης και αναζητώ τα outliers και τις παρατηρήσεις που έχουν την μεγαλύτερη επιρροή. Στα τμήματα 7 και 8 περιγράφω τα συμπεράσματα για τις παραμέτρους της λογιστικής παλινδρόμησης και για τον αποκρινόμενο μέσο, ενώ στο τμήμα 9 αναφέρω πως γίνεται η πρόβλεψη καινούριων παρατηρήσεων. Τελειώνοντας αναφέρω την πολύτομη λογιστική παλινδρόμηση και περιγράφω συνοπτικά τις ομοιότητες- διαφορές της διαχωριστικής ανάλυσης και της λογιστικής παλινδρόμησης. - 2010-07-07T06:15:46Z 2010-07-07T06:15:46Z 2009 2010-07-07T06:15:46Z Thesis http://nemertes.lis.upatras.gr/jspui/handle/10889/3287 gr Η ΒΥΠ διαθέτει αντίτυπο της διατριβής σε έντυπη μορφή στο βιβλιοστάσιο διδακτορικών διατριβών που βρίσκεται στο ισόγειο του κτιρίου της. 6