資料採礦中之模型選取

有賴電腦的輔助,企業或組織內部所存放的資料量愈來愈多,加速資料量擴大的速度。但是大量的資料帶來的未必是大量的知識,即使擁有功能強大的資料庫系統,倘若不對資料作有意義的分析與推論,再大的資料庫也只是存放資料的空間。過去企業或組織只把資料庫當作查詢系統,並不知道可以藉由資料庫獲取有價值的資訊,而其中資料庫的內容完整與否更是重要。由於企業所擁有的資料庫未必健全,雖然擁有龐大資料庫,但是其中資訊未必足夠。我們認為利用資料庫加值方法:插補方法、抽樣方法、模型評估等步驟,以達到擴充資訊的目的,應該可以在不改變原始資料結構之下增加資料庫訊息。 本研究主要在比較不同階段的資料經過加值動作後,是...

Full description

Bibliographic Details
Main Author: 孫莓婷
Language:中文
Published: 國立政治大學
Subjects:
Online Access:http://thesis.lib.nccu.edu.tw/cgi-bin/cdrfb3/gsweb.cgi?o=dstdcdr&i=sid=%22G0923540243%22.
Description
Summary:有賴電腦的輔助,企業或組織內部所存放的資料量愈來愈多,加速資料量擴大的速度。但是大量的資料帶來的未必是大量的知識,即使擁有功能強大的資料庫系統,倘若不對資料作有意義的分析與推論,再大的資料庫也只是存放資料的空間。過去企業或組織只把資料庫當作查詢系統,並不知道可以藉由資料庫獲取有價值的資訊,而其中資料庫的內容完整與否更是重要。由於企業所擁有的資料庫未必健全,雖然擁有龐大資料庫,但是其中資訊未必足夠。我們認為利用資料庫加值方法:插補方法、抽樣方法、模型評估等步驟,以達到擴充資訊的目的,應該可以在不改變原始資料結構之下增加資料庫訊息。 本研究主要在比較不同階段的資料經過加值動作後,是否還能與原始資料結構一致。研究架構大致分成三個主要流程,包括迴歸模型、羅吉斯迴歸模型與決策樹C5.0。經過不同階段的資料加值後,我們所獲得的結論為在迴歸模型為主要流程之下,利用迴歸為主的插補方法可以使加值後的資料庫較貼近原始資料,若想進一步採用抽樣方法縮減資料量,系統抽樣所獲得的結果會比利用簡單隨機抽樣來的好。而在決策樹C5.0的主要流程下,以類神經演算法作為插補的主要方法,在提增資訊量的同時,也使插補後的資料更接近原始資料。關於羅吉斯迴歸模型,由於間斷型變數的類別比例差異過大,致使此流程無法達到有效結論。 經由實證分析可以瞭解不同的配模方式,表現較佳的資料庫加值技術也不盡相同,但是與未插補的資料庫相比較,利用資料庫加值技術的確可以增加資訊量,使加值後的虛擬資料庫更貼近原始資料結構。 === With the fast pace of advancement in computer technology, computers have the capacity to store huge amount of data. The abundance of the data, without its proper treatment, does not necessary mean having valuable information on hand. As such, a large database system can merely serve as ways of accessing and storing. Keeping this in mind, we would like to focus on the integrity of the database. We adapt the methods where the missing values are imputed and added while leaving the data structure unmodified. The interest of this paper is to find out when the data are post value added using three different imputation methods, namely regression analysis, logistic regression analysis and C5.0 decision tree, which of the methods could provide the most consistent and resemblance value-added database to the original one. The results this paper has obtained are as the followings. The regression method, after imputation of the added value, produced the closer database structure to the original one. And in the case of having large amount of data where the smaller size of data is desired, then the systematic sampling provides a better outcome than the simple random sampling. The C5.0 decision tree method provides similar result as with the regression method. Finally with respect to the logistic regression analysis, the ratio of each class in the discrete variables is out of proportion, thereby making it difficult to make a reasonable conclusion. After going through the above studies, we have found that although the results from three different methods give slight different outcomes, one thing stands out and that is using the technique of value-added database could actually improve the authentic of the original database.