空間壓縮下搜尋近似字串的索引 : 從理論到實作

碩士 === 國立清華大學 === 資訊工程學系 === 97 === 中文摘要 假定我們有一個長度為n的文字字串T, 以及長度為m的比對字串P, 兩者的字元皆是由 一固定的字元範圍A中選出。在k-difference approximate matching 的問題裡, 我們 希望能找出P在T中出現的位置, 而且它的edit distance 最多為k。也就是說, 我們找 出在T中, 與P的edit distance 小於k 的地方。在這篇論文當中, 我們提出了一個新 的索引方法, 使得我們對於任何的字串T以及P, 都能有效率的解決上述的問題。我們 的索引方法是建立於suffix array...

Full description

Bibliographic Details
Main Authors: Wu, Bor-Ru, 吳柏儒
Other Authors: Hon, Wing-Kai
Format: Others
Language:en_US
Online Access:http://ndltd.ncl.edu.tw/handle/37390199193846053505
Description
Summary:碩士 === 國立清華大學 === 資訊工程學系 === 97 === 中文摘要 假定我們有一個長度為n的文字字串T, 以及長度為m的比對字串P, 兩者的字元皆是由 一固定的字元範圍A中選出。在k-difference approximate matching 的問題裡, 我們 希望能找出P在T中出現的位置, 而且它的edit distance 最多為k。也就是說, 我們找 出在T中, 與P的edit distance 小於k 的地方。在這篇論文當中, 我們提出了一個新 的索引方法, 使得我們對於任何的字串T以及P, 都能有效率的解決上述的問題。我們 的索引方法是建立於suffix array 以及inverse suffix array 的基礎觀念, 再結合了一 個suffix sampling 的新技巧, 達到壓縮空間的效果。這個索引方法使用的空間複雜度 為O(n log |A|) bits, 時間複雜度為O(|A|mlog n+occ log n), 其中occ指的是P在T中 出現的次數。除此之外, 我們將前人提出過的兩種索引方法, 與我們的索引方法進行比 較, 看看實際上的表現會是如何。而實驗的結果發現, 在許多不同的情形之下, 我們的索 引方法會是最好的選擇。