Advancing the discovery of unique column combinations

Unique column combinations of a relational database table are sets of columns that contain only unique values. Discovering such combinations is a fundamental research problem and has many different data management and knowledge discovery applications. Existing discovery algorithms are either brute f...

Full description

Bibliographic Details
Main Authors: Abedjan, Ziawasch, Naumann, Felix
Format: Others
Language:English
Published: Universität Potsdam 2011
Subjects:
Online Access:http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-53564
http://opus.kobv.de/ubp/volltexte/2011/5356/
id ndltd-Potsdam-oai-kobv.de-opus-ubp-5356
record_format oai_dc
spelling ndltd-Potsdam-oai-kobv.de-opus-ubp-53562013-01-08T00:44:43Z Advancing the discovery of unique column combinations Abedjan, Ziawasch Naumann, Felix Apriori eindeutig funktionale Abhängigkeit Schlüsselentdeckung Data Profiling apriori unique functional dependency key discovery data profiling Data processing Computer science Unique column combinations of a relational database table are sets of columns that contain only unique values. Discovering such combinations is a fundamental research problem and has many different data management and knowledge discovery applications. Existing discovery algorithms are either brute force or have a high memory load and can thus be applied only to small datasets or samples. In this paper, the wellknown GORDIAN algorithm and "Apriori-based" algorithms are compared and analyzed for further optimization. We greatly improve the Apriori algorithms through efficient candidate generation and statistics-based pruning methods. A hybrid solution HCAGORDIAN combines the advantages of GORDIAN and our new algorithm HCA, and it significantly outperforms all previous work in many situations. Unique-Spaltenkombinationen sind Spaltenkombinationen einer Datenbanktabelle, die nur einzigartige Werte beinhalten. Das Finden von Unique-Spaltenkombinationen spielt sowohl eine wichtige Rolle im Bereich der Grundlagenforschung von Informationssystemen als auch in Anwendungsgebieten wie dem Datenmanagement und der Erkenntnisgewinnung aus Datenbeständen. Vorhandene Algorithmen, die dieses Problem angehen, sind entweder Brute-Force oder benötigen zu viel Hauptspeicher. Deshalb können diese Algorithmen nur auf kleine Datenmengen angewendet werden. In dieser Arbeit werden der bekannte GORDIAN-Algorithmus und Apriori-basierte Algorithmen zum Zwecke weiterer Optimierung analysiert. Wir verbessern die Apriori Algorithmen durch eine effiziente Kandidatengenerierung und Heuristikbasierten Kandidatenfilter. Eine Hybride Lösung, HCA-GORDIAN, kombiniert die Vorteile von GORDIAN und unserem neuen Algorithmus HCA, welche die bisherigen Algorithmen hinsichtlich der Effizienz in vielen Situationen übertrifft. Universität Potsdam An-Institute. Hasso-Plattner-Institut für Softwaresystemtechnik GMBH 2011 Book application/pdf urn:nbn:de:kobv:517-opus-53564 http://opus.kobv.de/ubp/volltexte/2011/5356/ eng http://opus.kobv.de/ubp/doku/urheberrecht.php
collection NDLTD
language English
format Others
sources NDLTD
topic Apriori
eindeutig
funktionale Abhängigkeit
Schlüsselentdeckung
Data Profiling
apriori
unique
functional dependency
key discovery
data profiling
Data processing Computer science
spellingShingle Apriori
eindeutig
funktionale Abhängigkeit
Schlüsselentdeckung
Data Profiling
apriori
unique
functional dependency
key discovery
data profiling
Data processing Computer science
Abedjan, Ziawasch
Naumann, Felix
Advancing the discovery of unique column combinations
description Unique column combinations of a relational database table are sets of columns that contain only unique values. Discovering such combinations is a fundamental research problem and has many different data management and knowledge discovery applications. Existing discovery algorithms are either brute force or have a high memory load and can thus be applied only to small datasets or samples. In this paper, the wellknown GORDIAN algorithm and "Apriori-based" algorithms are compared and analyzed for further optimization. We greatly improve the Apriori algorithms through efficient candidate generation and statistics-based pruning methods. A hybrid solution HCAGORDIAN combines the advantages of GORDIAN and our new algorithm HCA, and it significantly outperforms all previous work in many situations. === Unique-Spaltenkombinationen sind Spaltenkombinationen einer Datenbanktabelle, die nur einzigartige Werte beinhalten. Das Finden von Unique-Spaltenkombinationen spielt sowohl eine wichtige Rolle im Bereich der Grundlagenforschung von Informationssystemen als auch in Anwendungsgebieten wie dem Datenmanagement und der Erkenntnisgewinnung aus Datenbeständen. Vorhandene Algorithmen, die dieses Problem angehen, sind entweder Brute-Force oder benötigen zu viel Hauptspeicher. Deshalb können diese Algorithmen nur auf kleine Datenmengen angewendet werden. In dieser Arbeit werden der bekannte GORDIAN-Algorithmus und Apriori-basierte Algorithmen zum Zwecke weiterer Optimierung analysiert. Wir verbessern die Apriori Algorithmen durch eine effiziente Kandidatengenerierung und Heuristikbasierten Kandidatenfilter. Eine Hybride Lösung, HCA-GORDIAN, kombiniert die Vorteile von GORDIAN und unserem neuen Algorithmus HCA, welche die bisherigen Algorithmen hinsichtlich der Effizienz in vielen Situationen übertrifft.
author Abedjan, Ziawasch
Naumann, Felix
author_facet Abedjan, Ziawasch
Naumann, Felix
author_sort Abedjan, Ziawasch
title Advancing the discovery of unique column combinations
title_short Advancing the discovery of unique column combinations
title_full Advancing the discovery of unique column combinations
title_fullStr Advancing the discovery of unique column combinations
title_full_unstemmed Advancing the discovery of unique column combinations
title_sort advancing the discovery of unique column combinations
publisher Universität Potsdam
publishDate 2011
url http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-53564
http://opus.kobv.de/ubp/volltexte/2011/5356/
work_keys_str_mv AT abedjanziawasch advancingthediscoveryofuniquecolumncombinations
AT naumannfelix advancingthediscoveryofuniquecolumncombinations
_version_ 1716500864653328384