[Back]


Diploma and Master Theses (authored and supervised):

Th. Zwierschitz:
"An Extensible and Configurable Record Linkage Framework";
Supervisor: R. Pichler, R. Baumgartner; Institut für Informationssysteme, Arbeitsbereich Datenbanken & Artificial Intelligence, 2008; final examination: 10-07-2008.



English abstract:
The electronic data representation of real objects differs from system to system. Especially obvious gets this fact in the World Wide Web, where information of different themes, from different countries, in different languages is offered.
There exist different methodologies to use this great amount of information automatically. In order to process data concerning a specific theme meaningfully, it is necessary to uniform inhomogeneous data ("Apples and pears can`t be compared"). Only through this uniform representation of different data it is possible to face relevant information.
The task of Record Linkage is to compare different representation of data and to identify equal or similar objects and merge them.
The WEB Data Extraction process of LIXTO provides data from different internet pages. The Record Linkage Prototype, described in this document, shall uniform and compare the extracted data. In order to adapt the Linkage Process to the variety of the information offered in the internet, it is necessary that the prototype can be configured and possibly extended.

German abstract:
Die elektronische Datenrepresentation von realen Objekten ist von System zu System unterschiedlich. Besonders deutlich wird diese Tatsache im World Wide Web, wo Informationen aus verschiedensten Themenbereichen, aus verschiedenen Ländern, in verschiedenen Sprachen angeboten werden.
Es gibt verschiedenste Entwicklungen diese Fülle an Informationen automatisch zu nutzen. Um die Informationen zu einem bestimmten Thema sinnvoll verarbeiten zu können, ist es notwendig, das inhomogene Datenangebot zu vereinheitlichen, um nicht Apfel mit Birnen zu vergleichen. Nur durch die einheitliche Darstellung der unterschiedlichen Daten ist es möglich, relevante Informationen einander gegenüber zu stellen.
Die Aufgabe von Record Linkage ist es, unterschiedliche Datenrepresentationen zu vergleichen und gleiche oder ähnliche Objekte identifizieren und zusammenzuführen.
Der WEB Daten Extraktionsprozess von LIXTO liefert Daten von den verschiedensten Internet Seiten. Der in dieser Arbeit beschriebene Record Linkage Prototyp soll die extrahierten Daten vereinheitlichen und miteinander vergleichen. Um den Linkage Prozess an die Vielseitigkeit der im Internet angebotenen Informationen anzupassen, ist es notwendig, den Prototyp konfigurieren und eventuell erweitern zu können.

Created from the Publication Database of the Vienna University of Technology.