Hinweis zum Urheberrecht
Dissertation zugänglich unter
URN: urn:nbn:de:bvb:29-opus-614
URL: http://www.opus.ub.uni-erlangen.de/opus/volltexte/2004/61/
Eine wissensbasierte Benutzerschnittstelle für das invisible data mining
A knowledge-based user interface for invisible data mining
Hogl, Oliver Mathias Johannes





| SWD-Schlagwörter: |
| Data Mining , Mensch-Maschine-Schnittstelle , Wissensbasiertes System , Abfragesprache |
| Freie Schlagwörter (Deutsch): |
| Natürlichsprachlicher Zugang |
| Freie Schlagwörter (Englisch): |
| Knowledge Discovery |
| Fakultät: |
| Technische Fakultät |
| Fakultät: |
| Technische Fakultät |
| DDC-Sachgruppe: |
| Informatik |
| Dokumentart: |
| Dissertation |
| Hauptberichter: |
| Stoyan, Herbert (Prof. Dr.) |
| Sprache: |
| Deutsch |
| Tag der mündlichen Prüfung: |
| 30.10.2003 |
| Erstellungsjahr: |
| 2003 |
| Publikationsdatum: |
| 26.07.2004 |
| Kurzfassung in Deutsch: |
| Die Analyse von Daten mit Hilfe von Methoden des Data Mining ist ein wissensintensiver Bereich, der aufgrund seiner hohen Anforderungen bislang vor allem Experten des Data Mining vorbehalten war. Fachexperten aus Bereichen wie Qualitätsmanagement, Marketing und Produktion als die eigentlichen Nutznießer dieser Technologie stehen häufig vor dem Problem, dass sie auf eine umfassende Beratung oder gar auf die vollständige Durchführung der Datenanalyse durch Data-Mining-Experten angewiesen sind. Diese Problematik ist groß genug, dass sie eine weitere Verbreitung der innovativen Data-Mining-Technologien wenn nicht verhindert dann doch stark einschränkt.
Vor dieser Problemstellung beschreiben wir in dieser Arbeit einen Ansatz für die Unterstützung von Fachexperten beim Data Mining, der sie in die Lage versetzen kann, Analysen einer gewissen Komplexität selbst und ohne Hilfe von außen durchzuführen. Als Hauptaspekt unseres Ansatzes, den wir auch als Invisible Data Mining bezeichnen, tritt die Methodik des Data Mining mit ihren Anforderungen in den Hintergrund und wird sozusagen für den Benutzer unsichtbar. Stattdessen erlaubt der Ansatz dem Benutzer die Kommunikation mittels zweier einfacher Konzepte, die ihm als Grundmittel des Erwerbs von Wissen vertraut sind: Fragen und Antworten, formuliert in der jeweiligen Fachsprache.
Auf der Basis eines Modells von Sprachebenen bei der Entdeckung von Wissen in Datenbanken entwickeln wir in dieser Arbeit eine Sprache für die Beschreibung der natürlichsprachlichen Fragen, die von Fachexperten bei der Datenanalyse formuliert werden. Diese Sprache, die wir Knowledge Discovery Question Language nennen, setzt sich aus bis zu fünf komplexen Elementen zusammen und wird detailliert mit ihrer Syntax und Semantik beschrieben.
Fragen, die in der Knowledge Discovery Question Language formuliert sind, können unter Einsatz von umfangreichem Domänenwissen zunächst verfeinert und dann in formale Data-Mining-Anfragen übersetzt werden. Dabei werden unter Berücksichtigung ihrer Einsatzbedingungen, Ergebniseigenschaften sowie weiteren Merkmalen und anfangs unabhängig von konkreten Implementierungen Data-Mining-Methoden und -Algorithmen ausgewählt und parametrisiert, die für die Beantwortung der Frage geeignet sind. Im letzten Schritt erfolgt die Anpassung an die Anforderungen einer gegebenen Implementierung eines Data-Mining-Algorithmus. Aus den Ergebnissen, die von den Algorithmen geliefert werden, können wieder Antworten in der Fachsprache des Experten generiert werden.
Das für den Ansatz benötigte Wissen ist in einer komplexen Wissensbasis beschrieben, die über drei Spezialisierungsstufen modular aufgebaut ist. Durch diese Trennung von allgemeinem, domänenspezifischem und unternehmens- bzw. anwenderspezifischem Wissen wird die Übertragbarkeit des Ansatzes, z.B. von der Konzeptions- und Evaluierungsdomäne des medizinischen Qualitätsmanagements auf andere Anwendungsbereiche, erleichtert.
Der vorliegende Ansatz zur Benutzerunterstützung wurde in einem Assistenzsystem für das Data Mining prototypisch implementiert. Damit können Datenanalysen unter Verwendung der Technologie des Data Mining erstmals von Fachexperten selbst durchgeführt werden. |
| Kurzfassung in Englisch: |
| Data analysis based on methods of data mining is a knowledge intensive task, which due to its high demands on technical knowledge has been left to data mining experts. Experts from domains such as quality management, marketing and production who will eventually reap the benefits of this technology often depend on expensive data mining experts to give advice or even to let them carry out the analyses themselves. The problematic nature of this dependency is strong enough to limit the further spreading of data mining technologies.
Against this background, this work describes an approach for the support of domain experts, which can enable them to carry out analyses of a certain complexity without any help from other parties. As a main feature of our approach, the methodology of data mining with its high knowledge demands retreats into the background and becomes so to speak invisible. Instead the approach allows domain users to communicate using two simple concepts, which are all too familiar to him as basic means of knowledge acquisition: questions and answers, expressed in their very own technical language.
Based on a level model of language levels in the area of knowledge discovery in databases, we develop a language for the description of natural language questions, which are being expressed by domain experts during data analysis. This language, which we call Knowledge Discovery Question Language, is composed of up to five complex elements and will be described by its syntax and semantics in detail.
Questions formulated in KDQL can be initially refined and translated into formal data mining queries using extensive domain knowledge. This implies the selection of data mining methods and algorithms to answer the question under consideration of their deployment criteria, result properties as well as other characteristic features and is performed independently from concrete implementations of algorithms. In a final step the adaptation to the specific needs of a given implementation is carried out. Using the results of the algorithms, answers in the technical language of domain experts can be generated.
The knowledge which is required for the approach is described in a complex knowledge base, which is structured over three levels of specialization. By this separation of common, domain specific and user or company specific knowledge the portability of our approach from our evaluation domain of medical quality management to other domains is made easier.
The approach for user support in hand has been prototypically implemented in an assistance system for data mining. With it data analyses using data mining technology for the first time can be carried out by domain experts themselves. |