Hinweis zum Urheberrecht
Dissertation zugänglich unter
URN: urn:nbn:de:bvb:29-opus-7219
URL: http://www.opus.ub.uni-erlangen.de/opus/volltexte/2007/721/
Produktberatung mittels Informationsextraktion aus dem Internet
Schmidt, Sebastian





| SWD-Schlagwörter: |
| Expertensystem , Text Mining , Data Mining , Information Extraction , Empfehlungssystem |
| Fakultät: |
| Technische Fakultät |
| Fakultät: |
| Technische Fakultät |
| DDC-Sachgruppe: |
| Informatik |
| Dokumentart: |
| Dissertation |
| Hauptberichter: |
| Stoyan, Herbert (Prof.Dr.) |
| Sprache: |
| Deutsch |
| Tag der mündlichen Prüfung: |
| 19.10.2007 |
| Erstellungsjahr: |
| 2007 |
| Publikationsdatum: |
| 25.10.2007 |
| Kurzfassung in Deutsch: |
| In dieser Dissertation werden Verfahren der Informationsextraktion aus Webseiten vor-gestellt, welche auf die Problemstellung der Produktberatung angewendet werden können. Das Hauptaugenmerk bei den Verfahren liegt auf einer möglichst geringen manuell zu füllenden Wissensrepräsentation, um in dynamischen Produktdomänen geeignet zu sein. Um die Notwendigkeit einer möglichst automatischen Wissensextrak-tion zu unterstreichen, werden mögliche klassische Herangehensweisen wie wissens-basierte Systeme, statistische und präferenzbasierte Verfahren vorgestellt und auf ihre Eignung bezüglich des Beratungsproblems untersucht.
Die Produktberatung wird zunächst in einzelne Teilprobleme untergliedert, nämlich Merkmalsextraktion, Diagnose, Instanzextraktion und Meinungsextraktion. Für das Gebiet der Merkmalsextraktion existiert bereits eine Reihe von Algorithmen, die Er-rungenschaft dieser Arbeit besteht in der Verbesserung der Extraktionsqualität durch Verwendung von Heuristiken, die bei technischen Produkten allgemeine Anwendung finden können. Die Heuristiken machen sich zunutze, dass die Eigenschaften techni-scher Produkte durch Zahlenwerte quantifiziert sind und diese Zahlenwerte vergleichs-weise einfach syntaktisch zu ermitteln sind. Ausgehend von dem Erkennen von Zahlen-werten können dann Rückschlüsse auf Nomen gezogen werden, welche Eigenschaften von technischen Produkten darstellen.
Die Diagnose behandelt den Problembereich des Schließens von technischen Charakte-ristika von Produkten, ausgehend von den Wünschen des Anwenders. Hierzu sehen wir Webseiten des Internets als eine Informationsquelle an, auf Basis derer solche Schlüsse realisiert werden können.
Um letztlich dem Anwender konkrete Produkte einer Domäne vorschlagen zu können, benötigt ein Beratungssystem eine Aufstellung verfügbarer Produkte. Dieses Teilproblem behandelt die Instanzextraktion. Unsere Innovation im Bereich der Instanzextraktion rührt daher, dass wir keinen uninformierten Ansatz verwenden müssen, da die Ergeb-nisse der Merkmalsextraktion eine auszufüllende Schablone bereitstellen. Gegenüber ontologiebasierten Verfahren bietet sich der Vorteil, dass unsere Domänenbeschreibung automatisch erzeugt wird, wenn auch die Komplexität der Domänenbeschreibung den manuellen Möglichkeiten hinterher hinkt. Die Instanzextraktion ist in unserem Fall durch die Eingrenzung auf die Produktdomänen durch die Verwendung domänenspezi-fischer Heuristiken weitaus mächtiger als allgemeine strukturbasierte Extraktion, da unsere Ergebnisse durch die Normierung von beispielsweise extrahierten Zahlen weiter verarbeitet und interpretiert werden können.
Im Bereich der Meinungsextraktion liefert diese Dissertation gegenüber verfügbaren Verfahren die kleinste Innovation. Ein bereits erfolgreiches Verfahren für englischspra-chige Texte wurde von uns auf deutschsprachige Texte angepasst.
|
| Kurzfassung in Englisch: |
| This thesis describes new approaches for extracting information from web sites, which are tailored towards a product recommendation system. An important property of these approaches is the necessity of as little manual knowledge representation as possible, because of highly dynamic product domains. To discuss this property further, we pre-sent classical approaches like knowledge-based systems, statistical and preference-oriented methods and analyze these towards the usability for a product recommendation system.
First of all, we divide the problem of product recommendation into sub problems, which are feature extraction, diagnosis, instance extraction and opinion extraction. In the field of feature extraction, there are already algorithms available. The improvement of this thesis lies in the enhancement of the quality of extraction, which is achieved by the usage of heuristics, which can be generally used for extracting information about techni-cal products. The heuristics exploit that features of technical products are quantified by numbers. Numbers can be relatively easily syntactically detected. Based on the detection of numbers, nouns can be identified that are feature names of products.
The part of the diagnosis deals with the problem of inferring technical characteristics of products that suit the needs of an user. We use web sites as our primary source of in-formation which can be used to draw such conclusions.
To recommend an user concrete products of a domain, the recommendation system needs a compilation of available products. This sub problem is solved by instance ex-traction. Our innovation in the field of template filling lies in the combination of feature extraction to form a template with the template filling itself to avoid a manual formula-tion of an ontology. The extracted description of the domain is simple but can not com-pete with the possibilities of manual ontologies. The process of template filling is opti-mized towards product extraction by using heuristics that can be applied in this domain. Thus the extraction quality is higher compared to approaches that only exploit structural properties of web sites. The template filling is also not uninformed, because the ex-tracted numbers are normalised, can be compared and thus be further processed and interpreted.
Compared to already known approaches in the field of opinion extraction, this part of the thesis is less innovative. An already known approach is converted and tested to-wards the extraction of German product opinions.
|