| Eingang zum Volltext | ||||||||||||||||||||||||||||||||||
Hinweis zum Urheberrecht Bitte beziehen Sie sich beim Zitieren dieses Dokumentes immer auf folgende URN: urn:nbn:de:bvb:29-opus-774 URL: http://www.opus.ub.uni-erlangen.de/opus/volltexte/2004/77/
Ein sprachunabhängiger Ansatz zur Entwicklung deklarativer, robuster LA-Grammatiken mit einer exemplarischen Anwendung auf das Deutsche und das Englische
Kurzfassung in deutschiel dieser Arbeit ist es, eine Umgebung zur Verfügung zu stellen, mit der Grammatiken zur robusten syntaktischen Analyse freier Texte entwickelt werden können. Die enthaltene linguistische Information soll dabei gut lesbar sein, um den Bezug zu linguistischen Grammatiken und eine gute Wart- und Erweiterbarkeit sicherzustellen. Dazu wird in dieser Arbeit ein eigenes Grammatikmodell entwickelt und implementiert und am Beispiel von jeweils aufeinander aufbauenden Ausbaustufen einer deutschen bzw. englischen Syntaxgrammatik illustriert. Der Grammatikformalismus Als Ausgangsbasis dient das Grammatikmodell der linksassoziativen Grammatik (LAG), das auf dem Prinzip der möglichen Fortsetzungen basiert. Durch diese besondere Berücksichtigung der linearen Struktur der Sprache ist der Analyseprozess von LAGs inhärent inkrementell. Aufbauend auf der LAG wird das spezialisierte Grammatikmodell der LLAG (Loom-LAG, oder Webstuhl-LAG) definiert. Unter Erhalt der Inkrementalität integriert es den linguistisch motivierten Satzgliedbegriff sowie das linguistische Konzept der Topologie (Satzstruktur, Satzgliedstellung) in den Rahmen der LAG. Dazu unterteilt die LLAG die Syntax in die Ebene der Satzglieder und die übergeordnete Ebene der Satzstruktur. Analog zum Zusammenspiel von Morphologie und Syntax in der traditionellen LAG arbeiten Morphologie, Satzglied-Ebene und Satzstruktur-Ebene in der LLAG inkrementell verzahnt. Die Definition der LLAG trennt außerdem sprachpezifische von sprachübergreifenden Mechanismen. Letztere werden in Form der sprachunabhängigen Webstuhlgrammatik sowie durch linguistisch motivierte Operationen, wie beispielsweise Kongruenzprüfung oder Valenzkürzen realisiert. Die sprachspezifische Information einer LLAG enthält unter anderem Beschreibungen des Aufbaus der verschiedenen Satzglied- oder Satztypen. Diese werden einzeln in Form sogenannter Pläne modelliert. Die Information über die Struktur eines Satz- oder Satzgliedtyps ist in einem einzelnen Plan gekapselt, der nur über fest spezifizierte Schnittstellen mit anderen Plänen interagiert. Die LLAG ist also von vorneherein für die Anwendung auf natürliche Sprache konzipiert worden. Die Schicht der Webstuhlgrammatik formuliert Beschreibungsmittel für allgemeine linguistische Phänomene, die die einzelnen Grammatiken dann verwenden. Daraus resultiert ein verringerter Arbeitsaufwand bei der Grammatikerstellung, eine gute Vergleichbarkeit von Grammatiken und eine Explizierung sprachlicher Universalien. Verallgemeinerungen der LAG In Rahmen der Definition der LLAG wird untersucht, inwieweit Alternativen zur traditionell von der LAG verwendeten Darstellungsform der syntaktischen Kategorie, der double-ended queue (Deque), mächtigere und lesbarere Grammatiken ermöglichen. Dies wird am Beispiel formaler Sprachen untersucht. Die traditionellen Methoden der Komplexitätsermittlung werden auf die untersuchten Darstellungsformen erweitert. Dies wird insbesondere für Attribut-Werte-Strukturen durchgeführt, da dieses Kategorieformat in den deutschen und englischen Beispielgrammatiken verwendet wird. Implementierung von Grammatiken Anhand der algebraischen Definition der LLAG wurde LIPS, ein konkretes System zur Erstellung von LLAGs, entwickelt. Es enthält zusätzliche Mittel zur expliziten Hypothesenbildung und den Umgang mit nur teilweise grammatischen Konstruktionen. Die Modellierungsmittel von LIPS werden exemplarisch an vier aufeinander aufbauenden Grammatiken für das Englische und neun für das Deutsche vorgestellt. Diese modellieren auch syntaktische Phänomene, die bisher nicht im Rahmen der LAG behandelt wurden (z.B. deutsche Partizipialgruppen oder das Attachment).
Kurzfassung in englischThis work sets out to provide a system for the development of grammars for the robust analysis of free texts. One specific aim is the transparency of the linguistic information of a given grammar in order to enable the comparison to purely linguistic grammars and also a good extesibility and maintainability of a grammar. To acomplish this, this work develops its own grammar formalism and an implementation based on it. The grammar formalism is illustrated by successively extended syntax grammars for the English and the German language. The grammar formalism The formalism of left-associative grammars (LAG) is taken as the basis for this work. LAG is based on the principle of possible continuations, thus modelling the linear nature of language and having an inherently incremental analysis process. Based on LAG, this work develops the specialised grammar formalism of the LLAG (Loom-LAG). It integrates the linguistically motivated concept of phrases as part of a sentence and the linguistic concept of topology (sentence structure, order of phrases) into the model of LAG while keeping intact the inherent incrementality. LLAG distinguishes between the syntactic layer of phrases and higher syntactic layer of sentence structure. These two levels of syntax and the level of morphology interact analogous to the incrementally interleaved interaction of morphology and syntax in traditional LAG. Furthermore the definition of LLAG separates language-specific information and language-independent information. The latter is realised as the language-independent loom-grammar that contains linguistically motivated operations, e.g. for cancelling of valencies or checking of agreement. Among others, the language-specific information of a LLAG contains the modelling of the structure of phrases or a clauses. All of these are modelled seperately in the form of plans. Each model of the structure of a specific phrase-type or clause-type is contained in a single plan which interacts with other plans through specific interfaces only. LLAG was develloped specifically for the application to natural language. The layer of the loom-grammar formulates means for the modelling of language-independent linguistic phenomena. These are then used by specific grammars. This reduces the work for the development of a grammar and also provides good comparability of different grammars and the explication of linguictic universals. Generalisations for the formalism of LAG In the course of defining the formalism of LLAGs, this work examines more powerful alternatives to the traditional deque (double-ended queue) as the format for syntactic categories in LAG. This is discussed with examples of formal languages. The methods for the determination of the complexity class of a given grammar are extended to these alternative category formats - especially for feature-value structures, as these are used in the German and English sample grammars. Implementation of grammars This work also presents the grammar development system LIPS (language-independent parser system) which was implemented on the basis of the algebraic definition of LLAGs. It also contains means for generating hypotheses or partial analyses. LIPS is illustrated with four successively extended grammars for English and nine for German. Among other phenomena, these grammars model structures that have not yet been modelled by traditional LAGs (e.g. attachment or German participle-groups).
| ||||||||||||||||||||||||||||||||||