Kopfbild

Theory and Implementation of a Head-Driven Phrase Structure Grammar for Persian

Förderer

DFG (Förderkennzeichen MU 2822/3-1) und ANR

Antragsteller

Stefan Müller und Pollet Samvelian

Laufzeit

Voraussichtlich 31.01.2009–31.01.2012

Mitarbeiter

Pollet Samvelian (Paris: deskriptiv, Syntax, Morphologie, Semantik)
Stefan Müller (Berlin: Syntax, Morphologie, Semantik, Integration mit deutscher, dänischer, maltesischer und mandarin chinesischer Grammatik)
Masood Ghayoomi (Berlin: deskriptiv, Syntax, Morphologie, Semantik)
Olivier Bonami (Paris)
Lionel Clément (Paris)
Kim Gerdes (Paris)
Benoît Sagot (Paris)
Soha Safaï (Paris)
N.N. (Paris)

Projektwebseite in Paris

Zusammenfassung

Ziel des Projekts ist die Beschreibung zentraler Phänomene im Persischen und die Entwicklung eines nicht trivialen Grammatikfragments im Rahmen der HPSG. Diese Grammatik wird eine Teilmenge der Phänomene abdecken, die in bereits existierenden computerverarbeitbaren Grammatiken des Deutschen behandelt werden: Fernabhängigkeiten, lokale Umordnungen von Argumenten (Scrambling), Passiv und Kontrolle. Zusätzlich wird die nominale Domäne, die sich relativ stark von der deutschen Nominalgruppe unterscheidet, und komplexe Nomen-Verb-Prädikate, die ein zentrales Phänomen im Lexikon des Persischen darstellen, behandelt.

Parallel zur theoretischen Ausarbeitung und Implementierung der Grammatik werden verschiedene lexikalische Resourcen entwickelt:

  • ein Vollformenlexikon der Verben und Nomina
  • Valenzrahmen für Verben
  • die häufigsten Light Verb Constructions (LVCs) unter Berücksichtigung idiomatischer Präverb-Light-Verb-Kombinationen
Das Projekt strebt eine direkte Umsetzung der theoretischen Analyse in die Implementation an. Die Analyse wird sich auf bereits existierende Implementationen von Grammatikfragmenten für das Deutsche, das Maltesische und das Mandarin Chinesische beziehen. Die Grammatikfragmente der genannten Sprachen wurden so implementiert, dass sie einen möglichst großen gemeinsamen Kernbereich verwenden, bzw. gemeinsame Teile, die für bestimmte Sprachklassen stehen.

In der Grammatikentwicklung werden wir versuchen, sprachspezifische Regeln oder Merkmale zu vermeiden. Wenn sich diese für bestimmte Phänomene jedoch nicht vermeiden lassen, lässt das Rückschlüsse auf typologische Unterschiede zu, die dann Gegenstand für deskriptive und theoretische Publikationen sein werden.

Publikationen

  • Bijankhan, Mahmood und Javad Sheykhzadegan und Mohammad Bahrani und Masood Ghayoomi (2011) "Lessons from building a Persian written corpus: Peykare" In Language Resources and Evaluation, 45 (2): 143-164. Springer.
  • Ghayoomi, Masood (2010) "Using Variance as a Stopping Criterion for Active Learning of Frame Assignment" In Proceedings of the NAACL-HLT 2010 Workshop on Active Learning for Natural Language Processing, Los Angeles, USA, 6 June 2010, pp: 1-9.
  • Ghayoomi, Masood (2012) "Bootstrapping the Development of an HPSG-based Treebank for Persian" In Linguistic Issues in Language Technology, 7 (1). CSLI Publications.
  • Ghayoomi, Masood (2012) "From Grammar Rule Extraction to Treebanking: A Bootstrapping Approach" In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12), 23-25 May, 2012; Istanbul, Turkey, pp: 1912-1919.
  • Ghayoomi, Masood und Saeedeh Momtazi und Mahmood Bijankhan (2010) A Study of Corpus Development for Persian In International Journal on Asian Language Processing 20 (1): 17–33.
  • Müller, Stefan (2010) Persian Complex Predicates and the Limits of Inheritance-Based Analyses. Journal of Linguistics 46(3):601–655.
  • Müller, Stefan und Masood Ghayoomi (2010) PerGram: A TRALE Implementation of an HPSG Fragment of Persian. In Proceedings of 2010 IEEE International Multiconference on Computer Science and Information Technology – Computational Linguistics Applications (CLA'10), Wisła, Poland, pp: 461–467, 18–20 October 2010.
  • Sagot, Benoît und Géraldine Walther (2010) Développement de Ressources pour le Persan: Lexique Morphologique et Chaîne de Traitements de Surface. In 17 Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2010), Montreal, 19–23 July 2010.
  • Sagot, Benoît und Géraldine Walther (2010) A Morphological Lexicon for the Persian Language. In Proceedings of the 7th Conference on International Language Resources and Evaluation (LREC'10). Valletta, Malta, pp:300–303, 17–23 May 2010.
  • Samvelian, Pollet und Jesse Tseng (2010) Persian Object Clitics and the Syntax-morphology Interface. In 17th International Conference on Head-Driven Phrase Structure Grammar (HPSG 2010). Paris, pp: 212–232, 7–10 July 2010.