Direction des Relations Internationales (DRI)
EQUIPE ASSOCIEE |
Traitement informatique du Sanskrit |
sélection |
2010 |
Equipe-Projet INRIA : Sanskrit | Organisme étranger partenaire : Université d'Hyderabad |
Centre de recherche INRIA : Paris-Rocquencourt Thème INRIA : Sym C |
Pays : Inde |
Coordinateur
français |
Coordinateur
étranger |
||
Nom, prénom | Huet, Gérard | Amba Kulkarni | |
Grade/statut | Directeur de Recherches | Reader, Head of Department | |
Organisme d'appartenance |
INRIA, Centre de Paris-Rocquencourt | Hyderabad University, Department of Sanskrit Studies | |
Adresse postale | Rocquencourt | Department of Sanskrit Studies, School of Humanities, University of Hyderabad P.O. Central University, Hyderabad 500 046, India | |
URL | Page personnelle | University of Hyderabad | |
Téléphone | 01 39 63 54 60 | 91-040-23133300 (School office) | |
Télécopie | |||
Courriel | Gerard.Huet@inria.fr | apksh@uohyd.ernet.in, ambapradeep@gmail.com |
Titre de la thématique de collaboration Traitement informatique du Sanskrit - Sanskrit Computational Linguistics |
Descriptif :
Il s'agit d'une collaboration autour du développement d'outils informatisés
de traitement du sanskrit, faisant suite à une première collaboration de 3 ans dans ce
domaine. Cette première période a permis tout d'abord de rassembler la communauté
internationale travaillant dans ce domaine interdisciplinaire, par l'organisation d'une
nouvelle série de conférences Sanskrit Computational Linguistics Symposium,
qui a permis d'identifier la communauté scientifique travaillant sur des objectifs
pertinents, et qui a joué un rôle de catalyseur important. Du côté indien, la coordinatrice Amba Kulkarni a fait aboutir la création à l'Université d'Hyderabad (l'une des principales universités nationales indiennes) d'un nouveau département de Sanskrit Studies qui s'est rapidement développé et a pu attirer un nombre important de linguistes spécialisés et d'étudiants. Pr Amba Kulkarni s'est vu confier également la direction nationale d'un Consortium Linguistique du Sanskrit, lui permettant de coordonner au niveau indien le développement des ressources linguistiques et informatiques autour de cette langue, ancienne mais toujours vivante, qui est depuis la haute antiquité le medium normalisé des travaux d'érudition, de culture et d'enseignement. Du côté français, le coordinateur Gérard Huet a développé un ensemble d'outils de traitement informatique du sanskrit qui permet l'analyse de phrases simples du sanskrit classique, et qui donne une première approximation de normes de représentation des entités linguistiques de cette langue permettant de proposer des interfaces inter-opérables. Cette plate-forme originale s'est développée à partir d'une méthodologie de programmation relationnelle uniforme, issue d'une boîte à outils Zen développée comme bibliothèque modulaire dans le langage OCaml. Cette méthodologie a été abstraite dans une notion de Machine d'Eilenberg Effective, développée dans la thèse de Benoît Razet à soutenir fin novembre 2009. Il s'agit d'un nouveau modèle de calcul, plaçant la programmation non-déterministe dans un cadre général de programmation relationnelle. Le départ de Benoît Razet début 2010 au prestigieux laboratoire du Tata Institute (TIFR) à Bombay permet d'envisager l'extension des objectifs de l'équipe associée à de nouveaux partenaires indiens, autour de thèmes non nécessairement liés aux applications linguistiques. La collaboration à venir s'inscrit donc d'une part dans la consolidation des travaux autour de l'analyse informatique du sanskrit, au sein d'une communauté internationale très active, et d'autre part dans le développement des concepts et méthodes de la programmation relationnelle dégagée dans la thèse de B. Razet. |
1. Objectifs scientifiques de la proposition
Le premier objectif de l'équipe associée est de coordonner le développement d'outils
d'analyse de la langue et de ressources linguistiques du sanskrit. L'interopérabilité
de ces outils nécessite une collaboration internationale sur des standards de représentation
des structures de la langue, et tout d'abord des processus morpho-phonétiques. Une difficulté
tient à la très grande richesse des procédés morphologiques de cette langue, et à la pauvreté
relative associée de la syntaxe, l'ordre des mots dans la phrase étant très libre. Ceci
déplace le problème de l'analyse syntaxique, bien étudié pour des langues à syntaxe plus
rigide comme le français et l'anglais, pour le reporter vers un problème de cohérence
sémantique. D'un autre côté, la tradition grammaticale très ancienne de l'Inde doit
être accommodée (une
grammaire descriptive du sanskrit due à Panini fait autorité depuis le 4ème siècle avant
J.-C., et sa modélisation informatique est un problème en soi).
Le but à moyen terme de ces travaux est d'aboutir à des outils de traitement philologique
d'un corpus considérable - le Mahabharata à lui tout seul représente en volume plus de 15
fois la Bible. Les travaux de la première époque de l'équipe associée ont permis
d'identifier les équipes et spécialistes compétents, aussi bien en Inde qu'à l'étranger,
et il est permis d'espérer à terme de 3 ans un progrès appréciable, suivant un calendrier
prévisionnel qui suit.
La première année sera consacrée à l'élaboration d'une structure algébrique permettant de classifier les formes morphologiques sous forme d'une DTD permettant de représenter les bases de données morphologiques sous forme XML. La principale difficulté sera de concilier les catégories dégagées par la linguistique générale occidentale et les catégories traditionnelles issues des études Paninéennes. Il y a déjà des propositions concrètes existantes, issues des implémentations respectives d'Amba Kulkarni à Hyderabad, Gérard Huet à Paris-Rocquencourt, et Peter Scharf à l'Université Brown (Providence, RI, USA). Il est à remarquer que ces trois personnes ont été les organisateurs des trois premiers Symposia de "Sanskrit Computational Linguistics", qui ont été l'occasion de débats autour de ce problème, lors des Ateliers correspondants.
Un autre problème, un peu moins bien circonscrit, consiste en l'élaboration d'une structure de graphes de dépendances pouvant servir de support à l'interface entre morphologie et sémantique (au sens des rôles thématiques). Là aussi, la structure visée devra concilier l'état de l'art des grammaires de dépendances tel qu'il existe en linguistique contemporaine et la théorie des karakas de Panini. Les travaux récents du Pr Kiparsky (Stanford) forment une base intéressante à cette étude.
Enfin, problème central à toute plate-forme de traitement de la langue, la structure du lexique et ses interfaces avec les diverses composantes de gestion de ressources linguistiques est un élément central. Il est notamment prévu d'étendre la structure utilisée par le "Sanskrit Heritage Dictionary" de G. Huet à des lexiques plus conséquents, à son incorporation des paramètres grammaticaux définis dans les lexiques traditionnels (dhatupathas, etc.), et de comprendre comment on peut lui superposer une structure de type Wordnet, telle que celle définie dans l'équipe du Pr Bhattacharya à l'IIT de Bombay.
En parallèle avec ces problèmes de modélisation linguistique, il convient de confronter ces structures d'annotation à grain fin avec les structures d'annotation à grande échelle du corpus par les philologues. Cette interaction entre linguistes et philologues permettrait au sanskrit de s'inscrire dans les mouvements internationaux que sont la TEI (Text Encoding Initiative) mais aussi de généraliser au sanskrit la numérisation linguistiquement intelligente de corpus classiques telle que développée par le projet Perseus pour le latin et le grec.
L'autre objectif de l'équipe associée élargie est de dégager les principes, les méthodes et les outils d'une notion de programmation relationnelle qui a pris naissance dans les problèmes morpho-phonétiques de modélisation linguistique, et notamment l'analyse du sandhi en sanskrit. La thèse de Benoît Razet, soutenue en novembre 2009 sous la direction de Gérard Huet à Paris-Rocquencourt pose les bases d'une méthodologie très générale de programmation relationnelle qui permet d'étendre les techniques de machines d'état fini à une notion de composition de processus non-déterministes modulaires très prometteuse. Son séjour post-doctoral en 2010 au Tata Institute of Fundamental Research (TIFR) de Bombay va permettre d'étendre les thèmes de coopération franco-indienne à ce cadre.
2. Présentation
des partenaires
Le partenariat est relativement déséquilibré, entre le départment de Sanskrit Studies
de l'Université d'Hyderabad, structure comportant une équipe conséquente de chercheurs
et d'enseignants paermanents, ainsi que d'étudiants de 3ème cycle, et un certain nombre
de chercheurs occidentaux, à divers endroits dans le Monde, qui travaillent
en collaboration plus ou moins étroite avec ce département, qui par ailleurs joue en Inde
un rôle de coordination nationale sur les problèmes de modélisation du sanskrit, mais
aussi de la génération morphologique d'autres langues de l'Inde.
Department of Sanskrit Studies, Hyderabad University.
Amba Kulkarni, Reader.
Research Interests: Showing relevance of Indian Grammatical Traditional in the modern context.
Dr J S R A Prasad, Lecturer.
Research Interests: Navya nyaaya (Indian Logic), and Research Methodology.
Dr K Narayan Murty, Professor, Joint faculty.
Research Interests: Computational Linguistics.
Dr K Subhramanyam, Professor, Joint faculty.
Research Interests: Indian Grammatical Tradition.
Dr Sheetal Pokar, Guest Faculty.
Research Interests: Indian Grammatical Tradition.
Dr Devanand Shukl, Sr. Linguist.
Research Interests: Indian Grammatical Tradition.
Dr R. Anupama, Linguist.
Research Interests: Sanskrit Literature.
Dr Vibhuti Nath Jha, Linguist.
Research Interests: Vyaakarana.
Sivaja Nair, Doctoral student.
Research Interests: Lexicography.
Anil Gupta, Doctoral student.
Research Interests: Sanskrit Computational Linguistics.
N. Shailaja, Doctoral student.
Research Interests: Vyaakarana.
Paris-Rocquencourt Center, INRIA.
G. Huet, Directeur de Recherche.
Research Interests: Sanskrit Computational Linguistics, Relational Programming.
Benoît Razet, Doctoral student.
Research Interests: Relational programming.
Heidelberg University, Germany.
Oliver Hellwig, Assistant Professor.
Research Interests: Sanskrit Computational Linguistics.
Brown University, Providence, USA, Department of Classics.
P. Scharf, Associate Professor.
Research Interests: Sanskrit Computational Linguistics.
McGill University, Montréal, Department of Linguistics.
B. Gillon, Professor.
Research Interests: Sanskrit Computational Linguistics.
Ecole Pratique des Hautes Etudes, Paris.
Jan Houben, Directeur d'Etudes.
Research Interests: Sanskrit Grammatical Traditions.
Université Paris 7 et CNRS, Laboratoire d'histoire des théories linguistiques, Paris.
Émilie Aussant, CR CNRS.
Research Interests: Sanskrit Grammatical Traditions.
3. Impact
La première époque de cette équipe associée a eu un impact significatif sur l'émergence
du sujet "Sanskrit Computational Linguistics" comme domaine de recherche international,
notamment par l'organisation du symposium international éponyme, qui n'aurait pas vu
le jour sans le financement de l'équipe associée. Rappelons qu'il y a déjà eu 3 tels
colloques:
1st International Symposium on Sanskrit Computational Linguistics, INRIA Paris-Rocquencourt, October 2007
2nd International Symposium on Sanskrit Computational Linguistics, Brown University, Providence, May 2008
3rd International Symposium on Sanskrit Computational Linguistics, U. of Hyderabad, Jan. 2009
et que le 4ème est prévu pour l'an prochain à New Delhi:
4th International Symposium on Sanskrit Computational Linguistics, JNU University, Delhi, Dec. 2010
La meilleure preuve de l'intérêt que cette initiative a suscité est que l'éditeur
Springer-Verlag a proposé spontanément l'édition des actes de ces colloques:
G. Huet, A. Kulkarni & P. Scharf, Eds. Sanskrit Computational Linguistics 1 and 2.
Springer-Verlag Lecture Notes 5402, 2009.
G. Huet & A. Kulkarni, Eds. Sanskrit Computational Linguistics 3.
Springer-Verlag Lecture Notes 5406, 2009.
L'impact sur les équipes concernées a été considérable, puisqu'à Hyderabad l'existence de cette
équipe associée a été un élément déterminant du développement à l'Université du jeune Département de Sanskrit Studies, dont la première grande manifestation internationale a été le
3rd International Symposium on Sanskrit Computational Linguistics, U. of Hyderabad, Jan. 2009.
Au Centre INRIA de Paris-Rocquencourt, cette équipe associée a joué un rôle essentiel, ne
serait-ce que parce que c'était la seule source de financement de la petite équipe
formée de Gérard Huet et de son thésard Benoît Razet. Le sujet de thèse de B. Razet, qui doit soutenir sa thèse à la fin de l'année, a été directement issu des travaux de G. Huet sur les
transducteurs de jonction, élaborés par généralisation du problème d'analyse du sandhi,
indispensable à la segmentation et à l'étiquetage du sanskrit.
Les différents partenaires de la nouvelle équipe associée se connaissent bien. Peter Scharf,
professeur à Brown University (qui a eu l'honneur d'héberger l'équipe du Pr David Pingree,
spécialiste d'histoire des mathématiques), est l'un des tous premiers spécialistes
de la grammaire de Panini, l'ayant appris de son maître George Cardona. Lorsqu'il apprit
l'organisation par notre équipe associée de la série de Symposia, il proposa spontanément
d'en organiser la deuxième manifestation à Brown, sur son financement NSF. C'est à ce moment
que le symposium fut officialisé, avec un Steering Committee international, qui aujourd'hui
se compose de:
Brendan Gillon, McGill University, Montreal, Quebec, Canada
Gérard Huet, INRIA, Rocquencourt, Paris, France
Girish Nath Jha, Jawaharlal Nehru University, New Delhi
Amba Kulkarni, University of Hyderabad
Malhar Kulkarni, I.I.T. Mumbai
Peter Scharf, Brown University, USA
Parmi ce comité, Brendan Gillon est un linguiste de l'Université McGill, spécialiste
de syntaxe du sanskrit. It a déjà effectué plusieurs séjours à Rocquencourt.
Peter Scharf, en compagnie d'un collaborateur informaticien, va passer deux mois fin 2009 à
Hyderabad avec Gérard Huet, dans l'équipe d'Amba Kulkarni. Cette dernière, coordinatrice
de l'équipe du côté indien, aura passé auparavant un mois au site Rocquencourt de l'INRIA,
et en profitera pour rendre visite à Oliver Hellwig, récemment embauché comme professeur
à la prestigieuse université d'Heidelberg, où il est associé à mi-temps au département
d'indologie, et à mi-temps au département de linguistique computationnelle. Oliver Hellwig
vient de se proposer comme coordinateur d'une demande de financement à la Communauté
Européenne, pour prendre à terme le relai des financements bilatéraux et nationaux.
Jan Houben, Directeur d'Etudes à l'École Pratique des Hautes Etudes, est un spécialiste de
la grammaire de Panini, et est particulièrement interessé à sa formalisation informatique.
Lors du premier symposium, il avait contribué à son organisation en organisant la réception
des participants dans les prestigieux locaux de l'EPHE à la Sorbonne.
Enfin, Émilie Aussant est une jeune spécialiste de grammaire du sanskrit,
qui vient d'intégrer le CNRS comme Chargée de Recherches au Laboratoire d'Histoire
des Théories Linguistiques de l'Université Paris 7. Elle interragit avec G. Huet depuis 2003.
L'année 2010 verra une coopération soutenue entre Peter Scharf, Amba Kulkarni et Gérard Huet
sur la convergence de leurs systèmes d'analyse de sanskrit au niveau de l'étiquetage
morphologique et de la structure de dépendances. Plusieurs séjours de longue durée sur le site central d'Hyderabad sont prévus.
De son côté Oliver Hellwig fera profiter les autres partenaires de ses compétences
en optimisation stochastique - il a mis au point un analyseur du sanskrit basé sur des
chaînes de Markov qui permet l'étiquetage robuste de corpus significatifs.
Sur un plan plus administratif, il coordonnera l'écriture d'une proposition de financement
Européen sur notre sujet.
Benoît Razet, quant à lui, passera une année sabbatique de chercheur invité au très prestigieux
Tata Institute of Fundamental Research (TIFR) à Bombay, où il continuera son travail sur la
méthodologie de programmation relationnelle, et le confrontera aux spécialistes locaux
d'informatique fondamentale. On peut donc espérer que l'équipe associée permettra
de faire décoller un nouvelle activité de coopération scientifique entre la France et l'Inde, sur le thème plus générale de conception de systèmes d'information à fort niveau
de non-déterminisme.
Enfin, l'année 2010 se clôturera par l'organisation, à New Delhi, du
4th International Symposium on Sanskrit Computational Linguistics, Jawaharlal Nehru University.
Cette manifestation sera pour nous l'occasion de confronter nos propositions de
normalisation des étiquettes morphologiques, au cours d'un atelier spécifique.
L'expérience des 3 dernières années de fonctionnement de l'équipe associée a montré
que 20KEu était une somme suffisante pour financer les séjours en France, et une partie
des visites de longue durée, ainsi que de participer au financement du symposium annuel.
Un argumentaire plus détaillé des ressources nécessaires est en préparation.