Direction des Relations Internationales (DRI)

Programme INRIA "Equipes Associées"

(Dossier de renouvellement)

 

I. DEFINITION

EQUIPE ASSOCIEE

Traitement informatique du Sanskrit
sélection
2010

Equipe-Projet INRIA : Sanskrit Organisme étranger partenaire : Université d'Hyderabad
Centre de recherche INRIA : Paris-Rocquencourt
Thème INRIA : Sym C
Pays : Inde
 
 
Coordinateur français
Coordinateur étranger
Nom, prénom Huet, Gérard Amba Kulkarni
Grade/statut Directeur de Recherches Reader, Head of Department
Organisme d'appartenance
INRIA, Centre de Paris-Rocquencourt Hyderabad University, Department of Sanskrit Studies
Adresse postale Rocquencourt Department of Sanskrit Studies, School of Humanities, University of Hyderabad P.O. Central University, Hyderabad 500 046, India
URL Page personnelle University of Hyderabad
Téléphone 01 39 63 54 60 91-040-23133300 (School office)  
Télécopie    
Courriel Gerard.Huet@inria.fr apksh@uohyd.ernet.in, ambapradeep@gmail.com

La proposition en bref

Titre de la thématique de collaboration Traitement informatique du Sanskrit - Sanskrit Computational Linguistics

Descriptif : Il s'agit d'une collaboration autour du développement d'outils informatisés de traitement du sanskrit, faisant suite à une première collaboration de 3 ans dans ce domaine. Cette première période a permis tout d'abord de rassembler la communauté internationale travaillant dans ce domaine interdisciplinaire, par l'organisation d'une nouvelle série de conférences Sanskrit Computational Linguistics Symposium, qui a permis d'identifier la communauté scientifique travaillant sur des objectifs pertinents, et qui a joué un rôle de catalyseur important.

Du côté indien, la coordinatrice Amba Kulkarni a fait aboutir la création à l'Université d'Hyderabad (l'une des principales universités nationales indiennes) d'un nouveau département de Sanskrit Studies qui s'est rapidement développé et a pu attirer un nombre important de linguistes spécialisés et d'étudiants. Pr Amba Kulkarni s'est vu confier également la direction nationale d'un Consortium Linguistique du Sanskrit, lui permettant de coordonner au niveau indien le développement des ressources linguistiques et informatiques autour de cette langue, ancienne mais toujours vivante, qui est depuis la haute antiquité le medium normalisé des travaux d'érudition, de culture et d'enseignement.

Du côté français, le coordinateur Gérard Huet a développé un ensemble d'outils de traitement informatique du sanskrit qui permet l'analyse de phrases simples du sanskrit classique, et qui donne une première approximation de normes de représentation des entités linguistiques de cette langue permettant de proposer des interfaces inter-opérables. Cette plate-forme originale s'est développée à partir d'une méthodologie de programmation relationnelle uniforme, issue d'une boîte à outils Zen développée comme bibliothèque modulaire dans le langage OCaml. Cette méthodologie a été abstraite dans une notion de Machine d'Eilenberg Effective, développée dans la thèse de Benoît Razet à soutenir fin novembre 2009. Il s'agit d'un nouveau modèle de calcul, plaçant la programmation non-déterministe dans un cadre général de programmation relationnelle. Le départ de Benoît Razet début 2010 au prestigieux laboratoire du Tata Institute (TIFR) à Bombay permet d'envisager l'extension des objectifs de l'équipe associée à de nouveaux partenaires indiens, autour de thèmes non nécessairement liés aux applications linguistiques.

La collaboration à venir s'inscrit donc d'une part dans la consolidation des travaux autour de l'analyse informatique du sanskrit, au sein d'une communauté internationale très active, et d'autre part dans le développement des concepts et méthodes de la programmation relationnelle dégagée dans la thèse de B. Razet.

Présentation détaillée de l'Équipe Associée

1. Objectifs scientifiques de la proposition
Le premier objectif de l'équipe associée est de coordonner le développement d'outils d'analyse de la langue et de ressources linguistiques du sanskrit. L'interopérabilité de ces outils nécessite une collaboration internationale sur des standards de représentation des structures de la langue, et tout d'abord des processus morpho-phonétiques. Une difficulté tient à la très grande richesse des procédés morphologiques de cette langue, et à la pauvreté relative associée de la syntaxe, l'ordre des mots dans la phrase étant très libre. Ceci déplace le problème de l'analyse syntaxique, bien étudié pour des langues à syntaxe plus rigide comme le français et l'anglais, pour le reporter vers un problème de cohérence sémantique. D'un autre côté, la tradition grammaticale très ancienne de l'Inde doit être accommodée (une grammaire descriptive du sanskrit due à Panini fait autorité depuis le 4ème siècle avant J.-C., et sa modélisation informatique est un problème en soi). Le but à moyen terme de ces travaux est d'aboutir à des outils de traitement philologique d'un corpus considérable - le Mahabharata à lui tout seul représente en volume plus de 15 fois la Bible. Les travaux de la première époque de l'équipe associée ont permis d'identifier les équipes et spécialistes compétents, aussi bien en Inde qu'à l'étranger, et il est permis d'espérer à terme de 3 ans un progrès appréciable, suivant un calendrier prévisionnel qui suit.

La première année sera consacrée à l'élaboration d'une structure algébrique permettant de classifier les formes morphologiques sous forme d'une DTD permettant de représenter les bases de données morphologiques sous forme XML. La principale difficulté sera de concilier les catégories dégagées par la linguistique générale occidentale et les catégories traditionnelles issues des études Paninéennes. Il y a déjà des propositions concrètes existantes, issues des implémentations respectives d'Amba Kulkarni à Hyderabad, Gérard Huet à Paris-Rocquencourt, et Peter Scharf à l'Université Brown (Providence, RI, USA). Il est à remarquer que ces trois personnes ont été les organisateurs des trois premiers Symposia de "Sanskrit Computational Linguistics", qui ont été l'occasion de débats autour de ce problème, lors des Ateliers correspondants.

Un autre problème, un peu moins bien circonscrit, consiste en l'élaboration d'une structure de graphes de dépendances pouvant servir de support à l'interface entre morphologie et sémantique (au sens des rôles thématiques). Là aussi, la structure visée devra concilier l'état de l'art des grammaires de dépendances tel qu'il existe en linguistique contemporaine et la théorie des karakas de Panini. Les travaux récents du Pr Kiparsky (Stanford) forment une base intéressante à cette étude.

Enfin, problème central à toute plate-forme de traitement de la langue, la structure du lexique et ses interfaces avec les diverses composantes de gestion de ressources linguistiques est un élément central. Il est notamment prévu d'étendre la structure utilisée par le "Sanskrit Heritage Dictionary" de G. Huet à des lexiques plus conséquents, à son incorporation des paramètres grammaticaux définis dans les lexiques traditionnels (dhatupathas, etc.), et de comprendre comment on peut lui superposer une structure de type Wordnet, telle que celle définie dans l'équipe du Pr Bhattacharya à l'IIT de Bombay.

En parallèle avec ces problèmes de modélisation linguistique, il convient de confronter ces structures d'annotation à grain fin avec les structures d'annotation à grande échelle du corpus par les philologues. Cette interaction entre linguistes et philologues permettrait au sanskrit de s'inscrire dans les mouvements internationaux que sont la TEI (Text Encoding Initiative) mais aussi de généraliser au sanskrit la numérisation linguistiquement intelligente de corpus classiques telle que développée par le projet Perseus pour le latin et le grec.

L'autre objectif de l'équipe associée élargie est de dégager les principes, les méthodes et les outils d'une notion de programmation relationnelle qui a pris naissance dans les problèmes morpho-phonétiques de modélisation linguistique, et notamment l'analyse du sandhi en sanskrit. La thèse de Benoît Razet, soutenue en novembre 2009 sous la direction de Gérard Huet à Paris-Rocquencourt pose les bases d'une méthodologie très générale de programmation relationnelle qui permet d'étendre les techniques de machines d'état fini à une notion de composition de processus non-déterministes modulaires très prometteuse. Son séjour post-doctoral en 2010 au Tata Institute of Fundamental Research (TIFR) de Bombay va permettre d'étendre les thèmes de coopération franco-indienne à ce cadre.

2. Présentation des partenaires
Le partenariat est relativement déséquilibré, entre le départment de Sanskrit Studies de l'Université d'Hyderabad, structure comportant une équipe conséquente de chercheurs et d'enseignants paermanents, ainsi que d'étudiants de 3ème cycle, et un certain nombre de chercheurs occidentaux, à divers endroits dans le Monde, qui travaillent en collaboration plus ou moins étroite avec ce département, qui par ailleurs joue en Inde un rôle de coordination nationale sur les problèmes de modélisation du sanskrit, mais aussi de la génération morphologique d'autres langues de l'Inde.

Department of Sanskrit Studies, Hyderabad University.
Amba Kulkarni, Reader. Research Interests: Showing relevance of Indian Grammatical Traditional in the modern context.
Dr J S R A Prasad, Lecturer. Research Interests: Navya nyaaya (Indian Logic), and Research Methodology.
Dr K Narayan Murty, Professor, Joint faculty. Research Interests: Computational Linguistics.
Dr K Subhramanyam, Professor, Joint faculty. Research Interests: Indian Grammatical Tradition.
Dr Sheetal Pokar, Guest Faculty. Research Interests: Indian Grammatical Tradition.
Dr Devanand Shukl, Sr. Linguist. Research Interests: Indian Grammatical Tradition.
Dr R. Anupama, Linguist. Research Interests: Sanskrit Literature.
Dr Vibhuti Nath Jha, Linguist. Research Interests: Vyaakarana.
Sivaja Nair, Doctoral student. Research Interests: Lexicography.
Anil Gupta, Doctoral student. Research Interests: Sanskrit Computational Linguistics.
N. Shailaja, Doctoral student. Research Interests: Vyaakarana.
Paris-Rocquencourt Center, INRIA.
G. Huet, Directeur de Recherche. Research Interests: Sanskrit Computational Linguistics, Relational Programming.
Benoît Razet, Doctoral student. Research Interests: Relational programming.
Heidelberg University, Germany.
Oliver Hellwig, Assistant Professor. Research Interests: Sanskrit Computational Linguistics.
Brown University, Providence, USA, Department of Classics.
P. Scharf, Associate Professor. Research Interests: Sanskrit Computational Linguistics.
McGill University, Montréal, Department of Linguistics.
B. Gillon, Professor. Research Interests: Sanskrit Computational Linguistics.
Ecole Pratique des Hautes Etudes, Paris.
Jan Houben, Directeur d'Etudes. Research Interests: Sanskrit Grammatical Traditions.
Université Paris 7 et CNRS, Laboratoire d'histoire des théories linguistiques, Paris.
Émilie Aussant, CR CNRS. Research Interests: Sanskrit Grammatical Traditions.

3. Impact

La première époque de cette équipe associée a eu un impact significatif sur l'émergence du sujet "Sanskrit Computational Linguistics" comme domaine de recherche international, notamment par l'organisation du symposium international éponyme, qui n'aurait pas vu le jour sans le financement de l'équipe associée. Rappelons qu'il y a déjà eu 3 tels colloques:
1st International Symposium on Sanskrit Computational Linguistics, INRIA Paris-Rocquencourt, October 2007
2nd International Symposium on Sanskrit Computational Linguistics, Brown University, Providence, May 2008
3rd International Symposium on Sanskrit Computational Linguistics, U. of Hyderabad, Jan. 2009
et que le 4ème est prévu pour l'an prochain à New Delhi:
4th International Symposium on Sanskrit Computational Linguistics, JNU University, Delhi, Dec. 2010

La meilleure preuve de l'intérêt que cette initiative a suscité est que l'éditeur Springer-Verlag a proposé spontanément l'édition des actes de ces colloques:
G. Huet, A. Kulkarni & P. Scharf, Eds. Sanskrit Computational Linguistics 1 and 2. Springer-Verlag Lecture Notes 5402, 2009.
G. Huet & A. Kulkarni, Eds. Sanskrit Computational Linguistics 3. Springer-Verlag Lecture Notes 5406, 2009.

L'impact sur les équipes concernées a été considérable, puisqu'à Hyderabad l'existence de cette équipe associée a été un élément déterminant du développement à l'Université du jeune Département de Sanskrit Studies, dont la première grande manifestation internationale a été le 3rd International Symposium on Sanskrit Computational Linguistics, U. of Hyderabad, Jan. 2009.

Au Centre INRIA de Paris-Rocquencourt, cette équipe associée a joué un rôle essentiel, ne serait-ce que parce que c'était la seule source de financement de la petite équipe formée de Gérard Huet et de son thésard Benoît Razet. Le sujet de thèse de B. Razet, qui doit soutenir sa thèse à la fin de l'année, a été directement issu des travaux de G. Huet sur les transducteurs de jonction, élaborés par généralisation du problème d'analyse du sandhi, indispensable à la segmentation et à l'étiquetage du sanskrit.
Les différents partenaires de la nouvelle équipe associée se connaissent bien. Peter Scharf, professeur à Brown University (qui a eu l'honneur d'héberger l'équipe du Pr David Pingree, spécialiste d'histoire des mathématiques), est l'un des tous premiers spécialistes de la grammaire de Panini, l'ayant appris de son maître George Cardona. Lorsqu'il apprit l'organisation par notre équipe associée de la série de Symposia, il proposa spontanément d'en organiser la deuxième manifestation à Brown, sur son financement NSF. C'est à ce moment que le symposium fut officialisé, avec un Steering Committee international, qui aujourd'hui se compose de:
Brendan Gillon, McGill University, Montreal, Quebec, Canada
Gérard Huet, INRIA, Rocquencourt, Paris, France
Girish Nath Jha, Jawaharlal Nehru University, New Delhi
Amba Kulkarni, University of Hyderabad
Malhar Kulkarni, I.I.T. Mumbai
Peter Scharf, Brown University, USA
Parmi ce comité, Brendan Gillon est un linguiste de l'Université McGill, spécialiste de syntaxe du sanskrit. It a déjà effectué plusieurs séjours à Rocquencourt. Peter Scharf, en compagnie d'un collaborateur informaticien, va passer deux mois fin 2009 à Hyderabad avec Gérard Huet, dans l'équipe d'Amba Kulkarni. Cette dernière, coordinatrice de l'équipe du côté indien, aura passé auparavant un mois au site Rocquencourt de l'INRIA, et en profitera pour rendre visite à Oliver Hellwig, récemment embauché comme professeur à la prestigieuse université d'Heidelberg, où il est associé à mi-temps au département d'indologie, et à mi-temps au département de linguistique computationnelle. Oliver Hellwig vient de se proposer comme coordinateur d'une demande de financement à la Communauté Européenne, pour prendre à terme le relai des financements bilatéraux et nationaux. Jan Houben, Directeur d'Etudes à l'École Pratique des Hautes Etudes, est un spécialiste de la grammaire de Panini, et est particulièrement interessé à sa formalisation informatique. Lors du premier symposium, il avait contribué à son organisation en organisant la réception des participants dans les prestigieux locaux de l'EPHE à la Sorbonne. Enfin, Émilie Aussant est une jeune spécialiste de grammaire du sanskrit, qui vient d'intégrer le CNRS comme Chargée de Recherches au Laboratoire d'Histoire des Théories Linguistiques de l'Université Paris 7. Elle interragit avec G. Huet depuis 2003.

II. PREVISIONS 2010

Programme de travail

L'année 2010 verra une coopération soutenue entre Peter Scharf, Amba Kulkarni et Gérard Huet sur la convergence de leurs systèmes d'analyse de sanskrit au niveau de l'étiquetage morphologique et de la structure de dépendances. Plusieurs séjours de longue durée sur le site central d'Hyderabad sont prévus.
De son côté Oliver Hellwig fera profiter les autres partenaires de ses compétences en optimisation stochastique - il a mis au point un analyseur du sanskrit basé sur des chaînes de Markov qui permet l'étiquetage robuste de corpus significatifs. Sur un plan plus administratif, il coordonnera l'écriture d'une proposition de financement Européen sur notre sujet.
Benoît Razet, quant à lui, passera une année sabbatique de chercheur invité au très prestigieux Tata Institute of Fundamental Research (TIFR) à Bombay, où il continuera son travail sur la méthodologie de programmation relationnelle, et le confrontera aux spécialistes locaux d'informatique fondamentale. On peut donc espérer que l'équipe associée permettra de faire décoller un nouvelle activité de coopération scientifique entre la France et l'Inde, sur le thème plus générale de conception de systèmes d'information à fort niveau de non-déterminisme.
Enfin, l'année 2010 se clôturera par l'organisation, à New Delhi, du 4th International Symposium on Sanskrit Computational Linguistics, Jawaharlal Nehru University. Cette manifestation sera pour nous l'occasion de confronter nos propositions de normalisation des étiquettes morphologiques, au cours d'un atelier spécifique.
L'expérience des 3 dernières années de fonctionnement de l'équipe associée a montré que 20KEu était une somme suffisante pour financer les séjours en France, et une partie des visites de longue durée, ainsi que de participer au financement du symposium annuel. Un argumentaire plus détaillé des ressources nécessaires est en préparation.

© INRIA - mise à jour le 08/07/2009