Programme scientifique et technique

 

Énoncé des objectifs scientifiques

Conçu comme un outil pour servir à l’histoire de la pensée scientifique, le projet a pour objectif la constitution et la mise en ligne d’un corpus annoté constitué par les oeuvres et la correspondance de Descartes et assorti d’outils d’aide à la lecture. Ce corpus, destiné à être diffusé à un public aussi large que possible sur Internet, consiste à faire connaître progressivement les résultats des recherches internationales des trente dernières années et des recherches en cours sur la philosophie et la science cartésiennes en suscitant la collaboration des spécialistes de Descartes, en cumulant à la fois les résultats dispersés de l’historiographie et de la lexicographie et des équipes partenaires dans ce domaine et en continuant à développer, au sein des équipes partenaires, les investigations approfondies nécessaires à l’établissement des textes de Descartes. Les recherches scientifiques (travail historique et philologique, recherches bibliographiques, index et concordances publiés depuis les années 1970 sous l’égide du Lessico Intellettuale Europeo et du Centre d’études cartésiennes) qui nourrissent ce projet sont du ressort de deux partenaires français (équipe Identité et Subjectivité de l’université de Caen Basse-Normandie, porteuse du projet, et le Centre d’études cartésiennes, de l’université de Paris IV – Sorbonne), ainsi que d’un partenaire italien (Centro di studi su Descartes e il Seicento, Università del Salento, Lecce).

L’ambition du projet consiste, outre la mise à disposition d’un contenu qui n’existait pas sous la forme électronique, à mettre au service des éditeurs scientifiques du projet un outil d’annotation de corpus collaboratif en ligne développé par un laboratoire spécialiste dans ce domaine (GREYC, avec SAIC – CERTIC) et des outils d’aide à la lecture nouveaux (par exemple, un moteur de recherche multilingue permettant qu’un lecteur cherchant un mot en français contemporain trouve son équivalent dans le français classique et sa traduction latine dans le corpus, replaçant ainsi ses équivalents dans le réseau conceptuel cartésien).

Ce projet vise donc quatre buts principaux :

  1. mettre pour la première fois à la disposition des chercheurs le corpus annoté des oeuvres et de la correspondance de Descartes et les moyens d’effectuer des recherches dans l’intégralité du corpus. Un usage systématique de la correspondance permettra d’éclaircir de nombreux points de la philosophie cartésienne et l’ambition du Corpus Descartes est de renvoyer facilement (navigation par liens hypertexte), d'un extrait d'oeuvre à un extrait de lettre par exemple, c'est-à-dire d'illustrer rapidement et facilement la complémentarité philosophique entre les oeuvres et les lettres mise en évidence par le Centro di studi su Descartes et il Seicento en particulier (on a pu montrer que Descartes lui-même considérait les minutes qu’il conservait de ses lettres comme un véritable « fichier » dans lequel il puisait de façon récurrente) ;
  2. constituer le seul moyen possible de rétablir scientifiquement les oeuvres inachevées ou laissées inédites par Descartes lui-même ;
  3.  faire droit aux difficultés du bilinguisme cartésien ;
  4. mettre en oeuvre, pour l’accomplissement de ces tâches, des méthodes d’analyse issues du traitement automatique des langues et de la linguistique de corpus (GREYC, NOOPSIS). Inversement, le corpus cartésien devient un terrain original d’expérimentation de ces méthodes, en tant que tel riche d'enseignements pour la communauté de traitement automatique des langues.

 

Description du corpus proposé

Ce projet éditorial est constitué de documents qui se déclinent en mode texte et en mode image ainsi que d’outils d’édition. Le Corpus Descartes comprend toutes les oeuvres publiées de l’auteur, de son vivant, posthumes et la correspondance (12 à 16) dont Claude Clerselier fit l’édition le premier, seize ans après la mort de Descartes.

  • Volet « OEuvres publiées du vivant de l’auteur »
  1. Discours de la méthode pour bien conduire sa raison, et chercher la verité dans les sciences. Plus La Dioptrique. Les Meteores. Et la Geometrie. Qui sont des essais de cette méthode [1637] ;
  2. Meditationes de Prima Philosophia in qva Dei existentia et animae immortalitas demonstratur [1641] et Meditationes de Prima Philosophia, in quibus Dei existentia, et animæ humanæ a corpore distinctio, demonstrantur. His adjunctæ sunt variæ objectiones doctorum virorum in istas de Deo et anima demonstrationes ; Cum responsionibus Authoris. Secunda editio septimis objectionibus antehac non visis aucta [1642] ;
  3. Epistola ad celeberrimum Virum D. Gisbertum Voetium [1643] ;
  4. Principia philosophiae [1644] ;
  5. Specimina philosophiæ : seu Dissertatio de Methodo recte regendæ rationis, et veritatis in scientiis investigandæ : Dioptrice, et Meteora. Ex Gallico translata, et ab Auctore perlecta, variisque in locis emendata [1644] ;
  6. Les Méditations métaphysiques de René Descartes, touchant la première philosophie, dans lesquelles l’existence de Dieu, et la distinction réelle entre l’âme et le corps de l’homme, sont démonstrées. Traduites du latin de l’Auteur par Mr le D.D.L.N.S. Et les Objections faites contre ces Méditations par diverses personnes tres-doctes, avec les réponses de l’Auteur. Traduites par Mr CLL.R [1647] ;
  7. Les Principes de la philosophie, Écrits en Latin par René Descartes, Et traduits en François par un de ses Amis [1647] ;
  8. Notae in programma quoddam [1648] ;
  9. Geometria, à Renato Des Cartes anno 1637 Gallice edita, nunc autem cum notis Florimondi de Beaune in Curia Blesensi Consiliarii Regii in Latinam linguam versa, et Commentariis illustrata, operâ atque studio Francisci a Schooten Leydensis, in Academia Lugduno-Batava [1649] ;
  10. Les Passions de l’âme par René Des Cartes [1650] ;
  11. Passiones animae per Renatvm Des Cartes : Gallice ab ipso conscriptae, nunc autem in exterorum gratiam Latina civitate donatae [1650].
  • Volet « OEuvres posthumes »
  1. Compendium Musicae ;
  2. Groupement des oeuvres dites de jeunesse : Olympica, Experimentata, Cogitationes privatae, Studium bonae mentis, fragment Cartesius et Recherche de la vérité ;
  3. Entretien avec Burman ;
  4. Ballet De la naissance de la paix [1649] ;
  5. De Homine […] ;
  6. L'Homme […] ;
  7. Traité de la lumière ;
  8. Regulae ad directionem ingenii [1701].
  • Volet « Correspondance »

– Lettres de Mr Descartes […], édition Clerselier (édition anastatique de J.-R. Armogathe et G. Belgioioso), Lecce, Centro di studi su Descartes e il Seicento – Conte Editore, 2005, 3 vol. et 3 appendices :

  1. Volume I et Appendice 1 : Lettres de Mr  Descartes où sont traittées plusieurs belles questions touchant la morale, la physique, la medecine et les mathematiqves. Novelle édition, revev et avgmenté.Tome Premier. A Paris, Chez Charles Angot, ruë S. Iacques, au Lion d’Or [1667] ;
  2. Volume II et Appendice 2 : Lettres de Mr  Descartes où sont expliquées plusieurs belles difficultez touchant ses autres Ouvrages. Novvelle édition, revev et corrige. Tome Second. A Paris, Chez Charles Angot, ruë S. Iacques, au Lion d’Or [1666] ;
  3. Volume III et Appendice 3 : Lettres de Mr  Descartes où il répond a plusieurs difficultez qui luy ont esté proposées sur la Dioptrique, la Geometrie, et sur plusieurs autres sujets. Tome troisiesme, et dernier. A Paris, Chez Charles Angot, ruë S. Iacques, au Lion d’Or [1667].

– Publication des lettres provenant d’autres sources (édition Roth, etc.), de l’ensemble de la correspondance publiée dans Adam Tannery et Bompiani ;

– Contribution à la retraduction des lettres.

 

Programme scientifique et technique

L’organisation du programme scientifique et technique peut être définie selon les trois macro-tâches suivantes :

  1. Tâche Établissement et édition des textes (équipes de philosophes) ;
  2. Tâche Environnement (équipes de philosophes, GREYC) ;
  3. Tâche Outils d'exploration de corpus.

  • Tâche Établissement et édition des textes

Les équipes de philosophes sont chargées, avec l’aide du secrétaire d’édition recruté pour cette tâche, des travaux consistant à éditer et à commenter les documents comme suit :

– collecter les textes sous forme numérique auprès de la bibliothèque suivant la chronologie du programme scientifique décomposé en trois volets de 24 oeuvres et fournir à l’éditeur matériel les fichiers correspondant aux images des pages des éditions originales (format haute résolution conformément au cahier des charges du projet) pour intégration dans le flux XML ;

– effectuer la transcription et la relecture des textes ;

– effectuer la structuration (autrement dit le balisage) avec les outils de structuration idoines développés par l’éditeur matériel. Les Presses universitaires de Caen assureront la constitution de la grammaire de référence (DTD) pour la structuration des textes dans le respect des standards internationaux (XML TEI version P5, utilisation de l'outil Roma pour le choix des modules), en collaboration d'une part, avec le GREYC pour mettre en place une structure adaptée aux outils de recherche et d'annotation et, d'autre part, en étroite relation avec les responsables scientifiques spécialistes du corpus. Les Presses universitaires de Caen assureront aussi le développement de ces outils de structuration (feuilles de styles et interfaces de saisie dans le logiciel d'édition XML) ainsi que la prise en charge de la formation de l'ensemble des intervenants à l'utilisation de ces outils et le « support technique » tout au long du travail de structuration ;

– débuter la constitution de l’apparat critique et assurer sa validation scientifique. Deux types de « notes » (ou « commentaires ») sont en effet envisagés : des commentaires philosophiques ou philologiques insérés dans le flux XML au moment de l’établissement des textes, dans l’éditeur XML ; des commentaires philosophiques ou philologiques insérés par l'intermédiaire de l'outil d'annotation collaboratif qui pourront être ajoutés par les éditeurs scientifiques une fois faite la mise en ligne de l’oeuvre ou de la lettre dans laquelle se trouve le passage annoté. Dans les deux cas, les commentaires seront relus par les responsables des sous-tâches sous l'autorité de l’un des trois éditeurs scientifiques principaux: Vincent Carraud, Giulia Belgioioso ou Jean-Luc Marion. La validation pourra elle aussi se faire en ligne. À ce stade, il s’agit donc du premier type de notes ;

– fournir l’ensemble du ou des fichiers structurés relus à l’éditeur ; les Presses universitaires de Caen assureront l'exploitation des fichiers XML constitutifs du corpus en développant les interfaces de lecture en PHP et XSLT en assurant l'intégration des outils de recherche et d'annotation en collaboration avec le GREYC (cette répartition du travail a déjà fait l’objet de plusieurs réunions entre des membres de l’équipe coordinatrice (Identité et Subjectivité), des membres du GREYC et des membres des Presses universitaires de Caen (dont sa directrice, Catherine Jacquemard) ;

– après intégration des données structurées et mise en ligne par l’éditeur, relecture finale dans le navigateur web (notamment vérification de la bonne récupération du texte structuré, des polices spéciales, tests des différentes fonctionnalités du site, signalements de bugs éventuels, etc.) ;

– poursuivre l’apparat critique, en fonction des nécessités scientifiques via l’outil d’annotation de corpus collaboratif ;

– constituer la base de données des concepts cartésiens nécessaire à l’expansion terminologique proposée par le GREYC et NOOPSIS ;

– corriger et valider les « concordanciers » français contemporain / français classique / latin produits par le GREYC et NOOPSIS au cours de l’élaboration du moteur de recherche.Les éléments de cette tâche « Établissement et édition des textes » concernent les 24 oeuvres au programme du corpus (réparties dans les trois volets thématiques déclinés supra).

  • Tâche Environnement

La structuration principale des documents étant réalisée par une équipe restreinte et connaissant XML, les documents que nous avons à traiter sont déjà structurés et possèdent une première annotation. Nous pouvons donc nous appuyer sur une structuration solide de l'information et nous restreindre à la réalisation d'une interface d'annotation simple et efficace pour ajouter des annotations supplémentaires. Comme les flux devront être modérés avant d'être ajoutés au flux principal, il sera intéressant dans un premier temps de les gérer en dehors du flux principal, même s'il seront réintégrés à ce flux après validation. Différentes tâches sont à réaliser pour permettre l'ajout de notes philosophiques ou philologiques :

– mettre en place une interface d'annotation facile d'utilisation afin que les philosophes-éditeurs puissent annoter aussi simplement qu'avec un crayon. Basée sur les principes du « web 2.0 », cette interface devra permettre d'ancrer une note sur n'importe quelle partie du texte, c'est-à-dire un mot, une phrase, un paragraphe ou toute autre granularité du document. Pour la sélection de textes, une sélection très simple telle que celle utilisée par wizlite sera mise en place, nous utiliserons aussi le principe d'« éditeur en place » pour la sélection à l'intérieur d'un paragraphe, enfin afin de permettre l'annotation sur toute partie d'informations, une note pourra être posée sur plusieurs paragraphes répartis n'importe où dans l'oeuvre, une interface de type arbre dynamique sera alors utilisée. Il sera peut-être souhaitable de modifier la structuration initiale du document de façon à ce qu'elle soit plus fine et puisse ainsi permettre l'utilisation des XLINK (XML LINK)  ;

– mettre en place un outil de modération des notes. Les commentaires devant être modérés, il faudra développer une interface permettant de les modérer en ligne. Cet outil devra permettre de modérer les informations avec la même vue et le même contexte que l'utilisateur ayant posé la note. Ceci implique une gestion des droits et des différentes révisions de notes puisque nous voulons proposer à l'utilisateur de pouvoir éventuellement réviser une note déjà réalisée ;

– définir les XSLT (les feuilles de styles) permettant de visualiser de façon cohérente les différentes notes posées par les utilisateurs lors de la visualisation de l'oeuvre. L'expérience du GREYC sur l'information géographique sera ici un atout car la visualisation de notes sur différentes parties du document avec des notes se chevauchant ressemble, en beaucoup de points, à une visualisation multi-échelles d'informations géographiques ;

– rendre compatible l'application d'annotation avec un maximum de navigateurs web. Le but du projet est de pouvoir être potentiellement vu par tous, un regard tout particulier sera donc posé sur ce problème n'ayant aucune difficulté scientifique, mais une importance évidente en terme de facilité de divulgation et d'utilisation par un plus grand nombre ;

– définir les XSLT permettant d'incorporer les notes modérées par l'équipe éditoriale dans le flux des textes du corpus.

Indépendamment de l'outil d'annotation, il pourrait aussi être souhaitable de mettre en place un fil RSS permettant aux différents contributeurs de pouvoir suivre les notes et les débats sur une thématique particulière du projet. Ce fil RSS pourrait être construit à partir des notes insérées à partir de l'outil d'annotation. Tous les outils mis en oeuvre apporteront un soin particulier à la facilité d'utilisation et reposeront sur une vision centrée sur l'utilisateur.

  • Tâche Outils d'exploration de corpus

On propose la décomposition de la tâche « Outils d'exploration de corpus » en deux phases. La première correspond aux éléments dont la réalisation est nécessaire à l'exploitation scientifique de l'édition proposée et qui supposent la mise en oeuvre d'analyses et de principes méthodologiques issus de l'état de l'art en Traitement Automatique des Langues, et leur opérationalisation en ingénierie documentaire. La seconde, plus exploratoire, vise à appliquer sur ce corpus des principes linguistiques et computationnels issus de recherches récentes en analyse de discours, recherches qui pourront progresser significativement au contact de cette problématique particulière.

– Phase 1 : Outil de recherche sur une base morphologique, multilingue et terminologique (sous la responsabilité de la société Noopsis, en collaboration avec le GREYC)

En premier lieu, au niveau de complexité le plus faible, et conformément à un usage répandu, il conviendra de mettre en place un système permettant la recherche, au sein du corpus, d'occurrences de formes telles que spécifiées explicitement par l'utilisateur qui s'appuiera éventuellement sur les traditionnels opérateurs de troncature. Le résultat de sa recherche lui sera retourné, soit sous la forme d'une liste de liens vers les passages porteurs d'occurrences, soit sous la forme d'une liste de tels passages extraits de leur contexte, soit encore, par exemple, sous la forme d'une vue de type « concordancier » permettant d'aligner les occurrences pour comparer leurs contextes gauche et droit. Dès ce premier niveau, on souhaitera de plus pouvoir procéder à la recherche de cooccurrences de formes dans des contextes restreints, soit par des indications de distance maximale entre occurrences, soit par la spécification d'une unité structurelle englobante commune (section, paragraphe...). Pour chacun des niveaux présentés ci-après, ces principes de recherche de cooccurrences et les modalités de présentation des résultats seront maintenus.

À un second niveau, on souhaitera procéder à l'expansion morphologique des requêtes, c'est-à-dire à l'abstraction de la forme concrète des unités recherchées, au profit d'une recherche de toutes les formes fléchies issues d'une même racine ou d'un même lemme. À cet égard, on testera bien entendu la possibilité d'une lemmatisation automatique. Il est essentiel cependant de prendre la mesure de la difficulté qui résulte de l'importante variabilité morphologique qui caractérise en particulier le français classique. Pour y faire face, nous proposons la mise en place d'un système de génération assistée et de validation d'une ressource capitalisant les possibles dérivations. À l'aide d'un jeu de règles de dérivation générales (qui devront être établies), complétées par des mesures de distance d'édition, on procédera, sur la base du corpus, à la production d'une ressource maximaliste qui sera ensuite réduite et validée scientifiquement, et sur laquelle l'expansion morphologique des requêtes pourra s'appuyer. Outre les formalismes d'expression des règles de dérivation et le système permettant leur application en génération, il conviendra de développer l'outil permettant à l'expert de consulter, de modifier, puis de valider ladite ressource.

À un troisième niveau, on souhaitera pouvoir procéder à l'expansion multilingue des requêtes, afin de répondre à une requête formulée dans une langue (français contemporain, français classique ou latin) par l'ensemble des passages porteurs d'occurrences de termes « correspondants » dans l'une quelconque de ces langues. Cela supposera, une fois encore, la mise en place d'une ressource permettant de capitaliser ces correspondances. Sa production pourra être elle aussi partiellement automatisée, d'une part par l'utilisation éventuelle de dictionnaires multilingues (applicables soit aux formes concrètes, soit aux formes morphologiquement abstraites décrites ci-dessus) et d’autre part par la mise en oeuvre plus exploratoire de modèles d'alignements, tels qu'envisagés en traduction automatique.

À un quatrième niveau, on procédera à l'expansion terminologique de requêtes. On permettra ainsi à l'utilisateur d'élargir la portée de sa requête à des notions apparentées, dans la terminologie cartésienne, à la notion exprimée, en spécifiant le cas échéant la relation sémantique (synonymie, hyperonymie, causalité...) liant ces notions. La possibilité d'une telle expansion sera conditionnée par l'élaboration d'une ressource conceptuelle formalisant la terminologie cartésienne, qui pourra tirer pleinement bénéfice des formalismes et outils du web sémantique. Une interface sera proposée à l'utilisateur-expert, qui lui permettra d'établir cette ressource.

Concernant la recherche de cooccurrences, et pour chacun de ces niveaux, on pourra par ailleurs souhaiter dépasser la simple mesure de distance ou la spécification d'unités englobantes de nature structurelle (sections, paragraphes...) en identifiant des contextes linguistiques et sémantiques plus fins (phrase, proposition...). Cet élargissement sera du reste amplifié par le "zoning" argumentatif décrit ci-après.

– Phase 2 : Analyse discursive (sous la responsabilité du GREYC, avec le concours de la société Noopsis)

Cette phase plus exploratoire peut être décomposée en deux sous-tâches complémentaires. La première concerne l'analyse des structures discursives. La seconde porte sur la comparaison de ces structures.

L'analyse discursive consistera en particulier à procéder à un « zoning » argumentatif, c'est-à-dire à l'identification de zones textuelles correspondant à des buts ou intentions caractéristiques de l'auteur et pouvant être rapportés à une typologie rhétorique générale. On cherchera ainsi, par exemple, à identifier des segments textuels au sein desquels l'auteur présente une thèse générale, ceux où il procède à une illustration par l'exemple, etc. D'autre part, et relativement à cette segmentation, on visera l'identification de dispositifs argumentatifs plus complexes se traduisant par des structures textuelles matérialisant le cheminement du propos, et pouvant être rapportées elles aussi à des typologies d'organisations canoniques : motifs thèse/illustration, articulations concessives... Les informations issues de ces analyses discursives pourront être utilisées en particulier à deux niveaux. Elles pourront tout d'abord être exploitées dans la perspective d'une aide à la navigation intra-documentaire par l'indication, à l'utilisateur, du cheminement de l'argumentation, par le balisages de zones répondant à des buts particuliers de l'auteur, et par la mise à sa disposition d'outils de parcours du texte selon ce cheminement. Elles pourront d'autre part enrichir le système de recherche de cooccurrences de notions, en appliquant celui-ci à des contextes définis non plus en fonction de la structure formelle du texte, mais à la lumière de ces unités de sens.

Au plus près de certains travaux d'avant-garde en analyse de discours, la seconde sous-tâche visera l'exploitation de ces structures discursives, mais aussi des structures syntaxiques de plus bas niveau, dans le but de faire émerger des organisations caractéristiques de l'énonciation cartésienne, c'est-à-dire des dispositifs récurrents sous sa plume. Sur la base de cette mise en évidence, il s'agirait alors notamment d'explorer la possibilité de comparer ces structures caractéristiques à des structures manifestées par certains textes problématiques dans le but d'assister le chercheur pour la mise en évidence de passages inauthentiques attribués à tort à l'auteur. Insistons toutefois sur le caractère évidemment très incertain de la possibilité même d'une telle analyse semi-automatique.