CHAPITRE 23 – Modélisation fractionnée et simulation géométrique (1975-1981)
La recherche de modèles qui visent à améliorer le contrôle et la prévision de la fructification des caféiers doit se poursuivre. En effet leur rendement n’est pas entièrement explicité par la fertilité de leurs fleurs. Jusque là, le projet d’observer et de modéliser le détail de la production de fruit n’a connu que son commencement avec le choix de réifier en quelque sorte la probabilité pour en faire un caractère génétique observable et quantifiable. Selon de Reffye, il faut désormais passer de la synthèse de la graine à la synthèse du caféier en son entier. Rappelons-le en effet, la « fertilité » d’un arbre telle qu’il l’a définie n’est que le pourcentage de transformation de ses ovules en graines. Or, il existe un deuxième facteur qui détermine la production en grains de café d’un arbre : il s’agit de la « capacité de production » des fleurs elles-mêmes par arbre. Voyons en quoi ce nouveau problème diffère de celui que de Reffye s’était posé précédemment et qu’il avait résolu pour la thèse de troisième cycle. C’est lui qui le mènera aux premiers modèles d’arbres complets.
Comme l’indique de Reffye, on peut décomposer le rendement en grains de café par hectare de la façon suivante : « Rendement = nbre d’arbres/ha * nbre de fruits/arbre * nbre de graines/fruit. »1 À ses yeux, en cette année 1976, il se confirme donc que le problème du rendement en café semble pouvoir s’éclaircir à condition que l’on n’adopte pas d’emblée une approche d’optimisation globale et par le haut, comme il l’avait lui-même tentée dans le premier article de 1974. Au contraire, il lui apparaît désormais clairement nécessaire de découper, plus précisément de fractionner, le processus de production de graines en ses différentes phases biologiques successives.
Or, dans la composition de l’équation précédente, deux facteurs sur trois sont déjà connus ou assez aisément connaissables. Le nombre d’arbres par hectare est connu, stable et contrôlé. Il dépend des choix raisonnés de l’arboriculteur. Le nombre de graines par fruit, pour sa part, peut être prévu par les modèles probabilistes binomiaux propres à chaque clone, ou à chaque hybride, en vertu des travaux antérieurs de de Reffye, précisément ceux de la thèse de troisième cycle. Mais ce qui reste très difficile à évaluer est le nombre de fruits (ou de fleurs) par arbre. C’est ce que l’on appelle encore la « capacité de production ». Or, ce facteur ne semble pas pouvoir être synthétisé directement selon des scénarios élémentaires de modélisation comme ce fut le cas pour la fertilité. C’est bien là que de Reffye va se trouver confronté à des difficultés inédites : « Les nombreuses variables qui entrent dans la capacité de production rendent son analyse particulièrement complexe. »2 Quelles sont les raisons pour lesquelles de Reffye voit en la « capacité de production » un facteur biologique éminemment « complexe » ? Pour comprendre ce changement, il faut éclairer la manière dont il interprète les écueils rencontrés par les approches antérieures.
Représenter fidèlement plutôt que condenser
Dans l’article de 1976, de Reffye se livre à une critique en règle des solutions déjà adoptées par différents auteurs, mais sans les citer nommément1. Tel auteur croit ainsi pouvoir tirer directement parti de la formule précédente en s’imaginant qu’il est possible de connaître a priori le nombre de fruits par arbre : or, le fait est que cette détermination est « pratiquement irréalisable ». Autrement dit, c’est peut-être une solution théorique élégante mais qui ne donne pas prise sur le phénomène une fois que l’on se trouve sur le terrain. Elle ne peut en rien aider l’agronome qui veut se constituer un outil opérationnel. Pour évaluer la « capacité de production » de l’arbre, il faut se pencher sur ses détails morphologiques : ses ramifications, la morphologie de ses rameaux, son type de croissance, etc. Mais il faut de plus avoir un outil pour considérer ces détails tous ensemble, sinon on ne saurait décompter le nombre de fruits par arbre. Ce qu’il faut, c’est considérer l’arbre dans sa morphologie tout entière. Il faut donc nécessairement prendre en compte « à la fois toutes les caractéristiques d’architecture et de croissance de l’arbre »2. Dans ce cas de figure, le nombre de facteurs croisés et non contrôlés étant très grand, ce pourrait donc être un travail adapté aux méthodes de la biométrie.
Effectivement, une deuxième solution évoquée était davantage inspirée de la biométrie. Il s’agissait d’une analyse multivariée prenant en compte un nombre considérable de caractères architecturaux supposés intervenir dans le rendement : mesures de la circonférence de la tige, mesures de la feuille, des fruits et des grains. Le résultat de cette étude conduit, selon de Reffye, à un grand tableau de corrélations à partir duquel il est cependant assez vain d’espérer tirer l’information nécessaire. En effet, « une telle méthode nécessite de puissants moyens de calcul pour une efficacité le plus souvent douteuse »3. Même si c’est probablement son intention, sachant sa prédilection pour une attitude franchement modéliste, de Reffye n’attaque pas frontalement le recours à l’analyse multivariée en tant que telle : comme nous l’avons vu, ce serait mal venu dans la revue de l’IFCC qui publie régulièrement des travaux fondés sur de telles analyses. Son argument se contente de faire valoir une disproportion générale entre les moyens techniques engagés et l’espérance de succès afférente. Cet argument est intéressant parce qu’assez nouveau dans ce contexte et finalement très paradoxal. La critique qu’il fait ici de l’analyse multivariée a significativement évolué par rapport à celle avec laquelle il commençait son premier article de 1974 sur la « recherche de l’optimum » du rendement. Cette première critique consistait simplement à reprocher à l’analyse statistique son caractère trop descriptif ainsi que son incapacité à décider d’un optimum de fonctionnement pour une variable supposée dépendre des autres. En 1976, la critique est devenue autre parce que de Reffye a renoncé à rechercher directement l’optimum du rendement. Il faut nous y arrêter un moment.
La modélisation statistique est en effet attaquée par un flanc nouveau où elle ne pouvait s’imaginer en danger. De par son recours systématique à l’analyse multivariée, facilitée par l’utilisation désormais inconsidérée des calculateurs numériques programmables, la biométrie paraît en effet coupable d’être devenue trop théorique car trop éloignée des considérations d’efficacité de l’agronome. Ce qui est un comble si l’on sait qu’historiquement les outils qu’elle a forgés proviennent de considérations très empiriques et pragmatiques ! Voilà donc où se tient le paradoxe. Qu’est-ce qui légitime selon de Reffye que l’on puisse évoquer ici une dérive spéculative de la biométrie ? Rien d’autre que le flou qui règne au sujet de l’issue d’une telle analyse : « une efficacité le plus souvent douteuse. » Le cœur du problème tient au fait que l’analyse multivariée, en ne faisant pas de choix a priori, pose des questions trop ouvertes à la nature : ainsi récolte-t-elle le pire comme le meilleur mais sans savoir comment l’organiser en une connaissance pragmatique et directement opératoire1. C’est en ce sens précis que l’empirisme de la biométrie confine paradoxalement à la spéculation, en particulier en agronomie2. La modélisation, de son côté, tout en paraissant plus théorique à certains égards parce que plus chargée d’a priori,pose ce faisant des questions fermées à la nature. C’est en ce sens qu’elle peut être plus opérationnelle. Par exemple et successivement : quel est ton paramètre de loi de probabilité binomiale si je suppose a priori que c’est bien cette loi que tu suis ? Réponse : une valeur précise dans un ensemble défini de valeurs. Ensuite (test de signification) : est-ce que la réponse que tu me donnes est significative ? Réponse : oui ou non. C’est la précision de la réponse et son caractère tranché, indépendamment du recours ou non à des lois de probabilité, qui donne une prise sur le terrain. Ces arguments généraux sont jugés d’autant plus décisifs par de Reffye que les emplois purement inductivistes de l’analyse multivariée ne donnent en effet aucun résultat utilisable pour le problème précis qui le préoccupe en ce début des années 1970. Son option épistémologique initiale (rechercher des « lois de la nature » mathématiquement exprimables) se trouve ainsi confortée par sa pratique de recherche. Ces lois, ce sont ses modèles.
Enfin, de Reffye voit encore un autre inconvénient dans le fait de recourir à l’analyse multivariée pour les questions de rendement en agronomie. Nous le verrons, cette critique est essentielle car c’est la prise en compte de cette limitation des approches multivariées qui va en dernière instance justifier la décision du passage à la simulation, c’est-à-dire du passage de l’analyse des données à la synthèse d’objets, dans le cas particulier de la croissance et de l’architecture des caféiers. Cette critique tient en une phrase simple : l’analyse multivariée est coupable de négliger un certain nombre de données. Ce qui là aussi peut sembler très paradoxal ! Même si l’analyse multivariée semble ne négliger a priori aucune donnée, les mesures qu’elle considère ne correspondent toujours chacune qu’à un instant de mesure particulier alors que « l’arbre est en continuelle évolution »1. Les arbres sont donc comparés directement en faisant abstraction de leur histoire particulière. Ainsi la différence entre certains types de croissance n’apparaît pas. Mais la critique ne porte pas seulement sur le mauvais traitement de la temporalité des phénomènes par les analyses statistiques habituelles. Cela est essentiel à percevoir. Le texte de de Reffye ne s’appesantit pas sur cette question de la temporalité, qui lui paraît évidente, même si elle peut sembler à un lecteur pressé la raison essentielle pour laquelle on opte en général pour une approche dynamique et donc pour une simulation. Il se trouve en fait que l’argument de la temporalité n’est pas le seul. On y trouve aussi, comme nous allons le voir, une critique du traitement de la spatialité. Autant dire que ces critiques additionnées pourraient s’annuler. Puisque lorsque l’on dit d’une méthode d’analyse qu’elle ne rend compte ni de la temporalité, ni de la spatialité des phénomènes, c’est comme si l’on disait qu’elle ne rend compte de rien du tout ! Une critique qui porte sur la prise en compte à la fois de la temporalité et de la spatialité dans les solutions antérieures est-elle encore véritablement une critique de poids ? En quoi est-elle décisive pour de Reffye ?
Ce qui fait le caractère significatif pour lui de cette double critique, ce n’est pas le fait que les deux critiques s’additionnent mais plutôt le fait que l’une est enchâssée en l’autre : la critique qui consiste à dire que la spatialité a été négligée est enchâssée dans celle qui porte sur la temporalité. L’une ne peut aller sans l’autre : « En effet, les mesures faites ne sont valables qu’à l’instant où on les effectue, car l’arbre est en continuelle évolution. Ces ensembles de mesures sont le plus souvent traités selon des méthodes statistiques multivariables afin d’étudier la variabilité du matériel. Mais l’analyse multivariable ne permet pas de visualiser directement l’architecture, car celle-ci est concentrée en un point. Les différences entre deux arbres ne peuvent s’exprimer que par une distance entre deux points, d’où une perte considérable d’information. Les résultats acquis sont donc toujours assez limités. »2 Pour avoir lui-même pratiqué ce genre d’analyse (analyse en composante principale) dans son premier travail de 1974, de Reffye en perçoit clairement les limites pour son problème propre. Dans l’analyse multivariée, l’arbre est en effet représenté à un instant donné par un point au milieu d’un nuage d’autres points qui représentent l’état des autres arbres. C’est ce nuage de points qui est étudié de façon analytique, notamment par des analyses de variance qui font intervenir des minimisations de distances dans cet espace multidimensionnel3. Selon de Reffye, c’est cette distance ponctuelle, tout à la fois instantanée et construite dans un espace abstrait qui nous fait perdre de l’information. On y compare des choses qui ne sont pas comparables. Il faudrait au contraire qu’un temps dynamisé prenne en compte un espace hétérogénéisé. La distance abstraite fait violence à la complexité du phénomène spatio-temporel en l’occultant.
Cet argument de la perte d’information est de poids. Il peut toucher juste car il permet de montrer que, dans certains cas, l’outil classique de la biométrie contribue à lui faire escamoter ce qu’elle considère pourtant comme son objet d’étude de prédilection : la variabilité. La biométrie ne serait pas aussi circonspecte qu’on le croit d’ordinaire. Dans certains cas, rester sensible à la variabilité des phénomènes vivants supposerait de renoncer à l’analyse multivariée et à son pouvoir d’abstraction et de condensation. Il faudrait donc représenter plus visuellement et moins abstraitement l’architecture et la croissance de l’arbre. C’est alors que la « visualisation » est ici directement proposée comme alternative à la « ponctualisation », c’est-à-dire à la condensation abstractive qui résulte de l’analyse statistique.