Une « vérification expérimentale » … par simulation
Par la suite, les auteurs proposent néanmoins ce qu’ils appellent une « vérification expérimentale » de ce modèle probabiliste à l’aide d’une simulation aléatoire. C’est-à-dire qu’ils sortent de la phase d’analyse des données expérimentales qui avait pur but de trouver, de cerner et d’ajuster le modèle probabiliste générant des valeurs intermédiaires non accessibles à l’expérience. Et ils entrent dans une phase de synthèse de données intermédiaires ayant pour fonction de vérifier a posteriori la pertinence du modèle.
Voici alors comment ils décrivent la fonction d’une simulation. Comme on le verra, par rapport aux deux premières conditions que de Reffye s’était fixées en 1976 pour que l’agronome-biologiste puisse estimer avoir recours à une « simulation sur calculateur », la nouvelle condition de « régénération de la variable aléatoire » semble bien nouvellement et directement transférée des méthodes de la recherche opérationnelle :
« La simulation consiste à restituer le phénomène observé à partir de la théorie choisie et de préciser l’influence des divers paramètres, c’est-à-dire de régénérer la variable aléatoire xi, connaissant sa loi de distribution f(x) (qui est l’hypothèse de travail), à partir de nombres aléatoires. Pour la simulation, nous avons utilisé la méthode de la transformation inverse (Naylor et Balintfy, 1966). »α
Aux yeux des auteurs, la loi de distribution (ici l’expression générique « f(x) » vaut pour la loi de probabilité pi de leur modèle) que la modélisation fractionnée et combinée a permis de mettre au jour empiriquement, puis d’ajuster à une formule mathématique close, doit, dans cette seconde étape, passer pour une « hypothèse de travail ». Cela peut paraître très surprenant parce qu’il s’agit en fait plutôt d’un résultat empirique faisant suite à une analyse de données armée de modèles intermédiaires. Mais il est vrai que, dans le cas de la phase de simulation aléatoire par régénération des événements dans leur individualité même, cette distribution ou loi de probabilité peut à son tour jouer le rôle symétrique d’une « hypothèse de travail » dans la mesure où il s’agit justement, dans cette seconde phase, de « régénérer » des données. Ces « données » nouvelles ne sont pas vraiment des « données » au sens où elles proviendraient directement de l’analyse empirique initiale. Elles sont des données « construites », si l’on veut bien nous passer cet oxymore, à partir du moment où la loi de probabilité n’est plus utilisée au niveau de sa distribution et de ses fréquences mais au niveau des événements empiriques qu’elle pourrait1 déterminer en réalité. On ne cherche plus à résumer la loi de probabilité par une formule mathématique et on ne la traite plus comme telle ; on la fait fonctionner comme ce qu’elle est d’abord lorsqu’elle est confrontée à l’empirie : comme une loi des aléas, des événements aléatoires. C’est là que la simulation est perçue comme plus empirique que la formulation abrégée et abstraite de la loi de probabilité : en mettant de côté les paramètres de la loi mathématique et en revenant aux événements élémentaires et réalistes du phénomène qu’elle détermine. En ce sens, les auteurs considèrent qu’ils ont affaire à de nouvelles données empiriques même si cela se fait après la constitution d’un modèle mathématique de probabilité.
Un ouvrage de référence dû à des « simulateurs » en recherche opérationnelle
Enfin, la référence qui est faite ici à la fin du passage sus-cité est très significative. Il faut en dire quelques mots. Remarquons d’abord que ce sont bien les physiciens de la faculté d’Abidjan (Marchand et Lapasset), que de Reffye rencontrait souvent, ceux mêmes qui l’avaient conseillé dans l’achat de matériel, qui l’ont également initié à la simulation par ordinateur. Ce sont eux qui l’ont incité à travailler à partir du livre de Naylor et Balintfy1. Les recherches de de Reffye ont pu ainsi bénéficier de conseils prodigués par des physiciens eux aussi relativement exilés des centres de recherches majeurs en leur domaine.
L’ouvrage Computer Simulation Techniques est en effet un des premiers manuels assez complets de techniques de simulation mais dont les auteurs ont une origine principalement dans l’économie, la technométrie2, le management ou la recherche opérationnelle. Lors de la parution de cet ouvrage fondateur, Thomas H. Naylor est professeur associé d’économie à l’université de Duke et Joseph L. Balintfy est professeur associé de recherche opérationnelle à l’université de Tulane. Les deux autres co-auteurs ne sont pas non plus des chercheurs dans les sciences de la nature : Donald S. Burdiock est assistant de mathématique à l’université de Duke et Kong Chu est professeur associé de management industriel à Georgia-Tech (Georgia Institute of Technology). Certes, cet ouvrage n’est pas le premier sur le sujet3. Mais il présente un panorama complet des techniques élémentaires de simulation numérique sur ordinateur (appelé digital computer par les auteurs). De plus, dans un premier chapitre, il exprime pour la première fois une réelle réflexion sur les différents usages épistémologiques de la simulation numérique : en exposant différentes nuances, les auteurs en trouvent 15 en tout.
Mais l’une des nouveautés majeures de cet ouvrage est qu’il présente la simulation numérique comme une nouvelle pratique scientifique à part entière, à côté des méthodes analytiques ou spéculatives traditionnelles, et qu’il développe ainsi quelques arguments d’ordre épistémologique. Pour ce faire, les auteurs ont d’abord recours à une philosophie des sciences positiviste, assez répandue à cette époque dans les pays anglo-saxons, celle de Hans Reichenbach. Selon cette épistémologie, le travail scientifique procèderait en quatre étapes : l’observation, la formulation d’hypothèses explicatives et prédictives sous la forme de modèles mathématiques, le traitement de ces modèles (résolutions logiques, calculs…) pour en obtenir des prédictions, enfin la constitution d’expérimentations pour tester la validité des modèles1. Les auteurs se demandent donc à quel niveau la simulation numérique peut bien apporter son soutien. Leur réponse est surprenante : à tous les niveaux, affirment-ils. Ainsi, et en substance, la simulation servirait notamment à pallier le défaut de données lorsqu’elles sont inaccessibles, que ce soient les données servant, en amont du travail scientifique, à l’induction2, c’est-à-dire dans le processus de création d’une hypothèse théorique ou que ce soient les données servant, en aval, à la vérification de cette hypothèse théorique et de ses prédictions. Elle servirait également à pallier le défaut d’une expression mathématique du modèle par équations classiques ou bien encore l’absence d’une résolution mathématique analytique du modèle mathématique obtenu, quand bien même il serait formulable par des équations générales classiques3. Ainsi, pour les auteurs de cet ouvrage, dès lors que la simulation numérique peut jouer un rôle à chaque étape du travail scientifique, il est incontestable qu’elle peut entre autres servir à « vérifier des solutions analytiques »4, c’est-à-dire se substituer en quelque sorte à la quatrième étape du travail scientifique, celle de la vérification empirique.
La génération de nombres pseudo-aléatoires et la méthode de la transformation inverse5
Afin de simuler le tirage au sort d’événements successifs obéissant à une loi de probabilité donnée, il fallait d’abord disposer de nombres aléatoires. Or, il existe quatre sources possibles de nombres aléatoires : 1- les méthodes manuelles (lancers de pièces, de dés, roulettes…) ; 2- les tables numériques publiées de séquences aléatoires comme celle de la RAND Corporation1, ces tables ayant été auparavant établies par un travail mettant en œuvre une des trois autres méthodes ; 3- les méthodes des calculateurs analogiques (fondées sur des processus physiques aléatoires comme le comportement d’un courant électrique) ; 4-les méthodes des calculateurs numériques. Les méthodes 1 et 3 peuvent donner l’impression de fournir des nombres aléatoires « vrais » mais elles présentent l’énorme inconvénient d’interdire la reproduction de la séquence aléatoire, ce qui est nécessaire pour la vérification des calculs, l’emploi de tests statistiques a posteriori, etc. La méthode 2 est très lente et ne peut pas être implémentée dans un calculateur numérique sans que lui soit communiqué ce gros désavantage puisqu’il faut stocker la séquence intégralement dans une mémoire (à cartes ou sur bandes magnétiques à l’époque, donc à accès très lents). Au milieu des années 1950, sous l’impulsion des premiers travaux de von Neumann en ce sens, puis de ceux d’un mathématicien de Berkeley, Derrick H. Lehmer, les méthodes purement numériques de génération (par récurrence) sont donc privilégiées. Ainsi, au début des années 1960, presque tous les calculateurs numériques disposent, dans leur code, d’une instruction (souvent RANDOM ou RND) qui leur permet d’extraire des nombres aléatoires par telle ou telle « variante des méthodes congruentielles de Lehmer »2. Le plus souvent, cette instruction met à disposition une loi de probabilité uniforme sur un intervalle quelconque de nombres entiers. C’est-à-dire que, du point de vue des tests statistiques, chaque nombre y est proposé avec une même probabilité.
L’objectif de la méthode de la transformation inverse est de permettre ensuite à la machine de proposer des nombres aléatoires successifs dont la distribution obéit à une loi quelconque connue et que l’on veut pouvoir simuler. Pour sa part, l’instruction RND (dans le cas du langage FORTRAN ou HPL par exemple) ne fournit donc que des séquences ayant des fonctions de densité de probabilité constantes. Le problème consiste à transformer une loi uniforme en la loi de densité f(x) voulue. Si l’on considère la fonction de densité cumulée F(x) de f(x), quelle que soit f(x), F(x) varie de façon monotone de 0 à 1. Si l’on pose F(x) = rnd, rnd étant un nombre aléatoire généré selon une loi uniforme, on définit ce faisant un et un seul x. Pour toute valeur de rnd, il est donc possible de trouver la valeur de x qui lui corresponde : x = F(rnd). Dès lors : r = F(x) = et F-1-1(rnd) est bien une variable qui a f(x) pour densité de probabilité.
Dans l’article de 1977 publié par les quatre chercheurs de l’IFCC, la méthode de génération de nombres pseudo-aléatoires (voir encadré) est textuellement reprise de l’ouvrage de Balintfy et Naylor. De manière très frappante, les notations elles-mêmes sont conservées. Comme il le fit dans le premier article de 1976, de Reffye propose ensuite un organigramme témoignant du traitement successif et imbriqué des modèles. Mais à la différence des deux programmes de 1976, celui-ci présente une simulation nettement aléatoire puisque c’est l’approche par la reconstitution des événements successifs dans leur caractère aléatoire même (et non dans une fonction temporelle certaine d’apparition) qui est choisie. Les auteurs résument eux-mêmes la séquence de l’organigramme :
« Dans un premier temps, on propose à l’aide de la loi des passages efficaces des nombres représentant les dépôts des paquets de grains de pollen suivant leurs fréquences naturelles.
Dans un deuxième temps, ces nombres sont introduits dans une boucle où l’on choisit les amas de grains de pollen suivant leur distribution naturelle de fréquence. Lorsque la boucle est terminée, on a la somme totale des grains de pollen apportés sur le style. »1
Après le tirage d’un premier nombre aléatoire, la première étape de programme détermine donc aléatoirement le nombre total de passages efficaces qui vont affecter le style. Ensuite le programme entre dans une boucle : pour chacun de ces passages efficaces, le programme détermine aléatoirement (donc après tirage d’un deuxième nombre aléatoire) le nombre de grains qu’il y a dans l’amas apporté par ce passage efficace. À la fin de la boucle, le programme somme tous les grains apportés par tous les passages efficaces et donne le résultat.
Contingence des types d’événements aléatoires
On voit donc qu’il s’agit là de deux processus aléatoires imbriqués et non plus seulement de deux fonctions mathématiques certaines et fractionnées puis recomposées pas à pas selon la vraisemblance du récit biologique simplifié. Dans le cas du premier modèle logico-mathématique de croissance du caféier ou même de verse, où il s’agissait de combinaison de fonctions certaines, l’approche se faisait bien déjà par la succession des événements biologiques aléatoires, mais le type de l’événement suivant était exprimé de façon certaine. Les fonctions certaines prenaient en compte la moyenne de la date aléatoire et la certitude du type de l’événement suivant ; et c’était de ces deux certitudes dont témoignait le modèle logico-mathématique. Avec l’adoption des processus stochastiques, ce n’est donc pas l’approche par événements à proprement parler qui fait la nouveauté, mais une approche dans laquelle non seulement la date des événements est considérée comme aléatoire mais également leur type même. Les événements simulés sont aléatoires dans la mesure où ils sont indéterminés a priori. En effet, en 1976, on sait quel type d’événement va succéder au précédent puisqu’il s’agit d’une croissance simple : dans la première boucle, c’est la formation d’un rameau suivant qui succède à la formation du rameau précédent, dans la seconde boucle imbriquée, c’est également la formation du nœud suivant qui succède à la formation du nœud précédent, et rien d’autre. Par la suite, le comportement mécanique de la plante, qui est également pris en compte dans le second modèle de 1976, se trouve tout aussi uniment déterminé. Ce que l’on doit déterminer dans les premiers modèles logico-mathématiques, c’est donc seulement le laps de temps qu’il faut attendre pour que cet événement, dont le type précis est connu à l’avance, se manifeste. Car, en revanche, ce laps de temps est décisif pour déterminer le nombre de sous-événements (la formation des nœuds des rameaux) venant s’insérer dans la temporalité de l’événement majeur. Pour le premier modèle de 1976, c’est la formation des rameaux, pour le second modèle de 1976, c’est la mise en forme mécanique des tiges et des rameaux.
Ce que l’on gagne à simuler aléatoirement l’aléatoire
Dans l’article de 1977, les auteurs insistent pour finir sur l’intérêt qu’il y a à disposer de la capacité à régénérer intégralement les distributions des événements aléatoires et pas seulement leurs moyennes ou leurs variances, comme c’était le cas pour les modèles à équations mathématiques. La simulation a permis selon eux de « vérifier la justesse de l’analyse mathématique »1. C’est à ce titre qu’elle passe pour une expérience : elle a le pouvoir de corroborer une vision théorique mais dans la mesure même où elle est une reconstitution plus « exacte » du phénomène réel, reconstitution pourtant elle-même sous-tendue par l’hypothèse théorique. En effet, à partir de la représentation logico-mathématique, il est possible de comparer les résultats simulés avec les résultats théoriques, c’est-à-dire deux produits de la même représentation logico-mathématique initiale mais n’émanant pas de la même interprétation de cette représentation. Pour les « résultats théoriques », il s’agit d’une interprétation prioritairement abstractive, condensante, centrée sur les moyennes des phénomènes et sur les paramètres des modèles mathématiques (faisant abstraction du temps et de la diversité effective des types d’événements), alors que pour les « résultats simulés », il s’agit d’une interprétation constructive doublée d’un usage régénératif au niveau des événements temporels et ponctuels des mêmes modèles. Or, la restitution simulée est ici moins abstraite que le modèle mathématique abstractif puisqu’elle conserve et utilise au moins une des dimensions concrètes du phénomène initial comme support de sa manifestation : le temps. La représentation rencontre le phénomène et le touche pour ainsi dire au moins en cette dimension. La ressemblance d’aspect (si l’on veut bien considérer la temporalité d’un phénomène comme étant un de ses aspects) est donc plus grande dans la simulation que dans l’interprétation abstractive d’une modélisation mathématique faisant notamment abstraction du temps : la transfiguration abstractive de l’empirique y est moindre. Ce dualisme dans l’interprétation des modèles logico-mathématiques du programme autorise donc qu’une conséquence interprétative calculée du modèle en « vérifie » une autre.
Mais aussi, avec la simulation, la « représentation » est tout simplement plus « fidèle », selon les auteurs. Après avoir appliqué un test du χ sur les résultats simulés, ils s’expriment ainsi : « On conclut que la simulation représente fidèlement les processus de pollinisation. »2 Il en ressort plusieurs conséquences pour l’agronomie et la biologie. Ils en tirent notamment un argument en faveur de la mise en évidence d’une nouvelle caractéristique biologique du cacaoyer et que seule l’approche par simulation a permis de développer : « L’aspect des distributions est toujours identique et semble être une caractéristique du cacaoyer. »1 Un travail sur la seule moyenne ou même sur la variance n’aurait pas permis une telle analyse. La forme de la distribution en elle-même devient un caractère génétique. Ils rappellent que ce genre d’approche permet aussi de ne pas préjuger de la nature des vecteurs de pollens impliqués. C’est ce qui fait sa puissance alors même que les données expérimentales sont difficiles d’accès. L’insertion, dans le modèle, de l’aléa propre à l’échelle d’observation du phénomène réel permet de disposer d’une représentation plus précise ou plus « fidèle »2 de ce que l’on observe sans que l’on ait pour autant à décider de la nature des phénomènes microscopiques réels qui président à la manifestation macroscopique de cet aléa. Cette précision dans la représentation permet d’envisager l’évaluation des conséquences de divers traitements agronomiques qui, sinon, restaient difficiles à distinguer de l’hypothèse nulle. Dans une perspective pragmatique, cette majoration de la fidélité propre à la représentation scientifique ici construite se justifie par un gain en précision permettant lui-même un gain dans le pouvoir discriminateur des méthodes logico-mathématiques en général par rapport à celui de la seule analyse multivariée, notamment lorsqu’il s’agit d’évaluer et de comparer diverses pratiques culturales.
La réception du modèle de simulation aléatoire pour le cacaoyer
Lors de la sixième conférence internationale sur les recherches cacaoyères, qui s’est tenue à Caracas du 6 au 12 novembre 1977, deux des auteurs de ce modèle de simulation (de Reffye et Parvais) présentent leur travail. Nous ne disposons ici d’aucun écrit qui pourrait directement rendre compte de ce qui s’y est dit. Mais, en se référant au rapport de synthèse, il est possible de se livrer, quoique avec prudence, à quelques suppositions au sujet de la réception de ce travail. Il est en effet instructif de remarquer dans quelle « session technique » les organisateurs du colloque ont choisi de le situer : il s’agit de la 7 session, dite des « pollinisateurs »me. Comme dans le cas de la réception du modèle de croissance du caféier, le caractère innovant en ce secteur des choix de modélisation n’est pas tellement mis en avant. Mais au regard des noms des autres sessions techniques de la conférence, la particularité de l’approche de de Reffye ne semble effectivement pas pouvoir s’inscrire dans une catégorie qui lui conviendrait beaucoup mieux. Dans la session « pollinisateurs », on trouve cependant la référence à un autre travail mené au Brésil et qui propose une approche des pollinisateurs des cacaoyers par des méthodes de type « dynamique des populations ». Avec le modèle de simulation aléatoire que nos auteurs (et surtout de Reffye) y présentent également, c’est un voisinage qui semble a posteriori placer cet article de l’IFCC dans la nette filiation de la dynamique des populations alors même que ses auteurs ne s’en sont pas initialement réclamés. Ce rapprochement paraît en effet bienvenu puisque, dès 1945, nous l’avons vu, les processus aléatoires ont été utilisés par P. H. Leslie1 dans cette discipline qui se trouve très proche, tant par ses méthodes que par ses objets, de la démographie et de l’écologie des populations. Ainsi le rédacteur (anonyme) du rapport de synthèse insiste tout de même assez nettement sur l’apport de la simulation dans l’approche du problème spécifique à la pollinisation du cacaoyer :
« En Côte d’Ivoire, J. P. Parvais, Ph. de Reffye et P. Lucas (IFCC) sont parvenus à une analyse mathématique des données d’observation sur la pollinisation libre chez le cacaoyer. L’observation de la pollinisation des styles et la connaissance de la loi d’agrégation du pollen permettent de définir précisément le mode d’action des vecteurs pollinisateurs. Des méthodes de simulation permettent de reconstituer exactement les phénomènes naturels. L’application du modèle et sa simulation permettent de contrôler les différentes modalités de la pollinisation d’un cacaoyer et de préciser l’éventuelle influence des facteurs externes sur elle. »2
Ainsi cette restitution rapide figurant dans le rapport de synthèse semble assez fidèle à l’esprit des chercheurs impliqués, au mouvement de leur pensée et au sens de leurs choix techniques. Ce travail paraît donc avoir bénéficié d’une meilleure écoute que ceux qui ont porté sur la modélisation de la verse du caféier par exemple. Au regard des éléments fragmentaires dont nous disposons et que nous avons rapportés précédemment, il nous est possible de supposer que cet accueil plus « compréhensif » a tenu au fait que l’auditoire (constitué en majorité d’agronomes et de biologistes) était mieux préparé à la reconnaissance de la pertinence des modèles aléatoires. Par l’objet qu’il cherche à modéliser préférentiellement (le comportement aléatoire des insectes pollinisateurs), ce travail peut en effet s’apparenter très directement à l’étude dynamique d’une population et de son comportement de déplacement ou de flux, la population étant ici celle des insectes se déplaçant individuellement de façon plus ou moins aléatoire dans l’espace et dans le temps.
Toujours est-il que, dans ce contexte de recherche agronomique, c’est essentiellement l’objet d’étude, le cacao, et non les méthodes employées, qui prime encore puisque cet objet sert en retour à la classification des travaux présentés, comme ce sera également le cas, deux semaines plus tard, au colloque international sur le café d’Abidjan. C’est en effet de façon centrifuge, par rapport à la production finale en cacao et aux différents angles d’attaque de ce même problème, que les sessions de la conférence s’ordonnent les unes aux autres. Pour finir, indiquons que, dans la bibliographie analytique habituelle de la revue, l’article sur ce modèle aléatoire de pollinisation figurera cette fois-ci, de façon tout aussi peu convaincante, dans la catégorie « amélioration » alors que le second article de 1978 des mêmes auteurs1, qui étendra la modélisation à la question des impacts sur le rendement en cacao, se trouvera rangé dans la rubrique « biologie ». Décidément, en cette fin des années 1970, la modélisation ni la simulation ne trouvent à se classer de façon stable et convaincante dans les rubriques de la revue de l’IFCC.
De la pollinisation au rendement : simuler pour discriminer les différents facteurs biologiques de la fructification
La connaissance des facteurs qui limitent la pollinisation des cacaoyers (rareté des « passages efficaces » de grains de pollen, raretés des amas de plus de 35 grains) n’est en fait qu’une partie de la connaissance nécessaire à une explication de la faiblesse et de la variabilité du rendement en fèves de cacao à l’hectare. À la différence de ce que l’on doit considérer pour le caféier, il faut ici tenir compte de la variabilité du nombre d’ovules par ovaire puis du taux de transformation des ovules en graines. Dans un article qui paraît en 1978, de Reffye, Parvais et Lucas poursuivent donc leur travail commun en s’adjoignant les services du généticien de l’IFCC G. Mossu. Alors que, pour le premier article de 1977 sur la pollinisation du cacao, de Reffye n’avait été que le deuxième cosignataire, il en est désormais le premier. Ce qui indique, d’après les pratiques habituelles de la revue Café, Cacao, Thé, qu’il en est le principal contributeur. De fait, cet article assez long (20 pages) manifeste un ample déploiement de modèles mathématiques de natures diverses. Ce travail frappe par la grande maîtrise dont il témoigne désormais dans l’insertion de ces modèles à des fins d’analyse biologique. Mais surtout, une particulière sensibilité mathématique aux diverses formulations équivalentes de ces modèles, à leurs conversions réciproques, à leurs combinaisons et à leurs inversions, nous fait penser que l’on a là affaire à un emploi des mathématiques qui n’est pas superficiel et de simple application. Comme ses articles précédents, de Reffye avance pas à pas des hypothèses de sous-modèles pour chacun des sous-processus négligés jusqu’alors dans les travaux d’analyse multivariée. Et, au travers de cette incontestable maîtrise mathématique, on sent une capacité à adapter en souplesse les modèles à la réalité mesurable, ou simplement supposée, de chacun de ces micro-événements biologiques qui mènent l’arbre à sa fructification.
Nous ne reprendrons pas ici le contenu de cet article en détail puisque le procédé d’analyse y est le même que précédemment. Mais nous allons tout de même donner une image de la façon dont les sous-modèles y sont d’abord introduits séparément puis rendus ensuite compatibles entre eux par le calcul ou par la simulation. Le but principal des auteurs est de partir de ce qui est pour l’heure mesurable à l’issue de la fructification, à savoir la distribution du nombre de fèves (ou de graines de cacao) par cabosse, pour tirer la structure mathématique sous-jacente des différents facteurs qui déterminent cette distribution finale. Cela leur paraît la seule manière d’évaluer précisément la contribution de chacun de ces facteurs. Il serait en effet assez vain de se lancer dans une entreprise de sélection génétique de clones de cacaoyers sans disposer d’une telle connaissance.
Or, on peut déjà supposer que ce n’est pas la forme globale, parce que finale, de la distribution du nombre de fèves par cabosse qui est directement déterminée génétiquement. Elle ne peut être considérée comme un caractère génétique en soi puisqu’elle est la résultante de divers micro-événements combinés, dont certains même sont aléatoires. L’hypothèse de travail de de Reffye et de ses collègues ici consiste donc à affirmer qu’il est possible de trouver une échelle à partir de laquelle on peut se représenter des micro-événements suffisamment « élémentaires » et susceptibles, en se combinant, de contribuer effectivement à la distribution finale mesurable. L’article que nous évoquerons ici procède alors en deux temps principaux. Tout d’abord, il se livre à ce qu’il appelle une « analyse logique » de la courbe globale de fréquence des fèves par cabosse. Ensuite, il propose l’organigramme et la liste du programme de simulation prolongeant l’analyse.
L’« analyse logique » d’un macro-événement : le nombre de fèves par cabosse
De Reffye1 veut donc explicitement « analyser » un histogramme dont certains prédécesseurs n’avaient considéré que la moyenne et la variance2. C’est-à-dire qu’il veut déceler les constituants de cet histogramme sans le résumer prématurément par un modèle probabiliste. C’est donc son profil tout entier (son « faciès » comme il le dit3) qu’il faut prendre en considération et pas seulement ses premiers moments statistiques (moyenne ou variance). Ce qui a pu ici inciter de Reffye à entrer dans la voie de l’analyse de l’histogramme en vue de la mise au jour de ses différentes contributions, c’est notamment la prise en compte du fait empirique mesuré et constaté selon lequel le faciès de la fréquence des fèves par cabosse est très complexe : il change souvent d’aspect. Parfois, il présente deux maxima ou pics, parfois il n’en présente qu’un. Quand il n’en présente qu’un, la courbe peut être soit à symétrie négative, soit à symétrie positive. Autant dire que le talent heuristique qui lui avait jusqu’à présent permis, à la vue de simples faciès de courbes empiriques, de suggérer des modèles mathématiques simples et ajustables se trouve ici en grande difficulté.
La seule voie lui paraît donc l’analyse puisque aucun scénario mathématique simple ne s’impose au niveau empiriquement accessible. Mais ce ne sera pourtant pas une analyse de variance. Ce genre d’analyse de phénomène global postule trop une homogénéité relative des sous-modèles constituants, donc leur commensurabilité, c’est-à-dire encore leur uniformité et leur compatibilité mathématique mutuelle. C’est précisément ce dont permet de se dispenser en revanche l’analyse par construction de sous-modèles postulés ou validés localement, c’est-à-dire validés à leur échelle. C’est là que de Reffye fait donc nettement le choix de la complexité. Il décide que ce phénomène est global, qu’il résulte d’une multiplicité de facteurs enchevêtrés et hétérogènes, autrement dit, qu’il est complexe. Bien sûr, il s’aide de considérations biologiques bien connues pour s’encourager en ce sens. Mais on voit bien que ces seules considérations biologiques n’auraient pas suffi. Car, alors même qu’elles étaient également connues de ses prédécesseurs, elles n’avaient pas été intégrées en tant que telles dans leurs modèles statistiques. C’est donc bien cette décision pour la complexité et sa modélisation, c’est cela qui l’amène à l’hypothèse implicite déjà évoquée et qui traverse tout ce travail : la supposition qu’il est pertinent de chercher une échelle micro-événementielle, dont il espère tirer des sous-modèles ajustables. En ce sens, le travail de 1978 témoigne d’un affermissement plutôt que d’un infléchissement de l’esprit qui avait animé de Reffye dès ses premiers travaux de 1975 et 1976.
Tout naturellement, c’est donc dans un ordre conforme à l’ordre chronologique réel de ces micro-événements biologiques supposés que de Reffye va successivement proposer les sous-modèles mathématiques censés les représenter. Dans un premier temps, il reprend les acquis de l’article de 1977 sur la loi de répartition du pollen sur les styles puisque toute fécondation commence par cet épisode. Mais pour la question qui est désormais posée (se pencher essentiellement sur l’aval de la fertilisation des ovules et non sur l’amont : la pollinisation), il devient possible de faire abstraction de la distribution des « passages efficaces » comme de la distribution des amas de pollen dans les étamines et de se contenter de la loi de répartition finale. Il est d’ailleurs instructif de constater que ce qui, en 1977, était à considérer comme un histogramme macro-événementiel global et à analyser en ses différentes contributions, devient, en 1978, un histogramme micro-événementiel élémentaire. De Reffye ne fait donc pas de l’analyse des phénomènes temporels une fin en soi. La définition de l’échelle élémentaire ou du micro-événementiel n’est donc pas pour lui une donnée a priori. Elle dépend essentiellement de l’échelle macroscopique à laquelle on a accès empiriquement mais aussi de la profondeur analytique à laquelle on veut ou on peut efficacement aller. Car cette profondeur analytique dépend elle-même des instruments disponibles et des méthodes de mesure plus ou moins nouvelles ou imaginables, et susceptibles d’être mobilisés pour une enquête à la nouvelle échelle interrogée, cela en vue de l’ajustement effectif des sous-modèles. Une telle modélisation n’est pas tant déterminée par ses objectifs que par les moyens empiriques qu’elle est capable de mettre précisément, c’est-à-dire mathématiquement, en évidence et en œuvre. Elle est, pourrait-on dire, relativement déracinée mais pas totalement déracinée comme le serait en revanche une modélisation dont les éléments seraient considérés comme purement fictifs (modèle statistique) ou transversaux (modèle d’allométrie). Elle est un échantillon, une coupe longitudinale (du point de vue du temps) dans les chaînes de causalité supposées s’enraciner plus profondément dans la physico-chimie. Cette coupe ne repose certes pas sur un fondement. En cela, elle est déracinée. Mais le mouvement causal qu’elle reconstitue n’est pas sans rapport avec la direction d’ensemble de ces causalités supposées qui vont du microscopique au macroscopique. Ce modèle de simulation n’est donc pas uniquement descriptif. Il explique le phénomène relativement à l’échelle mésoscopique observable sur laquelle il se fonde. Alors que le modèle d’allométrie est statique puisqu’il ne fait pas intervenir la variable temps, le modèle de simulation est dynamique. C’est pourquoi on peut dire qu’il retrace une histoire : il réplique les détails du phénomène dans leur historicité.
Un formalisme peut en invalider un autre
De Reffye reprend ensuite la formulation de sa loi de répartition des grains sur les styles. Mais il insiste cette fois-ci nettement sur la forme analytique de cette loi qu’il rapporte à la formulation de la « loi de Pareto », usuelle en économie et en sociologie des inégalités. Car, entre-temps, il a continué de s’instruire en statistiques descriptives, notamment auprès des volumineux manuels du démographe et statisticien de l’INED Gérard Calot1. C’est dans une librairie universitaire d’Abidjan qu’il avait fait auparavant l’acquisition de ces ouvrages suffisamment classiques pour être diffusés assez largement2.
La loi de Pareto
Dans son Cours d’économie politique (1896), le physicien, puis économiste et sociologue italien Vilfredo Pareto (1848-1923) se penche sur les questions que pose la répartition de la richesse dans une société donnée. Il propose alors une loi mathématique susceptible de représenter la proportion des personnes qui ont un revenu supérieur à une valeur x choisie. Cette loi peut s’exprimer par une fonction de densité f(x) :
f(x) =
Or, elle admet comme moyenne
et comme variance3
V =
Grâce aux relevés empiriques dont ils disposent, de Reffye et ses collègues trouvent donc à chiffrer les inconnues a et x0 de la loi de Pareto. Ils procèdent par passage à la fonction cumulative F(x), qu’ils linéarisent ensuite par le logarithme et à laquelle ils appliquent la méthode classique de régression suivant les moindres carrés. Or, l’intérêt que représente cet ajustement à une loi mathématique exprimable analytiquement est majeur pour de Reffye. En effet, d’une part l’ajustement de ce modèle sur les mesures en champ est excellent, puisque l’on obtient un coefficient de corrélation qui se situe entre 0,95 et 0,991. D’autre part, les valeurs que l’on obtient pour le coefficient de Pareto ‘a’ donnent pleinement raison a posteriori au choix qui a été fait d’abandonner les méthodes d’analyse biométrique par la moyenne et la variance :
« La moyenne n’existe donc que si a est supérieur à 1, et la variance n’existe que si a est supérieur à 2. Dans les conditions de pollinisation de Bingerville et de Divo, a est toujours inférieur à 2 ; l’étude de la pollinisation moyenne des arbres et leur comparaison d’après ce critère n’a donc pas de sens. »2
Par conséquent, il serait aberrant de procéder ici à une analyse de variance. Plus loin, de Reffye montre que le paramètre ‘a’ est même plutôt situé entre 0,42 et 0,71. C’est-à-dire qu’il est inférieur à 1. Ce qui indique qu’il n’y a même pas de moyenne ! En effet, en appliquant la formule analytique et exacte de la moyenne valable pour une loi de Pareto (voir encadré), on trouverait une valeur négative alors que la valeur de la distribution f(x) est évidemment toujours positive. Ce qui est manifestement aberrant.
C’est la notion même de moyenne mathématique qui n’a donc pas de sens dans ce cas de figure. Il n’y a pas là de miracle, bien sûr. Cela est dû au fait que, dans le cas empirique qui nous préoccupe, et avec les valeurs de ‘a’ que l’on trouve, la distribution diminue très rapidement lorsque x croît. Il n’y avait donc pas de sens à aborder ce problème avec l’outil mathématique de la moyenne statistique ou de la variance. Car, si l’on fait confiance au modèle mathématique ajusté, la moyenne n’est mathématiquement pas définie ; et les chercheurs précédents ont eu tort de la supposer définie par principe. Certes ce modèle de Pareto n’est ajusté que sur une partie de la courbe. Mais c’est précisément la partie qui est à prendre en compte pour la question posée : il s’agit des cas rares où x est grand, c’est-à-dire où il y a suffisamment de grains de pollen pour qu’il y ait ensuite une éventuelle fructification. On est donc là en présence d’un phénomène certes mesurable mais dont on a désormais compris qu’il serait très malvenu de recourir à la formalisation de la moyenne pour le représenter et l’expliquer. Il s’agit d’un cas assez peu fréquent où le recours à un formalisme de modélisation permet de disqualifier nettement le recours à un autre type de formalisme.
Sans vouloir prétendre l’expliquer tout à fait, nous est-il possible de saisir sur ce cas particulier le sens de l’incohérence mathématique qui se produit là ? Si la réponse existe, elle se trouve dans ce que de Reffye et ses collègues font précisément lorsqu’ils tentent de convertir le formalisme de la loi de Pareto dans le formalisme qui fournit l’expression de la moyenne d’une distribution de densité donnée. C’est dans la tentative de conversion d’un formalisme en un autre que l’on est conduit à une distorsion manifeste signifiant le rappel à l’ordre d’un certain nombre d’hypothèses mathématiques implicites, d’habitude oubliées, mais qui sont nécessaires pour l’utilisation légitime du second formalisme. La tentative de convertir le premier formalisme en le second a ainsi imposé des restrictions axiomatiques que le premier formalisme ne s’impose pas de lui-même. C’est cette tentative avortée qui fait bien comprendre où le nouveau formalisme se distingue avantageusement de l’ancien. Encore faut-il que ce formalisme disqualifiant soit considéré comme efficace par ailleurs. Ce qui est le cas de par la précision des ajustements aux données de la loi de Pareto. Ainsi il se peut qu’un formalisme disqualifie l’usage d’un autre formalisme.
Une « démonstration » par simulation ?
Ensuite, lorsque les grains sont sur les styles, il y a un autre type de micro-événement biologique qui survient : la plus ou moins grande « efficacité » du grain de pollen1. Or, on ne sait comment représenter la distribution des grains efficaces dans la population totale des grains : l’expérience n’y a pas accès. Mais il y a deux modèles simples et crédibles qui peuvent a priori s’imposer. Si le pourcentage de grains de pollen efficace est constant et ne dépend pas du nombre de grains déposés sur le style, on peut montrer directement, par simple calcul algébrique, que la composition des deux lois, loi de Pareto et loi linéaire simple, donne encore une loi de Pareto de même coefficient comme résultante. La loi de répartition des grains de pollen efficaces serait donc de même forme que la loi de répartition des grains de pollen présents en totalité sur le style. Mais si la distribution de grains de pollen efficaces suit une loi binomiale, il n’est en revanche pas possible de la composer analytiquement avec la loi de Pareto. Toutefois il est possible d’en tirer la même conclusion : la loi de Pareto conserve sa forme.
Pour « démontrer » que cela est aussi valable pour le cas hypothétique d’une loi binomiale régissant l’efficacité du grain, de Reffye procède alors à une simulation. Avec un petit bout de programme employant la méthode de transformation inverse reprise de Naylor et Balintfy, il fait tirer au hasard par la machine un échantillon de 1500 fleurs pollinisées en lui faisant composer pas à pas (et non pas de façon analytique) les deux tirages aléatoires, le premier réglé par la loi de Pareto (présence des grains sur le style), le second réglé par la loi binomiale (efficacité ou non de chaque grain tiré). Le résultat de la simulation est présenté sous forme graphique (grâce à l’usage de la table traçante) et est publié tel quel dans l’article de 1978 pour avoir force de preuve : le faciès résultant est bien visiblement et également celui d’une loi de Pareto2. Toutefois de Reffye hésite à affirmer que la simulation seule vaut comme démonstration en tant que telle. Voici exactement ce qu’il écrit :
« Si q(x) [loi de répartition des grains efficaces dans le total des grains de pollen] est une loi binomiale, on peut démontrer, par simulation, que la courbe du pollen efficace est peu différente de celle obtenue pour la loi q(x) = kx [à pourcentage de grains efficaces constant] (fig. 7) [référence à un graphique où sont affichées sur le même repère orthonormé « nombre de styles (ordonnée) portant un nombre donné de grains (abscisse) » les deux courbes simulées pour les deux lois]. En effet, les catégories ont la même espérance mathématique kx et la loi binomiale répartit symétriquement les catégories par rapport à cette espérance. »1
Dans la seconde phrase, de Reffye se sent donc obligé d’ajouter ce qu’il juge être le véritable argument explicatif (« en effet » écrit-il ) : même s’il ne peut l’exprimer de façon analytique, il nous demande de voir de façon évidente, donc par une espèce d’intuition mathématique mais non visuelle ni graphique cette fois-ci, que les catégories grains efficaces/grains non efficaces sont traitées indistinctement par la loi de Pareto. Les deux processus étant apparemment indépendants, l’espérance de leur composition semble donc devoir être la composition de leurs espérances.
Analyse logico-mathématique des différents faciès par les sous-modèles
L’analyse logique se poursuit ensuite mais sans encore recourir à une simulation globale sur calculateur puisqu’il va s’agir de tâcher de confirmer l’hypothèse de la succession/combinaison des micro-événements d’une façon d’abord logique et mathématique. C’est-à-dire qu’en travaillant sur l’allure des différentes courbes2 résultant des différentes conditions biologiques du cacaoyer (essentiellement quant à la sous-pollinisation3), il est possible d’évaluer a priori l’importance des contributions des sous-modèles à la courbe finale et ainsi de prouver, au moins qualitativement4, la présence permanente, mais d’influence chaque fois variable, des micro-événements. Or, c’est bien cette influence variable qui permet d’expliquer la variation du faciès de la courbe résultante. Cette première énigme semble donc résolue au moyen de l’approche par sous-modèles successifs et combinés. Ainsi est-on invité à repérer graphiquement la vraisemblable mais décisive contribution de la loi de Pareto (suscitant le premier pic de la courbe résultante) en cas de sous-pollinisation, ou bien encore la présence d’un maximum de fertilité pour l’ovule (manifesté par un second pic modélisable par une simple loi binomiale) en cas de pollinisation saturante.
Le fait que les micro-événements biologiques deviennent tout à tour des conditions limitantes dans l’expression du phénomène global, cela parce qu’ils sont eux-mêmes tour à tour portés à saturation selon les conditions biologiques particulières qui y prédisposent, peut littéralement se voir et devenir l’objet d’une intuition mathématique devant l’allure des courbes intermédiaires que permettent désormais de construire les sous-modèles mathématiques de ces micro-événements. La courbe résultante paraît alors totalement interprétée du point de vue de sa constitution tout à la fois mathématique et biologique, puisque chaque micro-événement possède en même temps un sens biologique et une représentation mathématique manipulable à son échelle. Il devient donc possible que l’analyse fasse, pour finir, place à la synthèse, grâce à une combinaison logique des sous-modèles.
Simulation : l’analyse pour la synthèse
Comme de Reffye l’a montré dans le paragraphe précédent, il faut partir de considérations qualitatives au vu de l’allure de la courbe résultante pour distinguer les contributions respectives de chaque sous-modèle. Or, il est possible d’aller plus loin en ce sens. Il apparaît que l’on peut chiffrer ce faisant certains paramètres des sous-modèles en présence : c’est notamment le cas du paramètre ‘a’ de la loi de Pareto qui peut se mesurer indirectement sur la courbe résultante tracée à partir des données entrées dans le calculateur. Dans une deuxième étape, le programme demande que l’on entre dans sa mémoire les coordonnées des points que l’utilisateur a donc auparavant décelés lui-même sur le tracé fourni à l’issue de la première étape. Employant ensuite les équations des sous-modèles, reformulées pour l’occasion de façon à exprimer les paramètres inconnus en fonction des nouveaux points mesurés sur la courbe simulée, le programme fait le calcul des paramètres des sous-modèles. La phase de synthèse proprement dite peut alors commencer, puisque tous les sous-modèles sont enfin interprétés et chiffrés. De Reffye justifie cet objectif comme suit :
« Il reste toutefois à effectuer une simulation pour vérifier l’exacte concordance entre le théorie et l’observation, à savoir que les paramètres et les lois mises en évidence sont nécessaires et suffisants pour expliquer les processus biologiques observés. »1
Notons que le dispositif logico-mathématique de sous-modèles mathématiques successifs et imbriqués logiquement au moyen de l’infrastructure du programme est ce que de Reffye appelle, dans ce contexte, la « théorie » de la récolte de fèves. Selon le passage précédent, la simulation a donc clairement pour fonction de permettre à la « théorie » d’être « vérifiée ». C’est là reprendre le propos qui avait déjà été le sien à ce sujet dans l’article de 1977. Mais l’autre intérêt de cet extrait est de nous proposer un équivalent assez précis de ce qui est appelé une « vérification » de théorie par simulation. Une telle vérification consiste dans le fait que la simulation rend manifeste la « concordance » entre le dispositif logico-mathématique et les phénomènes mesurés en champ. De Reffye ne parle pas ici de représentation mais seulement de « concordance » : il faut que la simulation montre que l’on a d’abord trouvé les bons facteurs biologiques (« nécessaires et suffisants ») et qu’on les a ensuite reliés pertinemment à des modèles mathématiques (donc eux aussi « nécessaires et suffisants ») censés leur correspondre. L’utilisation de la formule courante « nécessaire et suffisant » indique l’idée que l’on a transposé le problème biologique dans un contexte logico-mathématique avec le double souci, pour ce transfert, d’une économie de l’information (« nécessaire ») et toutefois d’un maintien intégral de l’information pertinente (« suffisante »), comme cela peut se produire entre deux ensembles qui sont en relation bi-univoque ou de bijection. La théorie n’a donc pas pour objectif de restituer tout le détail en tant que tel, mais de restituer quand même au besoin tous les détails terme à terme qui seront utiles à l’objectif de contrôle et d’explication. Conformément à son étymologie, le terme « explication » retrouve alors tout son sens d’un dépliement suffisamment détaillé et approfondi des phénomènes micro-événementiels « impliqués » (repliés sur eux-mêmes) dans le phénomène global. Comme on le voit, dans ce cas de figure, la « théorie » formelle n’est donc plus à penser prioritairement comme une formule mathématique succincte et abstractive.
Le sens de la méthode de Monte-Carlo
La suite du programme est plus classique puisqu’elle reprend, comme l’article de 1977, les techniques de simulation de Naylor et Balintfy. Il faut cependant noter que de Reffye choisit de lui donner pour la première fois son nom générique de « Méthode de Monte-Carlo » et de la rapporter ainsi plus directement à son histoire récente :
« On appelle méthode de Monte-Carlo les techniques de simulation faisant appel aux nombres au hasard pour représenter des processus stochastiques.
Ces méthodes résolvent numériquement des calculs pratiquement irréalisables [référence à l’ouvrage collectif de Naylor et Balintfy]. »1
Ce passage est instructif dans la mesure où il oscille explicitement entre l’interprétation historique de la méthode (résoudre numériquement des calculs pratiquement irréalisables) et l’usage passablement différent qui en est fait dans le contexte de l’article : faire « appel aux nombres au hasard pour représenter des processus stochastiques ». Dans l’explicitation de leur démarche, les auteurs ne choisissent donc pas clairement entre une interprétation de la méthode de Monte-Carlo comme méthode de calcul et son interprétation comme méthode de représentation fidèle des phénomènes. Pourtant nous pouvons dire que la nature même de leur travail indique que c’est bien la deuxième interprétation qui a été d’emblée la leur, cela dès le départ. En effet, de Reffye n’a pas d’abord cherché une formulation mathématique générale du phénomène de production de fèves pour ensuite tâcher de la résoudre numériquement par des processus stochastiques ; mais il a tout de suite fait le choix de la complexité, comme nous l’avons vu. C’est-à-dire qu’il a choisi d’affirmer le caractère composite du phénomène considéré au regard de la connaissance biologique plus détaillée et morcelée que l’on pouvait en prendre. Ce n’est qu’ensuite qu’il a introduit des sous-modèles particuliers, que l’on pourrait dire d’essence probabiliste, pour les faire simuler par tirage de nombres au hasard.
À la fin de l’article de 1978, de Reffye et ses collègues vont fournir l’organigramme du programme en HPL effectuant ce qu’ils appellent la « simulation intégrale » de la récolte en fèves par cabosse. Cependant, il est important de remarquer ici que ce qui est simulé n’est pas de même nature que ce que de Reffye avait déjà simulé en 1976. Dans le cas de la fructification du caféier, en effet, le résultat du programme était le dessin d’un profil de caféier avec ses rameaux et ses nœuds, certes stylisés, mais disposés de façon topologiquement, mécaniquement et biologiquement cohérente sur la feuille de papier finale. Le résultat était donc un dessin ressemblant de façon stylisée à un profil réel de caféier. En revanche, dans ce programme de 1978 consacré au cacao, comme dans celui de 1977, ce qui est simulé n’est au fond qu’un tableau de chiffre ou, au mieux, et comme le dit un des sous-titres de 1978, la courbe empirique elle-même : il s’agit d’une « simulation de la courbe par la méthode de Monte-Carlo »1. En ce sens, dans le cas du cacaoyer et de sa fructification, puisqu’il n’a pas été nécessaire de faire figurer l’architecture et la géométrie proprement dites de l’arbre, la simulation reste d’abord et avant tout une restitution numérique des divers décomptes empiriques que l’on peut y faire par l’analyse. C’est une des raisons pour lesquelles de Reffye et ses collègues hésitent à interpréter explicitement, ainsi que nous l’avons vu, le recours à la simulation numérique de type Monte-Carlo comme un appel à une technique de représentation.
Toujours est-il que la conclusion de cet article précise ce qui peut justifier le recours à une simulation des aléas de la pollinisation pour l’interprétation des courbes de rendement. Avec une mise en évidence quantifiée des micro-événements affectant le phénomène général au moyen de sous-modèles ajustés, il devient possible de séparer nettement les micro-facteurs contrôlés par la génétique de ceux qui le sont par les pratiques culturales ou par la pollinisation. Ainsi :
« Pour l’interprétation des essais agronomiques et des essais comparatifs utilisés pour l’amélioration du cacaoyer, il est donc indispensable de séparer, dans l’analyse de la production, les parts dues respectivement aux méthodes culturales, à la qualité génétique du matériel mis à l’épreuve et aux conditions de pollinisation. »2
Ici encore, la fonction de la modélisation intégrale, fragmentée et vérifiée par simulation, est bien de permettre une analyse crédible de résultats empiriques enchevêtrés et dont les paramètres de contrôle sont inconnus ou non connus de façon suffisamment précise et quantitative. Il s’agit d’orienter la tâche de l’agronome et de l’améliorateur vers des indicateurs tout à la fois biologiques et quantitatifs plus sûrs, et qui leur donneront une prise plus efficace et plus rigoureuse sur les phénomènes complexes du vivant. Si la simulation est une reconstruction pas à pas, c’est pour permettre de « séparer ». La synthèse ne se fait donc pas au détriment de l’analyse. Bien plutôt, la synthèse simulante, directement fondée sur le dispositif logico-mathématique, devient une vérification de l’analyse mathématique et logique préalable. Comme on l’a vu, des simulations intermédiaires peuvent et doivent d’ailleurs intervenir localement avant la simulation intégrale, dans la mesure où il faut tâcher de valider les sous-modèles mathématiques, à leurs niveaux, un par un et les uns après les autres, avant de les combiner logiquement par le programme informatique.
L’achat du tout nouveau modèle d’HP : un enjeu financier, humain et technique
Par ailleurs, il faut considérer que ce travail assez complexe sur le cacao n’aurait pu voir le jour si la station de Bingerville n’avait pas disposé en permanence de son propre calculateur. En 1978, J. Snoeck a laissé sa place de chef de la Division de génétique de l’IFCC en Côte-d’Ivoire à l’ingénieur agronome, et créateur de l’Arabusta, J. Capot. Ce dernier, comme son prédécesseur d’ailleurs mais de façon plus décisive, sent l’importance et l’urgence qu’il y a à disposer à demeure d’un matériel de calcul automatique performant, notamment pour la poursuite des recherches sur le café entreprises par de Reffye. Il va donc céder à ses instances et il va faire franchir le pas à la direction de l’IFCC1 : à partir de 1978, la station de Bingerville disposera d’un calculateur HP 9825 acheté aux frais de l’IFCC2. Mais cet achat coûteux n’a pas été sans quelque contrepartie pour de Reffye. C’est notamment une des raisons pour lesquelles on peut a posteriori expliquer la dispersion de son travail à cette époque, alors même qu’il œuvrait déjà intensément à sa thèse d’Etat. En effet, connaissant le montant, relativement élevé pour un seul chercheur, de cet investissement en matériel, et connaissant les missions pragmatiques de l’IFCC, on comprend que de Reffye n’ait pas eu par la suite le loisir de se consacrer tout seul et à temps plein à l’unique problème de la modélisation du caféier, celui qui deviendra son sujet de thèse. Au vu d’un tel investissement financier consenti par l’IFCC, c’était en effet la moindre des choses que de lui demander en contrepartie qu’il mette aussi à la disposition de ses collègues les performances de ce matériel. De Reffye était avant tout un ingénieur. Cette réciprocité de sa part était donc plus ou moins expressément attendue par la direction. De Reffye s’en faisait de toute façon lui-même un devoir. Mais comme il avait été l’un des seuls à faire véritablement l’effort de se former, sur le tas, à l’emploi délicat de ce genre de machine et à sa programmation, cela signifiait que c’était tout à la fois lui-même et son appareil qui devaient se mettre au service des projets des autres ! En quelque sorte, comme dans tous les secteurs où la compétence informatique devenait rare à mesure que les possibilités de la technique se développaient, c’était d’abord lui même qui devait fonctionner en « temps partagé » et non la seule machine, comme c’était en revanche déjà le cas à la même époque chez les physiciens ou les gestionnaires utilisateurs de grands calculateurs. C’est en quoi l’on peut aussi mieux comprendre que, tout en travaillant à sa propre thèse dans le contexte de l’IFCC, de Reffye n’a en fait jamais cessé de jouer le rôle d’un ingénieur de recherche à part entière pour ses collègues.
La technologie du HP 9825
La technologie électronique du calculateur HP 9825 bénéficie des avancées qui sont intervenues dans les semi-conducteurs au cours des années 1960. Comme dans le HP 9820, mais à un niveau plus intégré, le processeur 16 bits, doté d’une horloge à 8Mhz et de fabrication HP emploie la nouvelle technologie des transistors dits NMOS. Il s’agit d’une technologie dans laquelle l’effet transistor ne se produit plus à la surface des semi-conducteurs comme c’était en revanche le cas pour les premiers transistors de type Shockley. La technique Metal-Oxyde Semi-conductor (MOS) ne présente donc plus l’inconvénient d’exiger une qualité de surface parfaite et permet en retour une plus grande intégration des circuits logiques en bits par unité de surface1. Les 16 bits du processeur représentent en effet ici le nombre de portes logiques qui y sont intégrées : à chaque bit ou porte logique correspond une fonction logique élémentaire. Dans le cas du HP 9825 et à la différence du HP 9820, pour augmenter la vitesse, le processeur est en quelque sorte réparti. Il est conçu autour de trois puces ou « chips » hybridées entre elles avec des petits circuits et dont l’une (Binary Processor Chip) dirige les deux autres (Input Output Chip, dotée de 12 micro-instructions, et Extended Math Chip, dotée de 15 micro-instructions). La puce principale reconnaît pour sa part 59 micro-instructions. On peut comparer cela aux 75 micro-instructions que le processeur unique du HP 9820 pouvait reconnaître. Il y a donc un choix nouveau dans l’architecture du processeur qui manifeste une volonté de spécialisation et de répartition du calcul en différents types de processing dès la structure matérielle. Enfin, dans le HP 9825, les adresses sont codées sur 15 bits et peuvent donc renvoyer à 64 kilo-octets de mémoire. En version de base, la mémoire morte (Read-Only Memory : ROM) est de 24 kilo-octets et la mémoire vive (Random-Access Memory : RAM) de 8 kilo-octets environ (en fait 6844 octets)2.
Il est intéressant de noter qu’en 1976, HP a hésité à donner le nom de « computer » à cette machine. La firme américaine a en fait d’abord opté pour la dénomination de « programmable calculator ayant des capacités similaires à celles d’un computer » en modifiant ainsi légèrement l’appellation qui lui était habituelle pour ce genre de machine depuis 1968 : « desktop calculator ». Les responsables du marketing de HP ont ainsi voulu signaler que cette machine pouvait être employée par une personne a priori « peu entraînée » en ces matières. C’est dire combien, dans l’esprit des gens, le terme de computer était encore principalement réservé à des machines lourdes, compliquées et exigeant des équipes techniques de physiciens et d’électroniciens qualifiés. Mais d’autre part, comme le rapporte D. Hicks, l’historien de la firme HP, l’introduction sur le marché américain d’une nouvelle machine portant le nom de computer devait préalablement faire l’objet d’une demande d’autorisation (difficile à obtenir) auprès du Département de la Défense, étant entendu que la divulgation et la mise à disposition de tels engins semblaient une affaire particulièrement sensible du point de vue militaire3. En fait, dès 1977, la machine est vendue avec un manuel qui la présente comme un « desktop computer ». Et, dans le catalogue HP de 1977, la firme ne cache pas sa volonté de la faire entrer en concurrence avec ce que l’on appelait à l’époque des « mini-computers ». On y lit qu’« elle est conçue principalement à destination de l’ingénierie, de la recherche et des statistiques »1.
Pour ce qui est du HP 9825 proprement dit, il s’agit d’une version nettement améliorée du HP 9820 (voir encadré), modèle de calculateur dont de Reffye a disposé jusqu’alors depuis 1976 grâce à la générosité des physiciens de la faculté d’Abidjan. C’est le HP 9825 qui a entre-temps remplacé le modèle 9820, cela à partir de 1976. Le clavier est devenu un véritable QWERTY, conforme au modèle anglo-saxon des claviers de machine à écrire. L’écran dispose de 32 diodes électroluminescentes au lieu de 16. Alors que le HP 9820 fonctionnait encore avec un lecteur de cartes perforées, le HP 9825 propose un lecteur de cassette magnétique capable de stocker jusqu’à 250 kilo-octets de données et de programmes. Le langage de programmation HPL bénéficie de son côté de nombreuses innovations qui le font se rapprocher du langage Basic. Il devient notamment possible de définir des tableaux de données, c’est-à-dire l’équivalent de vecteurs ou de matrices, pour peu que l’on ait auparavant défini leurs dimensions maximales avec l’instruction DIM (exemple : « DIM N[10,15] » pour la préparation en mémoire vive d’un tableau de 10 lignes et 15 colonnes de chiffres). Or, de Reffye va tout de suite sentir l’utilité de cette nouvelle fonctionnalité pour son programme de 1978 puisqu’il va se servir de cinq matrices de ce genre. Les limites de ces définitions de tableau comme du programme en mémoire ne dépendent que de la mémoire vive (RAM2) alors disponible : 6844 octets pour la version de base, et jusqu’à 31420 octets pour les versions optionnelles. Pour sa part, le programme de de Reffye fait 2200 octets et sa liste (qui est publiée encore dans son intégralité) occupe 74 lignes. Donc, même si ce programme paraît assez court et simple, il occupe déjà près d’un tiers de la mémoire vive de base. Il est donc essentiel de comprendre que sans cet instrument, l’équipe de de Reffye n’aurait pu mener à bien ses simulations pas plus que de Reffye lui-même n’aurait eu l’idée de les concevoir.
Bilan sur les premières simulations probabilistes
Dans ce chapitre, nous avons vu comment de Reffye apprenait à développer des techniques de simulation aléatoire pour refléter des scénarios de comportements animaux. À ce titre, la simulation a pu lui servir comme test empirique de certains sous-modèles analytiques. Elle rejoint par là en quelque manière l’expérience. Entre-temps, de Reffye a également poursuivi sa méthode de convergence des modèles. Comme nous l’avons vu, il procède en fait par une sorte d’accrétion ou d’agrégation des sous-modèles les uns aux autres au moyen de l’infrastructure logicielle. S’appuyant sur la rapidité de calcul de l’ordinateur et sur sa faculté à tirer des nombres au hasard, il a en particulier quitté les approches axées sur les comportements moyens et il a fait suivre à la machine des destins individuels croisant chacun plusieurs événements aléatoires. Au passage, au moyen d’un sous-modèle non-linéaire calibré, il a montré la source de l’erreur que l’on peut faire lorsque l’on conserve le formalisme de l’approche biométrique classique : les moyennes ou les variances ne sont parfois pas définissables, si l’on veut rester fidèle aux phénomènes.
Dans les différentes applications qui suivront, l’emprunt aux méthodes de la recherche opérationnelle va encore s’étendre. Suite à des demandes diverses de ses collègues de l’IFCC, on voit de Reffye travailler en réseau et dans le cadre d’une recherche immédiatement appliquée, au contraire de tous ses prédécesseurs en simulation des plantes. Il apprend ainsi à adapter ses modèles à la demande. Toutefois, le succès des modèles de simulation pour le cacaoyer sera mitigé ou indirect, alors qu’il sera patent et direct pour le caféier. Saisir les raisons de cette différence, c’est comprendre pourquoi la voie empruntée pour le caféier va finalement être privilégiée. Cela occasionnera notamment un retour à une approche de simulation graphique, ce que ne nécessitait pas en revanche la problématique des cacaoyers. D’une problématique de distribution temporelle, typique de la recherche opérationnelle, de Reffye sera donc renvoyé à une problématique de distribution spatio-temporelle où l’agrégation des différents formalismes des sous-modèles devra être la plus large possible. C’est là que la simulation donnera toute son ampleur et marquera définitivement sa différence d’avec les modèles de la biométrie, en devenant tout à la fois graphique et probabiliste.
Dostları ilə paylaş: |