CHAPITRE 22 – La probabilité de fructification comme caractère génétique (1971-1975)
Lorsque Philippe de Reffye rejoint l’IFCC de Côte-d’Ivoire en 1971, il trouve donc un matériel génétique déjà bien renouvelé, affiné et diversifié. L’équipe de Capot a déterminé de façon incontestée certains des avantages qu’il y avait à produire de l’Arabusta. Les parasites et ravageurs de ce « nouveau matériel végétal » semblent bien circonscrits1.
Pour sa part, de Reffye passe cette première année (1971-1972) dans une station de brousse. Son rôle y est d’observer avant tout la croissance des caféiers. Commence une période assez calme pendant laquelle il vit au milieu des plantes et observe quotidiennement la fructification et la croissance de caféiers. L’heure est à la comparaison des fertilités respectives des différentes variétés désormais produites. Puisqu’il est coopérant en poste en brousse, donc assez isolé, l’IFCC lui laisse d’abord une assez grande liberté et une très grande initiative pour ses travaux. C’est ce sentiment de liberté et cette confiance qu’il apprécie et dont il sait tirer parti, même si les moyens sont relativement limités dans les conditions d’isolement qui sont les siennes. En outre, les chercheurs confirmés qui l’entourent attendent simplement de lui qu’il sache ou, tout au moins, qu’il ne craigne pas de décider par lui-même dans quelle direction il doit mener ses propres recherches.
Cependant, à terme, le but des observations qu’il mène à l’IFCC existe bien : au vu de la diversité des phénotypes désormais obtenus par les généticiens améliorateurs, il s’agit d’abord de trouver un moyen de déterminer le phénotype qui maximise le rendement. Dans ce domaine, un des objectifs plus précis est d’améliorer la productivité des hybrides Arabusta auparavant conçus par l’équipe de Capot. À l’époque, cette productivité reste en effet assez systématiquement inférieure à celle des Robusta. Le contrat des améliorateurs de l’IFCC n’est donc qu’à moitié rempli. Il est encore nécessaire de pratiquer une politique de sélection des géniteurs tétraploïdes intervenant dans la conception des Arabusta de sorte que l’on obtienne au final des caféiers à la fois plus adaptés et plus productifs. Mais cette politique ne paraît pas aisée à définir a priori dès lors qu’aucune caractéristique morphologique simple n’est susceptible à elle seule de servir de marqueur pour le rendement à venir. « Il ne suffisait pas de peser les récoltes pour comparer les productivités »2, écrira-t-il plus tard. Il faut donc considérer un ensemble de caractéristiques morphologiques et voir comment leurs diverses combinaisons sont corrélées avec le rendement. L’approche suggérée sera donc d’abord d’inspiration biométrique puisqu’il s’agit de prendre en compte de nombreux facteurs et leurs co-évolutions. En s’appuyant sur ses connaissances en statistiques et sur les ouvrages disponibles à l’IFCC, c’est bien en premier lieu dans cette perspective que de Reffye choisit de se placer pour aborder la question du rendement des caféiers.
Transférer un peu d’économétrie dans la biométrie : le premier article de 1974
Cependant, de Reffye fait tout de suite le choix de traduire ce problème dans les termes d’une recherche d’un optimum sous contraintes. Les méthodes classiques de la biométrie, on le sait autour de lui, ne sont de toute façon pas très satisfaisantes sur le terrain ivoirien : elles échouent à expliquer certains résultats empiriques surprenants. Ainsi, pour un clone donné de caféier, l’ombrage peut donner des résultats contradictoires d’une année sur l’autre1. Pour de Reffye, il faut d’abord se donner les moyens permettant de rechercher ce qu’il appelle l’« optimum en amélioration des plantes »2. L’expression qu’il choisit est délibérément révélatrice de la première approche des questions de rendement qui a été la sienne. Dans son premier article de 1974, c’est en effet tout d’abord en référence à une méthode et à une terminologie empruntées explicitement à l’économétrie et non seulement à la biométrie qu’il propose de rechercher le meilleur phénotype pour le rendement en café.
Or, à quoi peut-on attribuer le choix de cette première perspective ? Certes avant tout au type de problème posé : on cherche à optimiser une caractéristique particulière du caféier, sa production en fruits, compte tenu de la variabilité morphologique limitée dont on dispose mais qu’il faut néanmoins considérer. Mais pourquoi ne pas recourir aux méthodes classiques de la biométrie ? C’est que les « modèles descriptifs », selon l’expression de de Reffye, semblent inadaptés si, comme c’est le cas ici, on ne cherche pas seulement à étudier la variabilité d’une population par analyse de données en composantes principales3, mais à rechercher un optimum qui peut être encore non réalisé par les données. C’est que l’on veut un modèle qui permette de décider d’une orientation culturale optimale pour le rendement. Pour cette même raison, les modèles de régressions multiples, nommés « prévisionnels »4 par de Reffye, tout en autorisant certes des extrapolations à partir des données, ne permettent pas pour leur part de désigner clairement un optimum hypothétique. De Reffye se plonge alors dans des ouvrages d’économétrie puisque ce genre de problème semble bien plus souvent s’y poser et y être déjà résolus. C’est ainsi qu’il se familiarise avec les méthodes de programmation linéaire et dynamique1 utilisées en économie et déjà bien développées depuis la seconde guerre mondiale. Ces lectures diverses, à visée pragmatique, donc faites sans grands a priori théoriques ou disciplinaires au vu du faible encadrement académique dont il dispose en Afrique, leconduisent donc d’abord à traduire son problème agronomique en termes de programmation linéaire au sens de l’économétrie et de la recherche opérationnelle. Voici ce qu’il propose : « En effet, lorsque dans une population, une liaison entre la variabilité phénotypique et un critère de sélection (comme le rendement) est constaté, il est intéressant de se demander quel est le phénotype optimum qui maximise ce critère, compte tenu de la variabilité limitée dont on dispose et des corrélations qui existent entre les caractères morphologiques. »2 La « variabilité limitée » et les « corrélations » qui existent entre les caractères morphologiques du caféier vont donc constituer les « contraintes » du programme linéaire de production du caféier, au sens de l’économètre. Tandis que le rendement exprimé par un « modèle linéaire »3 fonction des caractères va constituer le « critère » à maximiser. Or il nous faut remarquer que ce transfert de méthode de la recherche opérationnelle à l’agronomie est possible à de Reffye d’une part parce que tous les caractères morphologiques qu’il considère sont de nature numérique (il s’agit d’une analyse en composantes principales et non d’une analyse factorielle), d’autre part parce qu’il lui semble admissible de considérer que le rendement de la plante peut s’exprimer par une fonction linéaire de ses caractères. Ceux-là sont au nombre de cinq et sont répartis en deux groupes. Le premier groupe rassemble les caractères de la feuille du caféier : 1 - le profil de la feuille (longueur sur largeur) ; 2 – la dimension de la feuille (la racine carrée de sa longueur fois sa largeur) ; 3 – la densité foliaire (le poids sur la surface de la feuille). Le deuxième groupe rassemble deux caractères du rameau : 4 - l’épaisseur du rameau ; 5 – le nombre de nœuds portés par le rameau. La façon dont de Reffye considère le « rendement » et la productivité du caféier est donc identique à celle que les économistes adoptent lorsqu’ils sont face à des problèmes d’optimum de production des entreprises. Là aussi, il s’agit bien de chercher un optimum de production.
Dans ce premier modèle, la plante est donc considérée comme l’analogue d’une usine. Puisque, dans une perspective agronomique et, plus précisément, d’amélioration de la plante, il s’agit là aussi de décider d’une politique (de sélectionner une variété), le modèle d’analyse et de décision qui valait d’abord pour l’artefact (l’usine ou la production humaine) semble pouvoir être transféré à l’objet « naturel »1 qu’est la plante.
Des résultats en demi-teinte
De Reffye procède donc dans un premier temps à une analyse en composante principale du nuage de points à cinq dimensions, cela pour plusieurs familles d’Arabusta. Le premier résultat numérique tend à montrer que les caractères 1, 2, 3 et 5 sont très corrélés entre eux alors que le caractère 4 (l’épaisseur du rameau) varie de façon indépendante2. La croissance en épaisseur paraît donc décorrélée de la croissance architecturale (ici croissance foliaire et en nombre d’entre-nœuds). Par la suite, de Reffye considère les données projetées sur les composantes principales et exprime le rendement dans ce nouveau référentiel : « Pour chaque individu, on dispose du rendement cumulé en cerises [fruits du caféier] sur deux années de récolte. L’estimation du rendement sera effectuée à l’aide de la régression linéaire : Si = Yi . A + Ei, où A est le vecteur régression, Si le rendement de l’arbre i, Yi le point observation à cinq composantes de cet arbre, Ei étant l’erreur résiduelle. »3 De Reffye parvient ce faisant à trouver un bon accord entre ce que le modèle de rendement par régression prévoit, à partir des cinq caractères morphologiques choisis, et les mesures de terrain. Mais les chiffres indiquent également qu’il n’y a pas de corrélation entre le vecteur régression du rendement et les composantes principales : le rendement ne s’exprime donc pas simplement. De plus, les clones ou familles de caféiers présentent une grande variabilité intrinsèque quant au rendement. L’observation faite par ailleurs est confirmée. Donc, si les caractères rendent compte du rendement, ils sont, pour leur part, mal maîtrisables par le sélectionneur. Toutefois, lorsque l’on exprime le vecteur régression du rendement en fonction des variables initiales (les cinq caractères numériques du caféier), la composante la plus significative se trouve être la cinquième : le nombre de nœuds par rameau. Les caractères foliaires « n’ont pas d’importance en ce qui concerne le rendement »4 et l’épaisseur du rameau joue, par sa part, de façon modérée, même si les gros rameaux sont en général plus productifs que les rameaux fins. Pour la production en cerises du caféier, se confirme l’idée que des relations allométriques fonctionnelles et mathématiquement simples sont exclues.
En outre, parmi les résultats, figure la constatationa posteriori de l’importance de la casse des rameaux trop ramifiés : « ils se cassent au niveau de leur attache, parce qu’ils sont trop lourds »1. Dans ce cas, « la partie lésée des tissus vasculaires appauvrit alors le ravitaillement du rameau en sève »2. Or, c’est bien là reconnaître que des phénomènes non-linéaires peuvent interférer de façon significative dans la production en café et qu’ils viennent limiter la pertinence de l’approche par modèles linéaires, quand bien même ces derniers seraient multifactoriels. En conséquence, et cela apparaîtra décisif pour la suite, de Reffye préconise qu’à l’avenir, on prenne également en compte le « port » de l’arbre, dès lors qu’un certain nombre de « bons producteurs ont tendance à se coucher et sont inaptes à la culture industrielle »3.
De Reffye calcule alors ce qu’il appelle le « rendement théorique », c’est-à-dire le rendement que l’on peut espérer. Les valeurs des caractères morphologiques qui correspondent à cet optimum se trouvent être non réalisées dans les arbres mesurés. Elles sont néanmoins proches de celles que présente la famille dite « 1300 » pour laquelle on peut espérer un gain de 33% en rendement. Ce qui donnerait 17kg de café par pied. La grande différence entre l’optimum de cette famille et ce qu’elle réalise déjà tient à ce qu’elle développe en moyenne 3,5 nœuds par rameau au lieu de 3 nœuds pour l’optimum. Or, c’est bien ce caractère du nombre de nœuds qui semble décisif, comme nous l’avons dit. Tirant les conclusions de cette première approche économétrique pour la recherche d’un optimum, de Reffye incite donc les sélectionneurs à se pencher notamment sur ce dernier aspect de la plante. La politique de sélection qu’il préconise au final reste toutefois très vague et peu spécifique dans la mesure où cette approche n’est finalement pas parvenue à exprimer simplement le rendement : « Dans un premier temps, on essaiera de se rapprocher de l’optimum par croisement, en jouant sur la variation interfamille, car la position de la famille détermine son rendement moyen.
Dans un deuxième temps, on essaiera d’obtenir le maximum de graines en jouant sur la variation intrafamille vu l’hétérogénéité du rendement entre clones d’une même F1 [famille de géniteurs tétraploïdes]. »4 Or, même dans ce cadre-là, il reste à prendre en compte deux phénomènes qui sont encore limitants et qui n’ont pas été considérés : la faible adaptation au climat ivoirien transmise par les Arabica aux Arabusta (se traduisant par un avortement fréquent de la floraison), les mauvaises méioses des tétraploïdes parents et le mauvais appariement entre chromosomes Robusta et Arabica causant de fort taux de caracolis (une seule graine par cerise). Le rappel de l’existence de ces deux types de phénomènes et leur non prise en compte attestent bien du fait que l’approche par recherche d’optimum reste assez illusoire même si l’on parvient toujours à trouver par le calcul un modèle de régression : aucune connaissance précise ni aucune prise nouvelle sur les phénomènes n’est ce faisant réellement donnée au sélectionneur. Le deuxième phénomène, en particulier, appelle une meilleure connaissance des facteurs contrôlant la fertilité, au plus près de la fleur. Ce sera précisément l’objectif du second travail de modélisation de de Reffye à l’IFCC.
Ce travail de recherche directe d’un optimum global sera délaissé par de Reffye. Il ne sera pratiquement jamais cité dans ses travaux ultérieurs. Cette première approche constitue donc une sorte d’impasse. Mais, comme nous le verrons par la suite, plusieurs leçons utiles vont néanmoins en être tirées. La première, que de Reffye a indéniablement retenue, peut sans doute se formuler de cette façon : alors même que cela pourrait sembler une solution élégante ou brillante, il est illusoire de formaliser immédiatement des phénomènes vivants complexes à un niveau global et seulement fonctionnel.
De la fonction à la structure
À la différence du premier article sur la « recherche de l’optimum » dont il a été question précédemment, c’est ce deuxième article de 1974 qui présentera en revanche à lui seul l’essentiel du contenu de la thèse de troisième cycle soutenue en 1975. L’approche par programme linéaire de type recherche opérationnelle y est manifestement abandonnée. De Reffye renonce en effet à l’approche globale par le rendement. Conformément à la dernière partie du programme qu’il fixait à l’issue de l’article précédent, il décide de sérier les phénomènes successifs menant à la fructification. Et il rentre cette fois-ci dans le détail des événements de la fructification. Il essaie ainsi de repérer et de contrôler les critères précis d’une bonne fructification des caféiers1. Or, une des leçons voire sanctions majeures de ses travaux antérieurs (non cités dans la thèse de 1975) est qu’une série de phénomènes non modélisables linéairement interviennent dans le rendement. C’est la raison pour laquelle il lui faut admettre qu’un modèle de régression linéaire offre peu de prises sur les critères de sélection. À partir de ce moment-là, la recherche qu’il conduit est entreprise dans un but pragmatique et agronomique plus clair à ses yeux : connaître et maîtriser précisément cette fructification par une reconstitution plus fine du scénario qui mène aux fruits, au détriment il est vrai de l’élégance et de la simplicité de la solution mathématique2.
De façon générale, en ce début des années 1970, l’amélioration des rendements des plantes est considérée comme une tâche particulièrement difficile : « aléatoire, laborieuse, longue et coûteuse car le jugement n’est qu’a posteriori sur le résultat global »3. D’où l’hégémonie des approches informationnelles par analyses statistiques et, en particulier, par analyses de variance, en ce domaine. Selon les ingénieurs agronomes, il serait en fait déjà souhaitable de mettre en évidence des marqueurs précoces et rapides du rendement des plantes, cela afin de pouvoir au plus vite le prédire, mais aussi afin de pouvoir rendre à même de choisir les géniteurs les plus intéressants parmi les clones disponibles. Dans le cas des plantes arbustives comme le caféier, il est même d’autant plus important de pouvoir prédire les rendements que les « délais de production des jeunes plantes peuvent atteindre plusieurs années »4.
Conscient de cet enjeu et désormais personnellement informé de l’impasse relative que constitue la recherche de l’optimum au moyen des méthodes de programmation linéaire, dans sa thèse de troisième cycle préparée avec Sadi Essad et soutenue à l’Université de Paris-Sud Orsay1, Philippe de Reffye préconise donc avant tout une approche purement observationnelle devant la structure de l’arbre : « Le présent travail se propose d’étudier les facteurs de la fertilité à un niveau purement agronomique, tel que le caféiculteur peut l’observer lui-même. »2 De Reffye choisit donc délibérément de ne pas se pencher sur « les mécanismes intimes de la fertilité des caféiers »3 (biologie de la fleur, genèse des cellules, fécondation et développement des fruits et des graines) car, selon lui, si on ne les ignore pas totalement, on est encore loin de savoir dans quelle mesure exacte ces divers facteurs conditionnent la productivité des caféiers. Il procèdera donc à une modélisation descriptive et non explicative, à cette échelle, tout au moins. Cette approche contraste fortement avec son étude de DEA dans la mesure où son horizon d’analyse n’est plus du tout cytogénétique. Or, comme on l’a vu, que ce soit pour le caféier ou pour les plantes herbacées, c’est bien la productivité qui intéresse toujours au premier chef les agronomes. Dans le cas du caféier, cependant, les clones sont répertoriés, les hybrides existent et sont maîtrisés. Le problème pragmatique d’amélioration n’est donc plus ici celui d’une stabilisation d’hybrides vigoureux comme pour Lolium perenne. Le niveau cellulaire et chromosomique pertinent n’est plus le bon. L’approche par le rendement global ne convient pas non plus, comme de Reffye s’en est persuadé avec son travail antérieur. La question pragmatique qui se pose donc à lui est la suivante : comment contrôler cette productivité ? Ou plutôt : comment trouver des variables de contrôle pouvant servir à évaluer a priori cette productivité de sorte que l’on pourrait prédire les performances de différentes espèces de caféiers ? Le premier essai de 1974, par un modèle de régression doublé d’une recherche d’optimum, indique que l’approche par les caractères morphologiques censés intervenir très indirectement (mais fonctionnellement) dans le rendement laisse à désirer. Les caractères physiologiques traditionnels (les différentes mesures de la feuille, l’épaisseur du rameau) y ont semblé très peu décisifs, au contraire de caractères architecturaux plus directement et plus intuitivement liés au nombre de cerises par arbre, comme le nombre de nœuds par rameau, par exemple, ou comme le port de l’arbre.
Il faut donc changer de point de vue, adopter une approche plus locale sur l’arbre et sur les cerises, tout en restant au plus près d’évaluations pragmatiques. Dans ces conditions, adopter le point de vue du caféiculteur, c’est décider de se pencher sur l’aval des processus qui déterminent la productivité des fruits, autrement dit se concentrer uniquement sur la fertilité des ovules dans les phases finales de fructification, c’est-à-dire encore sur le développement des graines à l’intérieur de la cerise du caféier. Il suffit de remonter juste un peu en amont de ces derniers processus qui précèdent la récolte des grains et de trouver des observables permettant de prévoir cette récolte peu avant qu’elle n’intervienne. L’objet du travail de thèse de de Reffye est alors de montrer qu’il est possible, premièrement, de trouver de tels observables, deuxièmement, de les faire s’accorder avec des hypothèses modélisatrices à la fois simplifiantes et biologiquement crédibles. Cela lui permet de proposer une « formulation mathématique » globale qui, tout en les simplifiant, ne fait pas violence à la complexité des processus physiologiques intimes de la plante.
Modéliser, c’est former des hypothèses
Pour formuler ce genre de modèles a priori, il faut pouvoir se donner des hypothèses sur les rapports qu’entretiennent les observables. On s’arrange alors pour trouver précisément des observables tels qu’ils permettent de faire des hypothèses menant à des modèles simples et calculables : hypothèse de la nature discrète des caractères observables (dans ce cas précis, un transfert de la méthodologie propre à la génétique formelle devient possible), hypothèse d’indépendance, hypothèse de simple additivité des observables… Remarquons bien que l’on choisit parmi les observables ceux qui permettent de faire une hypothèse de formalisation rigoureuse et manipulable. On ne fait donc pas l’inverse : on ne choisit pas l’hypothèse ou le style de formalisation d’abord pour choisir seulement ensuite les observables qui pourraient bien y correspondre. L’approche de Reffye sera encore modéliste au sens de la modélisation statistique déracinée, c’est-à-dire au sens précis que Ronald A. Fisher a donné dès 1922 à l’expression de « loi mathématique hypothétique »1. Pour quelles raisons ? On sait que le développement des graines de caféiers admet trois différentes issues possibles. En effet : « Le développement des graines à l’intérieur de la cerise peut aboutir à trois possibilités :
1) les avortements précoces
2) les avortements tardifs
3) les graines normales. »2 Ces différentes issues sont donc bien distinctes. À ce titre, elles permettent de définir un modèle probabiliste où des aspects aisément repérables pour le caféiculteur sont mis en avant. Pour ce faire, de Reffye définit d’abord ce qu’il appelle la fertilité d’un arbre donné : c’est son pourcentage de transformation d’ovules en graines. Comme nous l’avons vu, il serait souhaitable de prédire cette fertilité ou, tout au moins, d’être capable de l’évaluer au fur et à mesure de l’avancée de la fructification grâce à des « caractères » observables. Il va donc s’agir d’exprimer la fertilité comme fonction statistique de ces caractères. Le terme « caractère » lui vient, en l’occurrence, de sa fréquentation de la modélisation théorique en génétique mendélienne et formelle. Comme ces caractères sont non continus, c’est-à-dire discrets (tels ceux que Mendel avaient en son temps mis en avant), puisqu’ils peuvent se réduire à des présences ou absences de certaines propriétés (d’où l’importance de s’en tenir à une approche globale et pragmatique afin de se placer à une échelle où l’on peut discrétiser sans dommage les caractères biologiques), il est possible de se proposer des lois probabilistes élémentaires, simples et a priori susceptibles de gouverner ces caractères et leurs combinaisons multiples. C’est donc bien là que l’approche de de Reffye est également modéliste et pas seulement statistique et analytique. Il s’agit de se proposer un scénario présidant à la constitution des observables dans la plante. Ce scénario doit permettre non pas d’expliquer les processus physiologiques de façon causale mais seulement d’insérer ces observables dans un récit statistique sous-jacent régi, pour sa part, et au contraire des processus physiologiques soupçonnés, par certaines lois probabilistes simples et dont on peut en conséquence anticiper le comportement probable de façon théorique. De plus, le scénario statistique ne correspond pas ici à un modèle assis sur des hypothèses linéaires, donc prêtant à une recherche d’optimum par une méthode de programmation linéaire, dans la mesure où les caractères morphologiques, à la différence de ceux du premier article de 1974, y sont de nature discrète et non continue.
Construire un caractère non directement observable : une probabilité objective
Il reste à exprimer, dans ce scénario, comment interviennent les caractères pour la constitution de la fertilité. Or, on ne peut pas exprimer la fertilité directement en fonction du nombre des cerises présentant tel ou tel caractère sur tel arbre, mais seulement en fonction de leur distribution statistique. Mais de quoi la distributionstatistique des caractères est-elle finalement l’indice ? De Reffye choisit de supposer qu’elle est l’indice de la manifestation de lois de probabilités simples et identiques, quel que soit l’arbre, comme la loi binomiale1. C’est cette supposition qui est d’abord traitée à titre d’hypothèse testable. Les caractères dont les taux de présence ou d’absence statistiques sont observés et mesurés sur les arbres permettent ainsi de remonter à leur probabilité d’apparition. L’approche modéliste a donc pour conséquence de nous obliger à adopter une interprétation quasi-objectiviste des probabilités1 puisque ce sont ces probabilités qui serviront à leur tour à définir la fertilité globale de l’arbre. Autrement dit, on ne s’arrête pas à la mise en évidence des probabilités et à l’estimation de leurs valeurs. C’est cela qui impose de traiter les probabilités, que le scénario hypothétique nous a commandé d’introduire, comme des objets ou quasi-objets. Malgré le fait qu’elles ne représentent pas la mesure d’une entité physique concrète, on les traite quasiment comme des mesures d’objets biologiques car on les fait entrer dans un processus algébrique qui seul nous donnera ce que l’on cherche finalement à évaluer, en l’occurrence la fertilité de l’arbre.
Philippe de Reffye parvient ainsi à définir quatre paramètres dont les trois premiers sont estimables en champ par des échantillons représentatifs prélevés systématiquement et à des dates précises (qui sont fonction du degré de maturation des cerises) sur les caféiers. Ces quatre paramètres sont : P1 : la probabilité pour un ovule de voir apparaître l’albumen (formation des cerises),
P2 : la probabilité pour un ovule de voir mûrir l’albumen (formation des grains),
r : la probabilité de maturation des jeunes fruits,
U : la probabilité qu’a une fleur de donner un jeune fruit2. De Reffye montre alors que, tous les paramètres clés ayant été pris en compte, la fertilité totale d’un arbre s’écrit simplement comme le produit de ces quatre paramètres ou probabilités : f = U * P1 * r * P2 Une grande partie du travail du second article de 1974 et de la thèse de 1975 a alors consisté à tester les hypothèses de ce modèle mathématique à l’aide des distributions fournies par les échantillons mesurés sur les arbres : « On cherche alors si les proportions trouvées entre les trois catégories de cerises peuvent provenir d’une loi binomiale. »1 La validité du modèle probabiliste est donc testée. De Reffye utilise pour ce faire les tests de significations notamment le test du χ(classique en statistique inférentielle depuis les travaux de Karl Pearson publiés en 19002 ). Tous les ajustements qu’il trouve semblent satisfaisants. En ce qui concerne P1 et P2, il met au jour des valeurs caractéristiques pour chaque espèce et pour chaque forme hybride de caféier. Ainsi c’est telle loi binomiale, avec son paramètre ou probabilité P, qui devient, aux yeux de de Reffye, une caractéristique « de l’arbre lui-même tout entier »2. Cela atteste selon lui d’une détermination principalement génétique de ces probabilités. L’approche modéliste n’a donc pas qu’une incidence descriptive ou purement déracinée pour l’agronome qu’est de Reffye. Car elle nous offre une grille de lecture transversale qui nous apprend à voir autrement les phénomènes élémentaires sans forcément nous obliger à les considérer microscopiquement : dans la mesure où l’on observe que des rameaux différents développent, dans un même arbre, les mêmes probabilités P1 et P2 (phénomène inappréciable sans cette grille de lecture qu’est justement le modèle), l’observation guidée par le modèle a priori permet de suggérer l’idée de processus causaux à échelle globale, c’est-à-dire à l’échelle de l’arbre entier, donc qui ne peuvent être commandés en dernier ressort que par la génétique. Le modèle est donc loin d’être une fiction pour de Reffye. De surcroît, en ce qui concerne les déviations à la loi binomiale qui peuvent apparaître, elles sont interprétées par de Reffye comme provenant de causes de nature écophysiologique : ce peut être l’altitude par exemple3. Et c’est le taux de ces déviations qui est rapporté dans le paramètre U.
Modéliser pour exhiber des faits biologiques
Dans la rédaction de sa thèse de 1975, un peu comme dans son travail de DEA sur le « module » des chromosomes, de Reffye tient à souligner l’idée que l’approche modéliste a mis indirectement en évidence des faits biologiques jusqu’alors non reconnus. Selon lui, la capacité de lecture nouvelle qu’offre la formulation mathématique de type modéliste légitime que l’on parle de l’« acquisition de faits expérimentaux », notamment de ce fait expérimental que « la maturation des graines suit un processus de type purement binomial basé sur l’indépendance génétique des graines à l’intérieur de la cerise »4. Ce qui signifie que la possibilité d’ajuster à des données un modèle a priori imposant une hypothèse d’indépendance5 entre les graines serait une preuve de cette indépendance. Le fait expérimental nouveau est donc ici exprimé dès le départ dans une hypothèse de modélisation a priori qui s’est trouvée être a posteriori significativement corroborée par les données.
Comme de Reffye fait du test de signification une validation effective du modèle binomial1, dès lors que, comme on l’a vu, sa référence épistémologique principale demeure la théorisation de la physique mathématique, il se sent en droit de donner immédiatement une origine biologique significative (ici génétique) à ce fait probabiliste qui lui paraît objectif parce que mesurable, reproductible pour un clone et inscriptible en une loi mathématique simple. Il lui semble qu’il est nécessaire d’attribuer à la détermination génétique de l’arbre la présence de ce fait global très stable et indépendant de l’environnement qui l’affecte.
La suite du travail de thèse consiste dans l’utilisation systématique de ce nouvel outil d’évaluation de paramètres pour l’étude comparative de la fertilité chez différents caféiers dans différentes conditions. C’est là que le travail plus théorique reçoit son application agronomique. Il se confirme notamment que l’on peut clairement dissocier certains paramètres conditionnés par la seule génétique de l’arbre (P1 et P2) de ceux qui le sont aussi par l’environnement et par la physiologie. Ainsi, une des phrases-clés de la conclusion évoque les retombées économiques d’une telle mise au jour : « Contrairement aux paramètres ‘physiologiques’ U et r, nous avons vu que P1 et P2 demeureraient invariables pour un clone donné. Ce fait a été vérifié en plus de l’Arabusta 1331, sur plusieurs autres clones (arabica, robusta, arabusta, etc.). Si les conditions sont idéales, par contre on peut imaginer que, même pour les arbres les plus sensibles : U = r = 1.
P1 et P2 sont des paramètres génétiques programmant une fréquence fixe d’avortements précoces et d’avortements tardifs de l’ovule, ce qui déterminent la valeur économique de l’arbre. »2 Comme nous avons commencé à le dire, on perçoit également dans cette phrase l’écho d’un autre acquis de ce travail pour de Reffye. Cet acquis est plus souterrain car plus méthodologique : il s’agit de l’interprétation de la probabilité d’un caractère observable comme étant en fait en elle-même le caractère génétique à considérer, désormais seul pertinent. Il conçoit alors cette probabilité comme apparentée à un caractère génétique à part entière, si ce n’est individuellement programmé, en tout cas dont on peut méthodologiquement supposer qu’il est individuellement programmé dans le génome. Par l’effet d’un glissement dans l’objectivation, rendu possible par la modélisation probabiliste objectiviste, on choisit de penser comme caractère génétiquement programmé non pas les caractères de départ, les variables aléatoires observables (formation ou non des cerises, formation ou non des grains), mais les paramètres des lois de probabilité de ces caractères.
La réception de la thèse de 1975 : une modélisation étrange mais efficace
Quelle est finalement la fortune de ces travaux de thèse ? À en croire le rapport du jury, il s’agit là d’une « contribution extrêmement importante au problème de l’analyse des facteurs du rendement du caféier en vue de son amélioration »1. Le jury s’attache alors à mettre en valeur non pas tant le choix qui a été fait de se pencher sur la fertilité des arbres, ce qui lui paraît aller de soi, mais sur la façon d’aborder ce problème : « la manière de le résoudre et la valeur des conclusions présentées nous semblent par contre exceptionnelles »2. Suit alors un résumé de l’approche et des résultats de la thèse. Parmi les résultats concrets prometteurs, il y a cette prévision qui enchante le jury selon laquelle on pourrait faire produire aux meilleurs caféiers Arabusta l’équivalent en tonnage (2,6 T/ha) des meilleurs Robusta mais avec une qualité supérieure. À l’issue de ce court rapport de trois pages, il est une phrase que nous devons cependant citer car elle nous paraît rendre très bien compte de la manière dont ces agronomes statisticiens ont accueilli la nouvelle approche modélisante de de Reffye dans leur domaine : « Les critiques que l’on peut porter tiennent essentiellement au parti pris de ce travail de recherche qui se situe à mi-chemin de la Biologie et des Mathématiquessans qu’une véritable option soit prise, ce qui n’est d’ailleurs peut-être pas souhaitable si l’on se place sur le plan de l’efficacité. »3 On reproche au fond à de Reffye de fournir un travail inclassable y compris aux yeux des agronomes. Au vu des indications que nous avons fournies précédemment sur le contenu de la thèse, il nous est cependant possible d’interpréter plus précisément les raisons de la présence d’une telle gêne chez les membres de son jury de thèse. Elles nous paraissent assez significatives. D’abord, très curieusement, il ne leur semble pas que l’on puisse classer ce travail dans le domaine de la biologie proprement dite. Pourtant, le sous-domaine qui pourrait lui convenir serait peut-être bien celui de la biologie théorique. Nous l’avons vu, ce secteur, déjà ancien à l’époque, présente de nombreuses approches très mathématisées. Or, dans la thèse de de Reffye, il y a bien à la fois des mathématiques et de la biologie ; mais ce qui distingue son approche des travaux classiques de la biologie théorique, c’est le fait qu’il renonce consciemment à donner un sens biologique immédiat aux concepts mathématiques qu’il introduit, comme la probabilité de formation d’un grain. Son origine biométrique fait qu’il ne refuse pas la modélisation de l’aléa en tant que tel, contrairement à la plupart des biologistes théoriciens. Pour lui, la signification biologique, plus précisément l’origine biologique de ces concepts ou paramètres, sera suggérée seulement par la suite, grâce à leur étude empirique et une fois qu’ils auront été insérés dans le scénario du modèle : dès lors, les faits mesurés nous apprendront que ces paramètres, peut-être d’abord fictifs, représentent bien une caractéristique, certes nominale, formelle, mais fortement inscrite dans le matériel génétique de l’arbre. Au départ, afin de construire les concepts de modélisation P1 et P2, il n’y a donc pas eu de collaboration étroite entre l’interprétation biologique d’un fonctionnement et l’insertion mathématique d’une fonction. Au contraire de ce qui se produit dans la physique théorique, la construction du concept ne ressortit pas ici au travail d’une intrication étroite et serrée entre biologie et mathématique. L’interprétation biologique d’un ensemble d’événements d’abord pris en bloc est venue après que les observations guidées par le modèle aient été menées.
On voit aussi qu’il ne s’agit pas non plus d’une biologie mathématisée spéculative ni de développements mathématiques purement autonomes dans la mesure où cette approche est entièrement asservie à ce qui est directement observable en champ par le caféiculteur (puisqu’elle en part), et cela à l’échelle d’une pratique humaine intuitive. Ses outils sont en effet ceux des mathématiques descriptives : les statistiques, les lois de probabilités, les tests de signification. S’agit-il dès lors d’un travail classique de biométrie ou de pure analyse de données ? Pas davantage, puisque ce premier travail de de Reffye ne consiste pas à se contenter d’une approche phénoménologique culminant dans des réductions de variances ou dans des analyses en composantes principales entre des phénomènes complexes. Mais elle prétend discerner a priori une échelle pertinente, certes peu habituelle aux physiologistes, au contraire des agronomes, et à laquelle on peut considérer que les phénomènes ont un comportement suffisamment simple pour permettre l’ajustement d’un modèle probabiliste usuel.
Finalement, c’est justement cette question d’échelle, c’est plus précisément le caractère inédit du niveau biologique que de Reffye choisit de « traduire » mathématiquement qui explique l’indécision dans laquelle se trouvent les biologistes et statisticiens de son jury. Il ne s’agit ni d’une théorisation mathématique classique de phénomènes biologiques, ni d’une expérimentation statistique visant à analyser des phénomènes complexes. Mais, comme l’indique la dernière partie de la phrase citée, le jury n’estime pas rédhibitoire une telle schizophrénie épistémologique. Et, en grand seigneur, il attribue finalement cette ambivalence épistémologique à l’objectif manifeste de cette approche, à savoir « l’efficacité ». Il fait même l’hypothèse qu’il ne soit guère possible de procéder autrement dans des recherches sur la fertilité. Tout le monde s’accorde donc finalement sur un point minimal : le caractère essentiellement pragmatique de ces travaux. On ne sait pas ce qu’ils sont, mais on sait ce qu’ils font et c’est le principal. D’ailleurs, à cette époque, de Reffye lui-même revendique ce caractère pragmatique. Ce qui est, de sa part, pour le moins troublant. Rappelons-nous en effet ce qui l’avait fasciné dans la physique mathématique : ce n’était pas sa réussite pragmatique mais sa faculté à exposer sous forme mathématisée des lois de la nature simples et générales. En fait, les caractères qu’il a identifiés avec son approche modéliste sont déjà, pour lui, des lois de la nature, bien qu’elles ne soient valables qu’à une échelle restreinte.
Hégémonie et résistance de la biométrie à l’IFCC
Auparavant, en 1974, et en prévision de la soutenance, Philippe de Reffye a publié les résultats de ses travaux dans deux articles de la revue trimestrielle de l’IFCC, intitulée Café, Cacao, Thé. Comme nous l’avons vu, seul le contenu du second article sera repris dans la thèse. Or, dans ces premières publications de 1974, que cela soit un choix stratégique de la part de de Reffye ou l’effet d’une censure sans doute bienveillante du comité de rédaction ou de son directeur de thèse, le caractère relativement inédit de la première thèse eu égard à la pratique de modélisation qu’elle propose ne reçoit pas de publicité particulière. Ce qui est novateur dans l’approche mathématique y est minoré dans l’exacte mesure où les termes de « modèle » et de « modélisation » n’apparaissent pas, notamment dans les titres. À quoi cela peut-il être dû ? Pour le comprendre, il nous faut revenir un moment sur la revue elle-même, sur sa perspective éditoriale et sur l’esprit qui habite les publications d’analyse quantitative que l’on y trouve d’ordinaire depuis sa création.
Dès 1958, la revue Café, Cacao, Thé est publiée par l’IFCC, à la place de l’ORSTOM. Les publications qu’on y trouve sont à visées essentiellement pragmatiques ou techniques, mais très peu théoriques. Elles peuvent concerner aussi bien l’état économique du marché mondial du café ou du cacao que des procédés chimiques de protection contre les parasites ou l’évaluation de l’impact de l’utilisation de certains engrais. Cependant, au début des années 1960, le mot d’ordre précis est la réorientation vers des considérations chimiques, écophysiologiques et technologiques. En 1963, cette réorientation est textuellement exprimée dans le n°7 qui publie les actes du « Premier colloque international sur la chimie des café verts, torréfiés et leurs dérivés »1 : « [les lecteurs de la revue] trouveront désormais à chaque parution […] un article sur la chimie ou la technologie des cafés ou des cacaos, ceci pour répondre au vœu exprimé par les participants du colloque. De plus, la partie documentaire consacrée à la chimie et à la technologie sera développée. »2
Quelques années plus tard, au début des années 1970, même si le comité de rédaction admet alors assez largement un certain nombre de personnalités de différents horizons (ORSTOM, Faculté des Sciences de Paris, Syndicat des Planteurs de Café et de Cacao et Institut National d’Agronomie), l’institution la plus représentée y reste bien entendu l’IFCC. Le président du comité de rédaction n’est autre que le directeur général de l’IFCC lui-même. Or, les spécialités représentées par ce comité de rédaction sont assez révélatrices de l’orientation de la revue. Elles sont aussi révélatrices des délimitations a priori que se fixe de manière programmatique la recherche agronomique menée alors à l’IFCC en termes de disciplines jugées désormais immédiatement voisines ou directement utiles : pédologie (ORSTOM), entomologie (IFCC), physiologie végétale (Faculté des Sciences de Paris), pathologie végétale (Institut National Agronomique).
On voit donc combien le style des travaux de thèse de de Reffye pouvait en effet trancher : il ne se rapporte ni de près ni de loin à aucune de ces disciplines fondamentales collaborant habituellement avec l’agronomie de terrain. Or, même si son initiative est encadrée par J. Snoeck, le chef de la « Division d’agronomie du Centre de recherches de l’IFCC en Côte-d’Ivoire », les deux premiers articles qu’il publie en 1974 dans cette revue insistent donc très peu sur sa proposition d’une « formulation mathématique » ou d’un « modèle », à la différence de la thèse de troisième cycle elle-même. Par ailleurs, si l’on procède à un dépouillement systématique de la revue depuis sa création en 1957, il apparaît que les termes clés « modèle » ou « modélisation »3 n’apparaissent à aucun moment avant que de Reffye lui-même ne se décide à les employer pour la première fois explicitement dans son article plus tardif de 1976. Autrement dit, au début des années 1970, l’approche par modélisation ne semble pas être entrée dans les mœurs des agronomes de l’IFCC même si, en revanche, ces derniers pratiquent assez souvent l’analyse statistique et les méthodes de la biométrie anglo-saxonne.
En effet, dès la fin des années 1960, dans la station camerounaise de l’IFCC par exemple, il existe une « section de biométrie » qui se penche sur les ravageurs du cacaoyer par des méthodes statistiques fishériennes de type plans d’expérience, randomisations par blocs et analyses de variance. Pourtant, il se trouve qu’assez vite, les ingénieurs de l’IFCC et de l’ORSTOM s’aperçoivent que les méthodes biométriques classiques par « plans d’expérience » ne fonctionnent pas non plus vraiment dans ce contexte des cacaoyères traditionnelles. C’est que « les productions des cacaoyers, observées dans les conditions naturelles ne répondent pas aux hypothèses implicitement admises lors de la mise en œuvre de ces schémas »1. Voici en quels termes l’ingénieur en chef des services de l’agriculture d’outre mer, H. Marticou et son collègue R. Muller résument la situation : « Les Auteurs attribuent les échecs constatés, tant au Cameroun que dans les autres pays producteurs de cacao :
aux facteurs d’hétérogénéité génétique, pédologique et microclimatique qui caractérisent généralement les plantations de cacaoyers et que les schémas expérimentaux classiques ne sont pas en mesure d’éliminer ;
au fait que les caractéristiques de la production de cacaoyers ne sont pas en accord avec les hypothèses implicitement admises lors de la mise en pratique d’un essai agricole :
normalité de la distribution des observations en l’absence d’intervention ;
additivité des effets des interventions ;
homogénéité des dispersions des observations autour de leurs moyennes. »2
Cependant, ces ingénieurs agronomes ne sont pas seulement démunis matériellement et financièrement, ils le sont aussi techniquement et conceptuellement : ils n’abandonnent donc pas pour autant l’approche biométrique. La solution qu’ils proposent dans un premier temps consiste à prendre en compte cette hétérogénéité. Simplement ils tâchent de trouver des compromis. Ils adaptent la méthode classique notamment en essayant de trouver la taille optimale d’une parcelle pouvant servir à des plans d’expérience fishériens les moins imprécis possibles au vu des limitations en surface, en main d’œuvre et en personnel3. En 1969, les travaux de l’agronome R. Lotodé4 iront résolument dans ce sens. Or, il est par ailleurs significatif qu’à cette même époque, R. Lotodé cherche sciemment et assez systématiquement à contourner une modélisation mathématique dont il n’ignore pas la possibilité mais qui, selon lui, proposerait des lois de probabilités qu’il estime par avance « difficiles à manier ». Cette expression est à prendre littéralement : il est d’après lui souhaitable d’exclure le plus possible les modèles mathématiques qui seraient difficiles à contrôler à la main, c’est-à-dire par le calcul à la fois mental et manuel. Dans son article de 1969, ce biométricien attitré de l’IFCC au Cameroun écrit par exemple : « Suivant le stade observé d’une population d’insectes par exemple, celle-ci peut être décrite par plusieurs lois de distribution, telles que ‘binomiale de Poisson’, ‘binomiale négative’, types A, B ou C de Newman, types 1 ou 2 de Polya, etc. Ce sont des lois complexes difficiles à manier et on1 s’est aperçu qu’une simple loi de puissance reliant la variance des dénombrements [des insectes sur un arbre] à la moyenne satisfaisait tous les types de distributions déjà cités. Cette loi est de la forme s = a.m2b
où s2 est la variance des dénombrements (par arbre, par exemple),
m la moyenne de ces dénombrements,
a et b étant deux coefficients. »2 Dans la suite de l’article, R. Lotodé utilise donc ce résultat que le biologiste des populations britannique Lionel Ray Taylor avait mis en évidence à la station de Rothamsted, pour simplifier son étude statistique de la répartition spatiale de ces ravageurs du cacaoyer que l’on appelle les mirides. D’autres choix simplificateurs du même genre seront ensuite faits par lui. Il les légitime par la nécessité qu’il y aurait sinon à recourir à un « ordinateur »3 : « Les calculs ayant été faits manuellement, pour simplifier, nous avons utilisé comme donnée, non plus le dénombrement par semaine et par arbre, mais le cumul des dénombrements par arbre effectués au cours des cinquante-deux semaines. »4 Plus loin, l’auteur se résout à employer quand même l’ordinateur mais en dernier recours et pour la seule évaluation d’une constante : « En fait, la transformation à utiliser est x→ (x+c), c étant une constante qui doit être calculée par approximation jusqu’à obtenir le minimum du rapport des variances extrêmes […] La recherche de la constante c ne peut être évidemment entreprise sans l’assistance d’un ordinateur. »1-1/2b L’ordinateur est donc conçu par le biométricien comme un outil d’assistance pour les calculs difficiles à mener : c’est une machine à calculer permettant d’éviter de trop longs calculs itératifs à la main comme ceux qui sont engagés par la recherche d’une valeur par approximations successives. Par la suite, comme en témoignent d’autres publications de 1971 et 19741, les articles de Lotodé et de ses collègues biométriciens de l’IFCC au Cameroun continuent à présenter essentiellement des analyses de variance, où les calculs sont certes effectués par ordinateur, mais dont les auteurs n’estiment pas utile de préciser ni même d’indiquer les conditions dans lesquelles ils ont été menés par la machine. En revanche, en 1981, R. Lotodé publiera un article en commun avec un collègue pédologue P. Jadin2 dans lequel figurera la liste intégrale d’un programme en FORTRAN servant à calculer les besoins en engrais des cacaoyers. Mais on voit que l’article met cette fois-ci l’accent sur le programme informatique et sur l’organigramme du programme dans la mesure où ce dernier reproduit clairement les choix d’engrais à effectuer par l’agronome pour chaque valeur d’équilibre chimique. Dans ce cas-là, le programme réplique donc quelque chose comme une politique conceptuelle, une réflexion humaine immédiate, une expertise fondée sur des valeurs chiffrées par l’assistant-calculateur qu’est l’ordinateur mais non un phénomène naturel en tant que tel. La conclusion évoque le gain économique et en rapidité que procure une telle programmation des tâches agronomiques en FORTRAN, que ce soit sur un IBM 360/65 (1 franc par calcul programmé pour 0,5 seconde de temps de calcul total) ou sur un IBM 3033 (cinquante centimes pour 0,03 s de temps de calcul).
Finalement, dans ces années-là, les collègues de de Reffye à l’IFCC ne pratiquent pas une modélisation qui s’aventurerait au-delà des approches statistiques traditionnelles. Comme R. Lotodé, les biométriciens de l’IFCC cherchent avant tout à homogénéiser leurs supports expérimentaux afin que les modèles statistiques traditionnels s’appliquent dès lors que la randomisation à la Fisher exige une telle homogénéité3 et une linéarité difficiles à obtenir en milieu tropical. Les biométriciens du Cameroun, spécialistes des cacaoyers, ont ainsi clairement fait le choix ou de trouver des modèles simples à manipuler (construire des abstractions) ou de « réduire au maximum les facteurs de variation autres que ceux dont on veut mesurer les effets »4 (analyser des données) mais non pas celui de synthétiser les données. Or, c’est cette dernière voie qu’emprunte de Reffye.