Une comparaison des méthodes d'apprentissage statistique utilisées
sur la base de données GUSTO
Marguerite Ennis, Geoffrey Hinton, David Naylor,
Mike Revow, Robert Tibshirani.
L'expérience a concerné 41,021 malades admis dans 1081 hôpitaux de15 pays. Les données GUSTO-1 de cette expérience ont fourni une occasion précieuse d'appliquer des méthodes sur un problème à grande échelle, et de comparer leurs performances. Lee et al. (1995) s'accorde avec les modèles de régression logistique linéaire et a remporté quelques succès dans la prédiction exacte de la mortalité.
Dans cet article, nous nous intéressons aux facteurs de risque concernant les cas de mortalité survenue sous les 30 jours et appliquons à ce problème des méthodes adaptatives récentes pour la prédiction, spécifiquement : réseaux neuronaux, arbres de classification, modèles additifs généralisés (MAG) et les splines de régression adaptative multivariable (SRAM).
Bien que la base de données contienne plus de 100 variables prédictives, nous avons décidé d'utiliser les mêmes variables que Lee et al. ont inclus dans leur modèle final.
Les comparaisons sont faites dans des termes de probabilité logarithmique pour un échantillon test où indique les résultats observés. Nous regardons aussi l'aire sous la courbe ROC obtenu pour l'échantillon test.
-
Modèle
|
Probabilité logarithmique
|
Aire de la courbe ROC
|
1 Logistic
2 Logistic
3 Logistic
4 Logistic
|
-2939,5
-2930,5
-2791,8
-2785,0
|
0,787
0,788
0,818
0,820
|
5 SRAM-1
6 SRAM-complet
7 Arbre
8 MAG
|
-2797,1
-2872,3
-3028,9
-2789,6
|
0,817
0,810
0,752
0,819
|
Modèle 1 tient compte des variables AGE et KILLIPB; modèle 2 de l'AGE, KILLIPB et de l'interactions entre AGE et KILLIPB; modèle 3 de toutes les variables du modèle de Lee et al, sans aucune interaction et aucun terme non-linéaire (spline); modèle 4 de toutes les variables, les interactions et les splines comme dans le modèle de Lee et al.; méthodes 5, 6, 7 ont l'accès à toutes les variables; dans le modèle 5 seuls les termes additifs sont permis, tandis que dans le modèle 6 les interactions de tout ordre sont autorisées.
Pour les réseaux neurones multi-couches, nous avons utilisés l'algorithme retropropagation de Rumelhart, Hinton et Williams (1986). Dans ce cas le réseau neural est une généralisation non linéaire du modèle logistic linéaire. Les réseaux utilisés ont une ou plusieurs couches d’unités sigmoïdales avec une seule unité de sortie sigmoïdale. Les réseaux sont tous, unidirectionnels, et interprétons la sortie comme une estimation de la probabilité postérieure de la mort. La fonction de perte a minimisé pendant l’apprentissage était une probabilité logarithmique. Nous avons opté pour des réseaux avec une seule couche cachée de 100 unités (net100) et une autre avec deux couches cachées de 20 et 10 unités (net 20_10).
La façon conventionnelle du contrôle du compromis de la variance biaisée dans le résesau neuroneaux est d’utiliser le weight decay ou early stopping. Pour chaque échantillon, les poids (weights) du réseau sont initialisés aléatoirement à partir d’une distribution uniforme dans l’intervalle [-0.3 ; 0.3]. Après chachaque mise à jour du poids du gradient conjugué, la performance sur les données de validation était évaluée et le meilleure performance retenue.
En utilisant un réseau ARD (Automatic Relevance detection) de Neal (1996) où les groupes sont initialisés avec un petit total de weight decay, λi = 0.1. Les performances des réseaux sont :
-
Parameter
|
net100
|
net20_10
|
netARD
|
Log(P)(bits)
ROC
Bagged-ROC
|
0.205
0.817
0.816
|
0.205
0.816
0.816
|
0.205
0.815
|
Nous trouvons surprenant qu'avec un si large base de données, aucune des méthodes non-linéaires, adaptative ne puisse surpasser le modèle de régression logistique de Lee et al.
Les explications possibles sont de trois ordres :
-
L'utilisation complète de la base de données.
Le modèle de Lee et al. été développé sur une base de données de 40,830 malades, plutôt que sur juste un plus petit base de travail. Tandis qu'ils ne donnent pas d'algorithme explicite, il est impossible de mesurer le parti pris que cela introduit dans nos comparaisons. Cependant le fait que leur modèle est de complexité relativement basse le fait moins vraisemblablement que cette polarisation est significative
Le pouvoir prédictif de toutes les méthodes est assez bas. Bien que l'aire ROC du meilleur modèle est assez haute (82%), la déviance du modèle constant qu'il explique est seulement de 20% approximativement. Nous suspectons que les méthodes non-linéaires adaptatives sont très utile dans les problèmes avec un haute proportion du signal-bruit, ce qui se produit quelquefois dans la science physique et ingénierale. Dans les études médicales humaines, la part du signal-bruit est souvent assez basse (comme c'est ici). Et par conséquent, les méthodes modernes se pourraient avoir moins à offrir.
Cette mesure composite de la santé est composée de beaucoup d'autres variables prédictives utilisées ici. Et il était la variable la plus robuste dans le modèle de Lee et al.
Généralisations au sujet de la performance prédictive des algorithmes adaptatifs, non-linéaires contre les techniques statistiques plus standards doivent être faits avec prudence. Les base de données spécifiques seront plus ou moins avantageux pour chaque méthode. De quelque manière que l'on fasse, il est remarquable que les méthodes non-linéaires, adaptatives n'ont pas offert d'avantages dans cette grande et riche base de données. Comparativement peu de bases de données cliniques auront plus de 40,000 sujets caractérisés aussi complètement que le cas de l'expérience GUSTO-1.
Donc, nos trouvailles ajoutent des évidences en soutenant ceux qui ont suggéré que ces algorithmes non-linéaires, adaptatives pourraient limiter l'applicabilité dans les cadres cliniques.
Dostları ilə paylaş: |