Une variable aléatoire X est un résultat d’une expérience aléatoire.
Ex: Résultat du tirage d’un dé à 6 faces, v.a. discrète.
Problème : comment faire si on doit représenter le même genre d’histogramme pour une v.a. pouvant prendre n’importe quelle valeur dans [0;1] uniformément ?
Densité
Pour les v.a. continues, on ne peut plus caractériser la probabilité point par point, on a donc recours à une fonction nommée densité.
On définit pour X la probabilité d’appartenir à un intervalle [a;b]
Propriétés remarquables :
La densité d’une somme est la convolée des densités.
Loi normale
Densité de la loi normale de moyenne et d’écart type N (, )
Il faut trouver les valeurs des bornes de l’intervalle de confiance.
Table de la loi normale
Exemple (3)
Exemple (4)
Impossible de déterminer la puissance de notre test.
Pour capable de la minorer, il faut se fixer une tolérance sur le biais de la pièce. Par exemple on tolère les pièces dont la probabilité de faire pile est comprise entre 0.49 et 0.51.
Elle possède un paramètre : m « degré de liberté »
Soit (xi) une suite de v.a. indépendantes suivant une N (0,1) alors :
Remarque :
Test du 2
C’est un test d’adéquation d’une loi de probabilités à des données.
Soit {x1,…,xn} un échantillon de n réalisations indépendantes de la v.a. X
Soit f(x) la densité réelle de X
Soit f* notre hypothèse sur la densité de X
(les paramètres de f* sont soit connus soit estimés à partir des données)
H0 : f(x) = f*(x)
H1 : f(x) ≠ f*(x)
A partir de l’échantillon on construit un histogramme pour X de k classes Ci .
Soit Oi le nombre d’observations dans la classe Ci
Les classes sont déterminées à partir des valeurs prises dans l’échantillon au bon vouloir de l’utilisateur.
On construit ensuite le tableau suivant :
suit une 2 à degrés de libertés
= k – nombre de relations entre effectifs théoriques sous H0 et effectifs observés.
En fait I mesure une « distance » entre la distribution attendue et la distribution observée
Pour construire un test au niveau de H0 contre H1, il suffit de choisir un seuil s tel que P(I>s/H0)<, ce qui est facile car sous H0 I suit un 2 dont les valeurs sont tabulées.
Chez les pois, le caractère couleur est codé par un gène présentant deux formes allèles C et c, correspondant aux couleurs jaune et vert. Le jaune est dominant, le vert récessif. La forme, rond ou ridé, est portée par un autre gène à deux allèles R (dominant) et r (récessif). On croise deux individus dont le génotype est CcRr.
Dans ses expériences, Mendel a obtenu les résultats suivants.
I=0.47 à comparer avec la valeur d’un 2 à 3 ddl (au niveau 5% on rejette H0 dessus de 7.815).
En réalité sous H0 on avait seulement 8% de chances d’avoir des résultats aussi proches de la théorie…
2 de contingence
Utilisé pour tester l’indépendance de deux caractères A et B dans une même population. Chacun des deux caractères possède plusieurs classes.
H0 : « Algo 1 » et « Algo 2 » ont des performances équivalentes.
H1 : « Algo 1 » et « Algo 2 » ont des performances différentes.
Effectifs observés Effectifs attendus sous H0
2 de contingence (2)
Différence entre observation Carré des différences divisé par
Sous H0 I suit un 2 à (h-1)(k-1)=1 degré de liberté
Donc pour un test au niveau 1% on rejette H0 (le seuil est de 6.635)
Remarques
Pour un tableau 2x2 c’est mal de faire un 2 car il est équivalent à un t-test sur les proportions qui possède deux avantages :
Possibilité de calculer la puissance pour le t-test;
On peut créer un test unilatéral alors que 2 est toujours bilatéral ce qui signifie que l’on obtient que des informations du type « algo 1 et algo 2 sont différents » mais pas davantage.
Test de Fisher (variances) ; Student (moyennes) ; Kolmogorov-Smirnov, Cramer (tests sur fonction répartition) ; Spearman (indépendance des réalisations) …