Chargement en cours...



  Dans le domaine de la mesure, il est fréquent de modéliser les corrections d'étalonnage de l'instrument de mesure utilisé au moyen d'une droite des moindres carrés. Dans ce cas, la correction d'étalonnage est déterminée à partir de la valeur de la grandeur indiquée directement par l'instrument de mesure. Ceci étant, la correction d'étalonnage dépend très souvent de plusieurs grandeurs, et quelques fois cette dépendance multiple ne peut pas être négligée. Prenons par exemple le cas d'un hygromètre capacitif. Pour ce type d'appareil, la correction d'étalonnage (cw) dépendra évidemment de l'humidité relative (Uw) - la grandeur mesurée - mais également de la température ambiante (s) et dans une moindre mesure de la pression ambiante (P). En d'autres termes, la fonction la plus simple qui permettra de modéliser la correction sera de la forme :

cw = a0 + a1 x Uw + a2 x s + a3 x P , (1)

avec a0, a1 a2 et a3 des nombres réels que l'on va chercher à déterminer au mieux dans les lignes qui suivent. Dans cet exemple, on détermine la valeur de la correction à partir de l'humidité relative, la température et la pression : ainsi cw, est appelée couramment variable expliquée ; Uw s et P sont appelées des variables explicatives.



1. Résolution du problème dans le cas général

  Soit l'ensemble des variables aléatoires réelles de carré intégrable définies sur un espace probabilisé [U, a, P]. On prend comme variable expliquée le vecteur colonne aléatoire Y dont la ke composante est la variable aléatoire réelle Yk. On considère la matrice des variables explicatives (X 1...X p) dans laquelle X i i  [1, p] est un vecteur colonne dont la ke composante est la variable aléatoire réelle Xki. On note la variable aléatoire certaine toujours égale à 1. Par définition, la régression linéaire de la variable aléatoire Y par les variables aléatoires X1...Xp est la projection de Y sur le sous-espace engendré par le système {X1,...Xp} dans [(U)]n.

  En posant :

(2)

et

(3)

on montre, en supposant que le système {X1...Xp} est libre, que la projection de Y sur (cf. figure 1) s'exprime :

(4)

avec

(5)

Note : la démonstration géométrique de cette formule est similaire à celle effectuée dans la référence [1].

Fig. 1. - Projection de la variable expliquée dans l'espace des variables explicatives d´étalonnage.


  En définitive, le vecteur donnera les coefficients de la régression multiple comme celle de la formule (1) qui s'exprime de manière générale :

(6)

2. Le logiciel RLM

  Les calculs à effectuer étant fastidieux, le logiciel RLM permet d'automatiser la régression linéaire multiple. Ce logiciel comporte une interface extrêmement simple représentée sur la figure 2.

Fig. 2. - Interface principale de RLM.


  Les données sont saisies dans un tableau : la première colonne (sur fond bleu) contient la variable expliquée et les autres colonnes contiennent les variables explicatives. Les calculs sont effectuées via le menu 'Projet'. Les résultats sont affichés sur la partie inférieur de l'écran :
- polynôme ;
- coefficients du polynôme ;
- résidus minimum et maximum ;
- moyenne quadratique des résidus.

  Les résultats peuvent être récupérés pour d'autres applications (tableur par exemple) par copier / coller.

Télécharger RLM



3. Application de la régression linéaire multiple

  Supposons que l'on veuille étudier la relation entre les caractères physiques de la population, et plus précisément qu l'on souhaite déterminer la taille d'un individu à partir d'autres caractéristiques morphologiques. Pour cela on utilise les données du tableau 1 qui donne la taille, le poids et la pointure d'un groupe de conscrits ainsi que ces caractéristiques pour le père et la mère de chaque conscrit.

TAI PDS PNT TAP PDP PTP TAM PDM PTM
184 73 42 180 85 45 164 55 37
175 62 43 170 70 41 159 54 39
189 76 45 171 65 42 170 68 41
173 73 44 167 67 39 156 63 37
169 62 41 166 80 44 161 58 39
175 68 42 170 64 41 165 63 39
164 64 40 163 58 39 162 54 37
190 85 43 180 82 44 168 62 37
174 55 41 171 71 44 154 50 38
184 74 43 182 85 44 169 68 40
168 56 41 167 70 41 155 45 36
179 64 41 171 62 40 164 67 37
174 65 40 155 57 39 156 60 38
163 58 41 163 65 41 160 60 38
172 53 41 160 65 39 153 53 36
176 61 42 174 72 42 154 53 37
190 85 45 174 65 41 163 62 39
172 56 41 169 70 42 150 43 36
178 68 42 180 70 42 157 40 36
173 65 42 182 78 44 166 58 37
175 67 42 170 75 43 163 50 37
168 64 41 170 78 41 162 58 38
180 66 44 170 78 42 165 65 39
175 65 40 162 64 40 163 60 38
184 75 43 165 65 41 162 55 38
181 75 43 173 76 43 159 49 38
169 60 40 161 64 40 155 55 37
174 65 43 175 80 44 166 72 38
175 66 44 172 70 42 160 55 39
175 60 42 176 80 44 160 55 37
180 60 41 176 80 41 158 45 36
172 58 41 168 66 41 164 50 38
179 68 43 177 75 42 175 70 38
183 90 44 190 110 45 160 60 37
170 62 40 165 74 40 165 55 38
178 75 41 171 73 41 154 50 37
168 50 40 164 65 40 158 51 36
188 70 44 166 65 40 167 67 38
177 68 43 170 85 41 163 56 40
165 55 40 160 75 39 150 50 37
172 55 40 170 70 41 160 55 38
173 56 42 172 65 42 165 49 39
176 66 43 178 80 43 158 65 38
177 70 42 168 85 41 161 60 38
180 62 42 178 90 46 158 70 39
170 52 42 168 64 42 160 50 37
184 70 44 178 76 42 168 60 38
175 67 41 173 75 42 158 56 36
181 67 40 175 78 41 161 55 37
175 61 42 178 69 41 157 65 39
162 63 40 165 62 42 160 57 38
176 60 40 172 62 41 156 52 37
187 68 45 170 70 42 161 62 39
180 69 43 170 70 42 165 55 38
173 64 42 170 80 42 160 55 36
172 68 41 164 67 40 155 50 37
171 60 41 172 75 42 156 54 38
170 56 41 169 68 42 162 53 36
172 70 44 160 72 42 164 64 40
180 65 41 178 72 41 167 55 38
172 70 40 169 75 43 150 50 37
178 63 42 168 68 41 162 50 38
173 62 40 169 80 42 159 50 36
Tableau 1
Données morphologiques sur les conscrits
TAI : taille en centimètres ; PDS : masse en kilogrammes ; PNT : pointure ;
TAP : taille du père en centimètres ; PDP : masse du père en kilogrammes ; PTP : pointure du père ;
TAM : taille de la mère en centimètres ; PDM : masse de la mère en kilogrammes ; PTM : pointure de la mère.


  Avant d'effectuer les calculs, nous allons tout de même chercher à simplifier l'expression à obtenir. En effet, il n'est peut-être pas judicieux d'inclure toutes les variables. La méthode de l'analyse en composantes principales sur matrice des corrélations apporte une réponse pratique à ce problème. Les données du tableau 1 ont été saisie dans le logiciel ACPr [2]. Ce logiciel a permis de tracer le cercle des corrélations des variables reproduit sur la figure 3.

Fig. 3. - Cercle des corrélations des variables du tableau 1.


   

  Télécharger le fichier pour ACPr



  Cette figure fait apparaître trois groupes de variables : 1) les variables associées à l'individu ; 2) les variables associées à la mère ; 3) les variables associées au père. Afin de simplifier l'expression, nous ne garderons qu'une variable associée à la mère et au père. Dans les deux cas nous ne conserverons que la taille qui sont les variables les plus fortement corrélées avec la taille de l'individu. Ainsi, l'expression finale sera de la forme :

TAI = a0 + a1 x PDS + a2 x PNT + a3 x TAP + a4 x TAM . (7)

  Les valeurs de a0, a1, a2, a3 et a4 sont déterminées à partir du logiciel RLM comme indiqué sur la figure 1 (le fichier ayant servi au calcul est fourni avec le logiciel sous le nom « données réduites.rlm »). On trouve le système :

  a0 = 40,690 cm ;
  a1 = 0,308 cm / kg-1 ;
  a2 = 1,380 cm ;
  a3 = 0,221 ;
  a4 = 0,121.
(8)


Remarque : les valeurs des résidus données par RLM sont comprises entre -8,2 cm et 9,2 cm. En conservant toutes les variables, on aurait trouvé des résidus compris entre -7,7 cm et 9,3 cm. Compte tenu des incertitudes ce n'est pas significativement meilleur : on peut donc penser que la simplification des variables est justifiée.



4. Régression multiple avec des fonctions

  Très souvent les modèles linéaires sont insuffisants pour traduire des phénomènes physiques avec une bonne exactitude. Afin de contourner ce problème, il est possible de remplacer dans les calculs précédents les variables X1...Xp par des fonctions f1(X1), ...fp(Xp).

  Prenons par exemple, le cas du facteur d'augmentation f utilisé pour déduire la pression de vapeur saturante de l'air humide à partir de la pression de vapeur saturante au dessus de l'eau en phase pure [3]. La formule CIPM-1981/91 pour calculer la masse volumique de l'air utilise une approximation de ce facteur de la forme [4] :

f = a0 + a1 x p + a2 x t2 , (9)

avec p la pression exprimée en pascals, t la température exprimée en degrés Celsius et le système de coefficients suivant :

  a0 = 1,000 62 ;
  a1 = 3,14 x 10-8 Pa-1 ;
  a2 = 5,6 x 10-7 °C-2.
(10)

  Les coefficients de cette formule ont été déterminés à l'aide des données de référence figurant dans le tableau 4.

p t
(Pa) 0 °C 5 °C 10 °C 15 °C 20 °C 25 °C 30 °C
60 000 1,002 4 1,002 5 1,002 5 1,002 6 1,002 8 1,002 9 1,003 1
65 000 1,002 6 1,002 6 1,002 7 1,002 8 1,002 9 1,003 1 1,003 2
70 000 1,002 8 1,002 8 1,002 9 1,002 9 1,003 1 1,003 2 1,003 4
75 000 1,002 9 1,003 0 1,003 0 1,003 1 1,003 2 1,003 4 1,003 5
80 000 1,003 1 1,003 1 1,003 2 1,003 3 1,003 4 1,003 5 1,003 7
85 000 1,003 3 1,003 3 1,003 3 1,003 4 1,003 5 1,003 6 1,003 8
90 000 1,003 5 1,003 5 1,003 5 1,003 6 1,003 7 1,003 8 1,003 9
95 000 1,003 6 1,003 6 1,003 7 1,003 7 1,003 8 1,003 9 1,004 1
100 000 1,003 8 1,003 8 1,003 8 1,003 9 1,004 0 1,004 1 1,004 2
105 000 1,004 0 1,004 0 1,004 0 1,004 0 1,004 1 1,004 2 1,004 4
110 000 1,004 2 1,004 1 1,004 1 1,004 2 1,004 2 1,004 4 1,004 5
Tableau 2
Données de référence du facteur d'augmentation.


  Le calcul de ces coefficients est très facile à faire avec RLM : il suffit de saisir les données comme indiqué sur la figure 4 en remplaçant la température par son carré (le fichier contenant ces données est fourni avec le logiciel RLM sous le nom « facteur d'augmentation.rlm »).


Fig. 4. - Modélisation de f sur RLM.


  En effectuant les calculs avec RLM on retient les valeurs suivantes :

  a0 = 1,000 636 ;
  a1 = 3,12 x 10-8 Pa-1 ;
  a2 = 5,73 x 10-7 °C-2.
(11)

  Ces résultats sont très proches de ceux de la formule du CIPM : la formule du CIPM donne un résidu quadratique moyen de 4,70 x 10-5 ; la formule calculée par RLM donne un résidu quadratique moyen de 4,66 x 10-5.



5. Perspectives

  La méthode présentée ici mérite encore d'être améliorée. Citons simplement comme pistes d'améliorations :
- la pondération des données ;
- le calcul des incertitudes sur les coefficients et sur les estimations de la variable expliquée.


Références

[1] PLATEL F., « Détermination du polynôme des moindres carrés par une méthode algébrique », MetGen, 2004.
[2] PLATEL F., « Analyse en composantes principales - Projet ACPr », MetGen, Dossier qualité 2.
[3] PLATEL F., « Calculs sur l´air humide », MetGen, Dossier métrologie 5.
[4] DAVIS R.S., « Formule pour la détermination de la masse volumique de l´air humide (1981/1991) », Rapport de la 4e session du CCM, BIPM, 1991.