Chargement en cours...



  Dans le domaine de la mesure, il est fréquent de modéliser les corrections d'étalonnage de l'instrument de mesure utilisé au moyen d'une droite des moindres carrés. Dans ce cas, la correction d'étalonnage est déterminée à partir de la valeur de la grandeur indiquée directement par l'instrument de mesure. Ceci étant, la correction d'étalonnage dépend très souvent de plusieurs grandeurs, et quelques fois cette dépendance multiple ne peut pas être négligée. Prenons par exemple le cas d'un hygromètre capacitif. Pour ce type d'appareil, la correction d'étalonnage cw dépendra évidemment de l'humidité relative Uw — la grandeur mesurée — mais également de la température ambiante θs et dans une moindre mesure de la pression ambiante P. En d'autres termes, la fonction la plus simple qui permettra de modéliser la correction sera de la forme :

cw = a0 + a1Uw + a2θs + a3P  , (1)

avec a0, a1, a2 et a3 des nombres réels que l'on va chercher à déterminer au mieux dans les lignes qui suivent. Dans cet exemple, on détermine la valeur de la correction à partir de l'humidité relative, la température et la pression : ainsi cw, est appelée couramment variable expliquée ; Uw, θs et P sont appelées des variables explicatives.



1. Résolution du problème dans le cas général

  Soit \( \mathscr{L} \) l'ensemble des variables aléatoires réelles de carré intégrable définies sur un espace probabilisé \( (U,~\mathscr{A},~\mathbb{P}) \). On prend comme variable expliquée le vecteur colonne aléatoire Y dont la ke composante est la variable aléatoire réelle Yk. On considère la matrice des variables explicatives (X1...Xp) dans laquelle Xi  i ∈ [1, p] est un vecteur colonne dont la ke composante est la variable aléatoire réelle \( X_{\text{k}}^{\text{i}} \). On note \( \mathbb{1} \) la variable aléatoire certaine toujours égale à 1. Par définition, la régression linéaire de la variable aléatoire Y par les variables aléatoires X1...Xp est la projection de Y sur le sous-espace \( \mathscr{F} \) engendré par le système \( \{\mathbb{1},~X_{1}~\ldots~X_{\text{p}} \} \) dans \( [\mathscr{L}^{2} (U)]^{\text{n}} \).

  En posant :

\( \begin{eqnarray}X = \begin{pmatrix} {1} & {X_1} & {X_1^2} & {\ldots} & {X_1^\text{p}} \\ {.} & & & & {.} \\ {.} & & & & {.} \\ {.} & & & & {.} \\ {1} & {X_\text{n}} & {X_\text{n}^2} & {\ldots} & {X_\text{n}^\text{p}} \\ \end{pmatrix} \end{eqnarray} \)  , (2)

et

\( \begin{eqnarray}Y = \begin{pmatrix} {Y_1} \\ {.} \\ {.} \\ {.} \\ {Y_\text{n}} \end{pmatrix} \end{eqnarray} \)    et     \( \begin{eqnarray}\hat{\beta} = \begin{pmatrix} {a_0} \\ {.} \\ {.} \\ {.} \\ {a_\text{p}} \end{pmatrix} \end{eqnarray} \)  , (3)

on montre, en supposant que le système \( \{\mathbb{1},~X_{1}~\ldots~X_{\text{p}} \} \) est libre, que la projection de Y sur \( \mathscr{F} \) (cf. figure 1) s'exprime :

\( \mathbb{P}_{\text{X}} (Y) = X \times \hat{\beta} \)  , (4)

avec

\( \hat{\beta} = (^{\text{t}}X \times X)^{-1} \times ^{\text{t}}X \times Y \)  . (5)

Note : la démonstration géométrique de cette formule est similaire à celle effectuée dans la référence [1].

Fig. 1. - Projection de la variable expliquée dans l'espace des variables explicatives d´étalonnage.


  En définitive, le vecteur \( \hat{\beta} \) donnera les coefficients de la régression multiple comme celle de la formule (1) qui s'exprime de manière générale :

\( \begin{eqnarray} y = a_{0} + \sum_{\text{i = 1}}^{\text{n}} a_{\text{i}} \cdot x_{\text{i}} \end{eqnarray} \)  . (6)

2. Le logiciel RLM

  Les calculs à effectuer étant fastidieux, le logiciel RLM permet d'automatiser la régression linéaire multiple. Ce logiciel comporte une interface extrêmement simple représentée sur la figure 2.

Fig. 2. - Interface principale de RLM.


  Les données sont saisies dans un tableau : la première colonne (sur fond bleu) contient la variable expliquée et les autres colonnes contiennent les variables explicatives. Les calculs sont effectuées via le menu 'Projet'. Les résultats sont affichés sur la partie inférieur de l'écran :
- polynôme ;
- coefficients du polynôme ;
- résidus minimum et maximum ;
- moyenne quadratique des résidus.

  Les résultats peuvent être récupérés pour d'autres applications (tableur par exemple) par copier / coller.

Télécharger RLM



3. Application de la régression linéaire multiple

  Supposons que l'on veuille étudier la relation entre les caractères physiques de la population, et plus précisément qu l'on souhaite déterminer la taille d'un individu à partir d'autres caractéristiques morphologiques de l'individu et de ses parents. Pour cela on utilise les données du tableau 1 qui donne la taille TAI, le poids PDS et la pointure PNT d'un groupe de jeunes appelés au service national. Le tableau donne pour chaque individu les mêmes caractéristiques de sont père et de sa mère : TAP et TAM pour les tailles du père et de la mère ; PDP et PDM pour les masses ; PTP et PTM pour les pointures.


TAI PDS PNT TAP PDP PTP TAM PDM PTM
184 cm 73 kg 42 180 cm 85 kg 45 164 cm 55 kg 37
175 cm 62 kg 43 170 cm 70 kg 41 159 cm 54 kg 39
189 cm 76 kg 45 171 cm 65 kg 42 170 cm 68 kg 41
173 cm 73 kg 44 167 cm 67 kg 39 156 cm 63 kg 37
169 cm 62 kg 41 166 cm 80 kg 44 161 cm 58 kg 39
175 cm 68 kg 42 170 cm 64 kg 41 165 cm 63 kg 39
164 cm 64 kg 40 163 cm 58 kg 39 162 cm 54 kg 37
190 cm 85 kg 43 180 cm 82 kg 44 168 cm 62 kg 37
174 cm 55 kg 41 171 cm 71 kg 44 154 cm 50 kg 38
184 cm 74 kg 43 182 cm 85 kg 44 169 cm 68 kg 40
168 cm 56 kg 41 167 cm 70 kg 41 155 cm 45 kg 36
179 cm 64 kg 41 171 cm 62 kg 40 164 cm 67 kg 37
174 cm 65 kg 40 155 cm 57 kg 39 156 cm 60 kg 38
163 cm 58 kg 41 163 cm 65 kg 41 160 cm 60 kg 38
172 cm 53 kg 41 160 cm 65 kg 39 153 cm 53 kg 36
176 cm 61 kg 42 174 cm 72 kg 42 154 cm 53 kg 37
190 cm 85 kg 45 174 cm 65 kg 41 163 cm 62 kg 39
172 cm 56 kg 41 169 cm 70 kg 42 150 cm 43 kg 36
178 cm 68 kg 42 180 cm 70 kg 42 157 cm 40 kg 36
173 cm 65 kg 42 182 cm 78 kg 44 166 cm 58 kg 37
175 cm 67 kg 42 170 cm 75 kg 43 163 cm 50 kg 37
168 cm 64 kg 41 170 cm 78 kg 41 162 cm 58 kg 38
180 cm 66 kg 44 170 cm 78 kg 42 165 cm 65 kg 39
175 cm 65 kg 40 162 cm 64 kg 40 163 cm 60 kg 38
184 cm 75 kg 43 165 cm 65 kg 41 162 cm 55 kg 38
181 cm 75 kg 43 173 cm 76 kg 43 159 cm 49 kg 38
169 cm 60 kg 40 161 cm 64 kg 40 155 cm 55 kg 37
174 cm 65 kg 43 175 cm 80 kg 44 166 cm 72 kg 38
175 cm 66 kg 44 172 cm 70 kg 42 160 cm 55 kg 39
175 cm 60 kg 42 176 cm 80 kg 44 160 cm 55 kg 37
180 cm 60 kg 41 176 cm 80 kg 41 158 cm 45 kg 36
172 cm 58 kg 41 168 cm 66 kg 41 164 cm 50 kg 38
179 cm 68 kg 43 177 cm 75 kg 42 175 cm 70 kg 38
183 cm 90 kg 44 190 cm 110 kg 45 160 cm 60 kg 37
170 cm 62 kg 40 165 cm 74 kg 40 165 cm 55 kg 38
178 cm 75 kg 41 171 cm 73 kg 41 154 cm 50 kg 37
168 cm 50 kg 40 164 cm 65 kg 40 158 cm 51 kg 36
188 cm 70 kg 44 166 cm 65 kg 40 167 cm 67 kg 38
177 cm 68 kg 43 170 cm 85 kg 41 163 cm 56 kg 40
165 cm 55 kg 40 160 cm 75 kg 39 150 cm 50 kg 37
172 cm cm 55 kg 40 170 cm 70 kg 41 160 cm 55 kg 38
173 cm 56 kg 42 172 cm 65 kg 42 165 cm 49 kg 39
176 cm 66 kg 43 178 cm 80 kg 43 158 cm 65 kg 38
177 cm 70 kg 42 168 cm 85 kg 41 161 cm 60 kg 38
180 cm 62 kg 42 178 cm 90 kg 46 158 cm 70 kg 39
170 cm 52 kg 42 168 cm 64 kg 42 160 cm 50 kg 37
184 cm 70 kg 44 178 cm 76 kg 42 168 cm 60 kg 38
175 cm 67 kg 41 173 cm 75 kg 42 158 cm 56 kg 36
181 cm 67 kg 40 175 cm 78 kg 41 161 cm 55 kg 37
175 cm 61 kg 42 178 cm 69 kg 41 157 cm 65 kg 39
162 cm 63 kg 40 165 cm 62 kg 42 160 cm 57 kg 38
176 cm 60 kg 40 172 cm 62 kg 41 156 cm 52 kg 37
187 cm 68 kg 45 170 cm 70 kg 42 161 cm 62 kg 39
180 cm 69 kg 43 170 cm 70 kg 42 165 cm 55 kg 38
173 cm 64 kg 42 170 cm 80 kg 42 160 cm 55 kg 36
172 cm 68 kg 41 164 cm 67 kg 40 155 cm 50 kg 37
171 cm 60 kg 41 172 cm 75 kg 42 156 cm 54 kg 38
170 cm 56 kg 41 169 cm 68 kg 42 162 cm 53 kg 36
172 cm 70 kg 44 160 cm 72 kg 42 164 cm 64 kg 40
180 cm 65 kg 41 178 cm 72 kg 41 167 cm 55 kg 38
172 cm 70 kg 40 169 cm 75 kg 43 150 cm 50 kg 37
178 cm 63 kg 42 168 cm 68 kg 41 162 cm 50 kg 38
173 cm 62 kg 40 169 cm 80 kg 42 159 cm 50 kg 36
Tableau 1
Données morphologiques sur les conscrits
TAI : taille en centimètres ; PDS : masse en kilogrammes ; PNT : pointure ;
TAP : taille du père en centimètres ; PDP : masse du père en kilogrammes ; PTP : pointure du père ;
TAM : taille de la mère en centimètres ; PDM : masse de la mère en kilogrammes ; PTM : pointure de la mère.


  Avant d'effectuer les calculs, nous allons chercher à simplifier l'expression à obtenir. En effet, il n'est peut-être pas judicieux d'inclure toutes les variables. La méthode de l'analyse en composantes principales sur matrice des corrélations apporte une réponse pratique à ce problème. Les données du tableau 1 ont été saisie dans le logiciel ACPr [2]. Ce logiciel a permis de tracer le cercle des corrélations des variables reproduit sur les figures 3 et 4.

Fig. 3. - Calcul du cercle des corrélations avec ACPr.
(Cliquez sur l´image pour l´agrandir)

 
Fig. 4. - Cercle des corrélations des variables du tableau 1.
(Cliquez sur l´image pour l´agrandir)


   

  Télécharger le fichier pour ACPr



  Cette figure fait apparaître trois groupes de variables : 1) les variables associées à l'individu ; 2) les variables associées à la mère ; 3) les variables associées au père. Afin de simplifier l'expression, nous ne garderons qu'une variable associée à la mère et au père. Dans les deux cas nous ne conserverons que la taille qui sont les variables les plus fortement corrélées avec la taille de l'individu. Ainsi, l'expression finale sera de la forme :

TAI = a0 + a1PDS + a2PNT + a3TAP + a4TAM . (7)

  Les valeurs de a0, a1, a2, a3 et a4 sont déterminées à partir du logiciel RLM comme indiqué sur la figure 1 (le fichier ayant servi au calcul est fourni avec le logiciel sous le nom « données réduites.rlm »). On trouve le système :

\( \left\{ \begin{array}{l} a_0 = 40,690~\text{cm} \\ a_1 = 0,308~\text{cm}/\text{kg}^{-1} \\ a_2 = 1,380~\text{cm} \\ a_3 = 0,221 \\ a_4 = 0,121 \end{array} \right. \)   . (8)


Remarque : les valeurs des résidus données par RLM sont comprises entre −8,2 cm et 9,2 cm. En conservant toutes les variables, on aurait trouvé des résidus compris entre −7,7 cm et 9,3 cm. Compte tenu des incertitudes ce n'est pas significativement meilleur : on peut donc penser que la simplification des variables est justifiée.



4. Régression multiple avec des fonctions

  Très souvent les modèles linéaires sont insuffisants pour traduire des phénomènes physiques avec une bonne exactitude. Afin de contourner ce problème, il est possible de remplacer dans les calculs précédents les variables X1...Xp par des fonctions f1(X1)...fp(Xp).

Prenons par exemple, le cas du facteur d'augmentation f utilisé pour déduire la pression de vapeur saturante de l'air humide à partir de la pression de vapeur saturante au dessus de l'eau en phase pure [3]. La formule CIPM-1981/91 pour calculer la masse volumique de l'air utilise une approximation de ce facteur de la forme [4] :

f = a0 + a1p + a2t2  , (9)

avec p la pression exprimée en pascals, t la température exprimée en degrés Celsius et le système de coefficients suivant :

\( \left\{ \begin{array}{l} a_0 = 1,000~62 \\ a_1 = 3,14 \times 10^{-8}~\text{Pa}^{-1} \\ a_2 = 5,6 \times 10^{-7}~°\text{C}^{-2} \end{array} \right. \)   . (10)

  Les coefficients de cette formule ont été déterminés à l'aide des données de référence figurant dans le tableau 4.

p t
(Pa) 0 °C 5 °C 10 °C 15 °C 20 °C 25 °C 30 °C
60 000 1,002 4 1,002 5 1,002 5 1,002 6 1,002 8 1,002 9 1,003 1
65 000 1,002 6 1,002 6 1,002 7 1,002 8 1,002 9 1,003 1 1,003 2
70 000 1,002 8 1,002 8 1,002 9 1,002 9 1,003 1 1,003 2 1,003 4
75 000 1,002 9 1,003 0 1,003 0 1,003 1 1,003 2 1,003 4 1,003 5
80 000 1,003 1 1,003 1 1,003 2 1,003 3 1,003 4 1,003 5 1,003 7
85 000 1,003 3 1,003 3 1,003 3 1,003 4 1,003 5 1,003 6 1,003 8
90 000 1,003 5 1,003 5 1,003 5 1,003 6 1,003 7 1,003 8 1,003 9
95 000 1,003 6 1,003 6 1,003 7 1,003 7 1,003 8 1,003 9 1,004 1
100 000 1,003 8 1,003 8 1,003 8 1,003 9 1,004 0 1,004 1 1,004 2
105 000 1,004 0 1,004 0 1,004 0 1,004 0 1,004 1 1,004 2 1,004 4
110 000 1,004 2 1,004 1 1,004 1 1,004 2 1,004 2 1,004 4 1,004 5
Tableau 2
Données de référence du facteur d'augmentation.


Le calcul de ces coefficients est très facile à faire avec RLM : il suffit de saisir les données comme indiqué sur la figure 5 en remplaçant la température par son carré (le fichier contenant ces données est fourni avec le logiciel RLM sous le nom « facteur d'augmentation.rlm »).


Fig. 5. - Modélisation de f sur RLM.


  En effectuant les calculs avec RLM on obtient les valeurs suivantes :

\( \left\{ \begin{array}{l} a_0 = 1,000~636 \\ a_1 = 3,12 \times 10^{-8}~\text{Pa}^{-1} \\ a_2 = 5,73 \times 10^{-7}~°\text{C}^{-2} \end{array} \right. \)   . (11)

Ces résultats sont très proches de ceux de la formule du CIPM : la formule du CIPM donne un résidu quadratique moyen de 4,70 × 10−5 ; la formule calculée par RLM donne un résidu quadratique moyen de 4,66 × 10−5.



5. Perspectives

  La méthode présentée ici mérite encore d'être améliorée. Citons simplement comme pistes d'améliorations :
- la pondération des données ;
- le calcul des incertitudes sur les coefficients et sur les estimations de la variable expliquée.


Références

[1] PLATEL F., « Détermination du polynôme des moindres carrés par une méthode algébrique », MetGen, 2004.
[2] PLATEL F., « Analyse en composantes principales - Projet ACPr », MetGen, Dossier qualité 2.
[3] PLATEL F., « Calculs sur l´air humide », MetGen, Dossier métrologie 5.
[4] DAVIS R.S., « Formule pour la détermination de la masse volumique de l´air humide (1981/1991) », Rapport de la 4e session du CCM, BIPM, 1991.