Une nouvelle procédure d'estimation statistique

Une nouvelle procédure d'estimation statistique

 

 

Mathieu SART est un jeune maître de conférences de l'Université Jean MONNET qui effectue sa recherche au sein de l'INSTITUT CAMILLE JORDAN.
Il travaille dans le domaine de la Statistique mathématique.
La publication de ses recherches dans une des meilleures revues de mathématique au monde constitue un résultat exceptionnel et met en lumière les mathématiques développées à l'UJM.

 

La Statistique fournit des outils non seulement pour analyser et étudier des données mais également pour approcher des quantités inconnues liées à des phénomènes complexes que l’on souhaite étudier. Ces quantités peuvent être de différentes natures selon le domaine d'étude. Un problème qui se pose fréquemment est celui de la recherche d'informations concernant un grand ensemble d'individus à partir d'une étude ne portant que sur une petite partie représentative de cet ensemble. En recherche clinique, par exemple, on peut vouloir étudier l’effet d'un médicament sur la population globale. Mais, pour des raisons de coût et de risque, on étudie d'abord cet effet sur une petite partie de cette population. Ce type de problème ne se limite pas seulement à la médecine, mais il est commun à de nombreux domaines comme l'économie, la biologie, la physique, l’agronomie, etc. Quel que soit le domaine sur lequel on travaille, il convient tout d'abord de traduire en termes mathématiques le problème que l’on veut résoudre. On peut alors ensuite appliquer des méthodes statistiques à la modélisation mathématique (stochastique) que l’on a préalablement obtenue. C’est là le domaine de la Statistique mathématique.

Une bonne procédure d’approximation de la quantité d’intérêt inconnue, procédure que l’on appelle en Statistique un estimateur, doit posséder plusieurs qualités. Tout d'abord, il convient qu'elle fournisse une valeur aussi précise que possible de la quantité concernée. On parle alors de procédure optimale. Une procédure de bonne qualité utilise moins de données pour atteindre la même précision qu'une procédure de qualité inférieure. Un autre point à prendre en compte est le fait que l'estimation requiert, comme nous l’avons dit, une modélisation des données. Cette modélisation, qui dépend de la connaissance plus ou moins bonne que l’on a du domaine auquel on s’intéresse, est cruciale car elle influence fortement les résultats. L'optimalité définie précédemment suppose que la modélisation des données est exacte.  En pratique cependant, il est impossible d'être certain que cette modélisation l’est vraiment. Tout au plus peut-on supposer que c’est une approximation raisonnable du phénomène que l'on souhaite étudier. Il faut donc qu'une petite erreur de modélisation n'induise pas une grande erreur d'estimation. Les procédures statistiques qui possèdent cette propriété de stabilité par rapport à la modélisation et sont donc tolérantes à des erreurs modérées sont dites « robustes ».

La littérature statistique abonde en procédures statistiques. L’une des plus célèbres a été conçue par Sir Ronald Fisher en 1922 : c’est la méthode du maximum de vraisemblance. Elle consiste à définir l'estimation d’un paramètre inconnu qui régit la production (aléatoire) des données comme la valeur de ce paramètre qui rend les données effectivement observées les plus « vraisemblables ». Il s'agit d'une méthode qui s'applique à des types de modèles statistiques très variés et qui peut raisonnablement être considérée comme optimale sous certaines hypothèses, malheureusement relativement restrictives et qui font qu’elle ne fonctionne pas pour tous les modèles. Il convient alors de trouver au cas par cas des solutions alternatives de bonne qualité. Il est de plus bien connu que cette méthode n’est généralement pas robuste aux erreurs, même faibles, de modélisation, ce qui est un sérieux inconvénient lorsque ladite modélisation est de toute évidence une approximation plus ou moins grossière de la réalité. 

L'article que nous avons publié dans Inventiones mathematicae, avec Yannick Baraud et Lucien Birgé, est un article théorique de Statistique mathématique qui concerne tout particulièrement les problèmes d'estimation d’une densité de probabilité ou d’une fonction de régression. Il s'agit d'une procédure générale d'estimation, qui s'applique à nombreux modèles, y compris certains pour lesquels la méthode du maximum de vraisemblance ne fonctionne pas. La qualité de la procédure est démontrée par des résultats théoriques qui font appel à de nombreux outils techniques (inégalités de concentration, notions d’entropie et de dimension métrique, dimension de Vapnik, Théorie de l’approximation, …). Nous montrons non seulement que l'estimateur est optimal ou quasi-optimal en un certain sens, mais aussi qu'il possède des propriétés de robustesse bien supérieures à celles du maximum de vraisemblance. Par ailleurs, bien que les deux approches soient basées sur des principes différents, elles semblent essentiellement coïncider et fournir les mêmes estimateurs dans les bons cas (modélisation exacte, modèles réguliers, …). Bien que les propriétés théoriques obtenues soient très supérieures à celles du maximum de vraisemblance et que les simulations numériques soient encourageantes, il reste de nombreux points à approfondir et certaines difficultés à résoudre. Du point de vue pratique, le problème crucial demeure celui de la mise en œuvre de la procédure dans des situations complexes. La construction de l'estimateur demande en effet de résoudre un problème d'optimisation numérique qui est malheureusement difficile dès que la quantité à estimer n’est pas de petite dimension.

 


Mathieu SART

 

 

 

Publié le 1 septembre 2016