Une image d'un caractère manuscrit est une distribution de pixels dans un vecteur chaque pixel est une valeur comprise entre O et 255. Cette distribution peut être utilisée pour comprendre la répartition des données et en tirer des conclusions. La distribution de valeurs dans un vecteur peut être représentée en général sous forme de diagramme, d'histogramme ou d'autres types de graphiques. Ces graphiques permettent de visualiser la fréquence de chaque valeur dans le vecteur et d'identifier les valeurs qui se produisent le plus ou le moins souvent. Il existe plusieurs mesures statistiques qui peuvent être utilisées pour décrire la distribution de valeurs dans un vecteur notamment la moyenne, la médiane, l'écart-type et la variance. Ces mesures permettent de caractèriser la distribution de manière plus précise et de comparer les distributions de différents vecteurs. La méthode à utiliser dans une distribution de valeurs dans un vecteur peut être influencée par plusieurs facteurs, tels que la taille de l'échantilion, la nature des données ou la présence de valeurs aberrantes. C'est ce demier point qui consiste la problématique de cet artice. . Les méthodes statistiques sont généralement utilisées pour comparer la variance de plusieurs vecteurs de même type. L'explorations de ces nombreuses méthodes anciennes et récentes m'a conduit à tester l'utilisation de Principal Components Analesis combiné avec la distance de Mahalanobis PCA (analyse en composantes principales) est une technique qui permet de réduire la dimensionnalité d'un ensemble de données en transformant les variables d'origine en un nombre plus petit de variables non corrélées appelées composantes principales. La distance de Mahalanobis est une mesure de la distance entre un point et une distribution multidimensionnelle, qui tient compte des covariances entre les différentes variables. Autrement dit la distance de Mahalanobis est comme une seuil de distance entre un point et un groupe d'autres points pour identifier les points les plus éloignés ou inhabituels (données aberrantes (outliers)) ou pour déterminer si un point de données appartient à une distribution particulière (classification). Théoriquement l'application de PCA sur un ensemble d'images constituées de 28x28 (vecteur de 784 valeurs de pixels) réduira ces données à un nombre plus petit de variables, la distance Mahalanobis est appliquée sur les composantes principales pour identifier les images qui sont éloignées de la moyenne. si l'on trouve que l'image a une distance très élevée par rapport au centre de la distribution, cela peut indiquer que l'image est aberrante. Plus la distance de est grande, plus l'image est différente de l'ensemble de données. Le réajustement du seuil de distance utilisé est nécessaire en fonction des résultats pour identifier le seuil approprié. l'utilisation de ces méthodes statistiques sur des images de caractères manuscrit peut-elle donner de bons résultats en pratique?

Similar questions and discussions