Utiliser l’Utilitaire d’analyse pour effectuer une analyse de données complexe

Important :  Cet article a été traduit automatiquement, voir l’avertissement. Vous pouvez consulter la version en anglais de cet article ici.

Si vous devez créer des analyses statistiques ou techniques complexes, vous pouvez enregistrer les étapes et les heures en utilisant l’utilitaire d’analyse. Vous devez fournir les données et les paramètres nécessaires à chaque analyse et l’utilitaire utilise les fonctions macro appropriées pour calculer et afficher les résultats dans une table. En plus des tables de résultats, certains outils génèrent des graphiques.

L’utilitaire d’analyse comprend les outils décrits ci-dessous. Pour accéder à ces outils, cliquez sur Analyse des données dans le groupe Analyse sous l’onglet Données. Si la commande Analyse des données n’est pas disponible, téléchargez l’utilitaire d’analyse Analysis ToolPak.

Télécharger l’utilitaire Analysis ToolPak

  1. Cliquez sur l’onglet Fichier, sur Options, puis sur la catégorie Macros complémentaires.

  2. Dans la zone Gérer, sélectionnez Compléments Excel, puis cliquez sur OK.

  3. Dans la zone Macros complémentaires disponibles, activez la case à cocher Utilitaire d’analyse, puis cliquez sur OK.

    Conseil    Si l’Utilitaire d’analyse ne figure pas dans la zone Macros complémentaires disponibles, cliquez sur Parcourir pour le localiser.

    Si vous recevez un message indiquant qu’il n’est pas installé sur votre ordinateur, cliquez sur Oui pour l’installer.

Remarque : Pour inclure Visual Basic pour Applications (VBA) pour l’utilitaire d’analyse Analysis ToolPak, vous pouvez charger le complément Analysis ToolPak - VBA en procédant de la même façon que pour télécharger l’utilitaire d’analyse Analysis ToolPak. Dans la zone disponible Compléments, activez la case à cocher Utilitaire d’analyse - VBA.

Pour obtenir une description de chaque outil, cliquez sur un nom dans la liste suivante.

Anova

Les outils d’analyse Anova permettent d’effectuer différents types d’analyse de la variance. L’outil à utiliser dépend du nombre de facteurs et du nombre d’échantillons extraits des populations à tester.

Anova : un facteur

Cet outil effectue une analyse de variance simple sur les données de deux ou plusieurs échantillons. L'analyse fournit un test de l'hypothèse que chaque échantillon provient de la distribution de probabilité sous-jacente même contre l'hypothèse que distribution de probabilité sous-jacentes ne sont pas identiques pour tous les exemples. S'il y a que deux échantillons, vous pouvez utiliser la fonction de feuille de calcul T.TEST. Avec plus de deux échantillons, il est généralisation pratique de T.TESTet le modèle Anova facteur unique peut être amené à la place.

Anova : deux facteurs avec réplication

Cet outil d’analyse convient lorsqu’il est possible de classer les données en fonction de deux dimensions différentes. Imaginons une étude sur la hauteur des plantes auxquelles on associe différentes marques d’engrais (par exemple, A, B, C) et qui sont conservés à des températures différentes (par exemple, basse, élevée). Pour chaque paire possible {engrais, température}, on obtient un nombre égal d’observations pour la hauteur des plantes. Avec cet outil Anova, il est possible de tester les hypothèses suivantes :

  • Les plantes dont la hauteur est mesurée pour des marques d’engrais différentes proviennent de la même population sous-jacente. Il n’est pas tenu compte des températures dans cette analyse.

  • Les plantes dont la hauteur est mesurée avec des niveaux de température différents proviennent de la même population sous-jacente. Il n’est pas tenu compte des marques d’engrais dans cette analyse.

Prise en compte de l’incidence des différences entre les marques d’engrais notées au premier point et des différences de température notées au second point, les six échantillons représentant toutes les paires de valeurs {engrais, température} proviennent de la même population. L’hypothèse alternative consiste à supposer qu’il existe des effets liés aux paires spécifiques {engrais, température} au-delà des différences, qui sont liés à l’engrais uniquement ou à la température uniquement.

Définition de la plage d’entrée pour l’outil Anova

Anova : deux facteurs sans réplication

Cet outil d’analyse est utile lorsque les données sont classées en fonction de deux dimensions différentes comme dans le cas du test à deux facteurs avec réplication. Toutefois, l’utilisation de cet outil suppose une seule observation pour chaque paire (par exemple, chaque paire {engrais, température} de l’exemple précédent).

Corrélation

Les fonctions de feuille de calcul coefficient.Correlation et PEARSON calculent le coefficient de corrélation entre deux variables de mesure lorsque les mesures sur chaque variable sont observés pour chacun des sujets N. (Toute observation manquante pour un sujet entraîne ignorées lors de l'analyse de ce dernier). L'outil d'analyse corrélation est particulièrement utile lorsqu'il y a plus de deux variables de mesure pour chacun des sujets N. Il fournit une table de sortie, une matrice de corrélation, affichant la valeur du coefficient (ou PEARSON) appliquée à chaque paire de variables de mesure possible.

Le coefficient de corrélation, comme la covariance, permet de savoir dans quelle mesure deux variables numériques « varient ensemble ». Contrairement à la covariance, le coefficient de corrélation est échelonné de façon à ce que sa valeur ne soit pas dépendante des unités dans lesquelles sont exprimées les deux variables numériques. (Prenons l’exemple de deux variables numériques qui sont le poids et la hauteur. La valeur du coefficient de corrélation ne change pas si le poids exprimé en livres est converti en kilogrammes.) La valeur du coefficient de corrélation doit être comprise entre -1 et +1 inclus.

Vous pouvez utiliser l’outil d’analyse de corrélation pour étudier chaque paire de variables numériques et déterminer si elles corrèlent — c’est-à-dire, si les valeurs élevées d’une variable ont tendance à suivre les valeurs élevées de l’autre variable (on parle de corrélation positive), si les valeurs faibles d’une variable ont tendance à suivre les valeurs élevées de l’autre variable (on parle de corrélation négative) ou bien enfin, si les valeurs des deux variables ne sont pas liées (corrélation proche de 0 (zéro)).

Covariance

Les outils de calcul de la corrélation et de la covariance peuvent tous deux être utilisés dans le même contexte, c’est-à-dire lorsque N variables numériques différentes font l’objet d’une observation sur un groupe d’individus. Ces deux outils permettent tous deux d’obtenir une table de résultats, une matrice, qui montre respectivement le coefficient de corrélation ou la covariance, entre chaque paire de variables numériques. La différence entre les deux outils est liée au fait que les coefficients de corrélation sont échelonnés de façon à être compris entre -1 et +1 inclus. Les covariances ne sont pas échelonnées. Le coefficient de corrélation et la covariance montrent dans quelle mesure deux variables « varient ensemble ».

L’outil de covariance calcule la valeur de la fonction COVAR pour chaque paire de variables numériques. (L’utilisation directe de la fonction COVARIANCE.P à la place de l’outil de covariance est un choix raisonnable lorsqu’il n’existe que deux variables numériques, c’est-à-dire, lorsque N=2.) L’entrée dans la diagonale de la table de résultats de l’outil de covariance sur la ligne i, colonne i correspond à la covariance de la i-ème variable numérique avec elle-même. Il s’agit simplement de la variance non corrigée pour cette variable, telle que calculée par la fonction VAR.P.

Vous pouvez utiliser l’outil d’analyse de covariance pour étudier chaque paire de variables numériques et déterminer si elles corrèlent — c’est-à-dire, si les valeurs élevées d’une variable ont tendance à suivre les valeurs élevées de l’autre variable (on parle de corrélation positive), si les valeurs faibles d’une variable ont tendance à suivre les valeurs élevées de l’autre variable (on parle de corrélation négative) ou bien enfin, si les valeurs des deux variables ne sont pas liées (corrélation proche de 0 (zéro)).

Statistiques descriptives

L’outil d’analyse des statistiques génère un rapport statistique univariable à partir des données de la plage d’entrée et fournit des informations sur la tendance centrale et la variabilité des données.

Outil d’analyse Exponential Smoothing (lissage exponentiel)

L’outil d’analyse Exponential Smoothing (lissage exponentiel) calcule une valeur qui est basée sur la prévision établie pour une période précédente. Cette valeur est ajustée en fonction de l’erreur de cette prévision précédente. L’outil utilise la constante de lissage a, dont l’ordre de grandeur détermine la puissance avec laquelle les prévisions répondent aux erreurs de la prévision précédente.

Remarque : Les constantes de lissage prennent généralement les valeurs 0.2 à 0.3. Ces valeurs indiquent que la prévision doit être ajustée à 20 ou 30 pour cent pour l’erreur de prévision précédente. Des valeurs de constantes plus élevées entraînent des réponses plus rapides, mais risquent de générer des projections inconstantes. Des valeurs de constantes moins élevées peuvent entraîner des décalages importants pour les valeurs de prévision.

Outil d’analyse F-Test Two-Sample for Variances

L’outil d’analyse Test F de la variance pour deux échantillons permet d’effectuer le test F sur deux échantillons afin de comparer les variances de deux populations.

Par exemple, vous pouvez appliquer le test F sur les échantillons de scores établis dans une compétition de natation par deux équipes. Cet outil permet de tester l’hypothèse nulle selon laquelle ces deux échantillons proviennent de distributions avec des variances égales, et l’hypothèse alternative selon laquelle les variances ne sont pas égales dans les distributions sous-jacentes.

Cet outil calcule la valeur f pour un test statistique F (ou un pourcentage). Si la valeur de f est proche de 1 alors on peut en déduire que les variances des population sous-jacentes sont égales. Dans la table, f < 1 « P(F <= f) unilatéral » donne la probabilité d’observation d’une valeur du test statistique F inférieure à f lorsque les variances des populations sont égales et « F Critique unilatéral » donne une valeur critique inférieure à 1 pour le seuil Alpha significatif choisi. f > 1, « P(F <= f) unilatéral » donne la probabilité d’observation d’une valeur du test statistique F supérieure à f lorsque les variances des populations sont égales, et « F Critique unilatéral » donne une valeur critique supérieure à 1 pour le seuil Alpha.

Analyse de Fourier

L’outil d’analyse de Fourier permet de résoudre des problèmes dans les systèmes linéaires et analyse les données en utilisant la « transformée de Fourier rapide » pour transformer des données. Cet outil permet également les transformations inverses, dans lesquelles l’inverse des données transformées renvoie les données d’origine.

Plages d’entrée et de sortie pour l’analyse de Fourier

Histogramme

L’outil d’analyse Histogramme calcule les fréquences individuelles et cumulatives pour une plage de cellules de données et des emplacements de données. Cet outil génère des données pour un certain nombre d’occurrences d’une valeur dans une série de données.

Par exemple, dans une classe de 20 étudiants, vous pouvez déterminer la distribution des notes sous forme de notation alphabétique. Un histogramme présente les bornes, et le nombre de notes entre la borne inférieure et la borne actuelle. Le score unique le plus fréquent représente le mode des données.

Moyenne mobile

L’outil de calcul de la moyenne mobile permet de projeter des valeurs sur une période prévisionnelle en se basant sur la valeur moyenne de la variable sur un nombre spécifique de périodes précédentes. Une moyenne mobile fournit des informations de tendance que la moyenne simple des données historiques masque. Utilisez cet outil pour établir des prévisions de ventes, de gestion de stock par exemple. Chaque valeur prévisionnelle est basée sur la formule suivante.

Formule de calcul des moyennes mobiles

où :

  • N est le nombre de périodes antérieures à inclure dans la moyenne mobile

  • Aj est la valeur réelle au moment j

  • FJ est la valeur prévisionnelle au moment j

Générateur de nombre aléatoire

L’outil d’analyse Générateur de nombre aléatoire complète une série avec des nombres aléatoires indépendants qui proviennent d’une distribution. Vous pouvez caractériser les sujets d’une population avec une distribution des probabilités. Par exemple, vous pouvez utiliser une loi normale de distribution pour caractériser la population des tailles d’individus ou bien utiliser la distribution de Bernoulli de deux résultats possibles pour caractériser la population des résultats des tirages à pile ou face.

Rang et centiles

L’outil d’analyse Rang et centiles génère une table qui contient le rang (numéro d’ordre et pourcentage) de chaque valeur dans un jeu de données. Vous pouvez analyser le classement relatif des valeurs dans un jeu de données. Cet outil utilise les fonctions de feuille de calcul EQUATION.RANG et RANG.POURCENTAGE.INCLURE. Si vous souhaitez prendre en compte les valeurs ex-aequo, utilisez la fonction EQUATION.RANG, qui traite ces valeurs comme ayant le même rang, ou utilisez la fonction MOYENNE.RANG, qui renvoie le rang moyen des valeurs ex-aequo.

Régression

L’outil Régression permet d’effectuer une analyse de régression linéaire en utilisant la méthode des moindres carrés afin de rechercher une droite à partir des valeurs observées. Vous pouvez analyser la façon dont une variable dépendante simple est affectée par les valeurs d’une ou de plusieurs variables indépendantes. Par exemple, vous pouvez analyser la façon dont les performances d’un athlète sont influencées par les facteurs que sont l’âge, la taille et le poids. Vous pouvez répartir les parts que chacun de ces trois facteurs représente dans les performances, en vous basant sur une série de données de performances, puis utiliser les résultats pour prédire les performances d’un nouvel athlète qui n’a encore fait l’objet d’aucun test.

L'outil de régression utilise la fonction de feuille de calcul DROITEREG.

Échantillonnage

L’outil d’analyse Échantillonnage crée un échantillon à partir d’une population en traitant comme une population la série de données entrée. Si la population est trop importante pour être traitée ou représentée sous forme de graphique, vous pouvez utiliser un échantillon représentatif. Vous pouvez également créer un échantillon qui contient uniquement les valeurs d’un cycle particulier si vous pensez que les données sont périodiques. Par exemple, si la série de données contient des chiffres de ventes trimestrielles, le fait de créer un échantillon à partir d’une périodicité égale à quatre place les valeurs à partir du même trimestre dans la série résultante.

Test t

Les outils d’analyse Test t de comparaison de deux échantillons permettent de tester l’égalité des moyennes de population qu’il est possible de déduire sur la base de chaque échantillon. Trois outils pour trois assomptions différentes : les variances de la population sont égales, les variances de la population ne sont pas égales, les données des deux échantillons sont des données observées avant traitement et après traitement sur les mêmes sujets.

Pour les trois outils ci-dessous, une valeur statistique t est calculée et figure dans les tables de résultats (« t Stat »). En fonction des données, cette valeur, t, peut être négative ou non négative. Sur la base de l’assomption de l’égalité des moyennes de population sous-jacentes, t < 0, « P(T <= t) unilatéral » donne la probabilité que la valeur statistique t observée est plus négative que la valeur t de la table. t >=0, « P(T <= t) unilatéral » donne la probabilité que la valeur statistique t observée est plus positive que la valeur t de la table. La valeur t critique du test unilatéral donne la valeur du seuil, de sorte que la probabilité d’observer une valeur statistique t supérieure ou égale à la valeur critique t du test unilatéral est Alpha.

« P(T <= t) bilatéral » donne la probabilité que la valeur statistique t observée est supérieure en valeur absolue à la valeur t de la table. La valeur critique P du test bilatéral donne la valeur du seuil, de sorte que la probabilité d’une valeur statistique t observée supérieure en valeur absolue à la valeur critique P du test bilatéral est Alpha.

Test t pour le calcul des moyennes de deux échantillons appariés

Vous pouvez utiliser le test t apparié lorsque les observations sur les échantillons sont naturellement appariées, par exemple, lorsqu’un groupe est testé deux fois — avant et après une expérimentation. Cet outil d’analyse et sa formule permettent d’effectuer un test t de Student pour deux échantillons appariés afin de déterminer si les observations relevées avant et après traitement proviennent de distributions avec des moyennes égales de population. Ce test ne suppose pas que les variances des deux populations sont égales.

Remarque : Parmi les résultats générés par cet outil figure la variance cumulée, une mesure cumulée de la répartition des données sur la moyenne, qui est dérivée de la formule suivante.

Formule pour calculer la variance cumulée

Test t pour deux échantillons avec pour assomption l’égalité des variances

Cet outil d’analyse permet d’effectuer un test t de Student pour deux échantillons. Pour ce test, l’assomption est que les deux séries de données proviennent de distributions avec les mêmes variances. On parle de test t homoscédastique. Vous pouvez utiliser ce test t de Student pour déterminer si les deux échantillons proviennent de distributions avec des moyennes égales de population.

Test t pour deux échantillons avec pour assomption l’inégalité des variances

Cet outil d’analyse permet d’effectuer un test t de Student pour deux échantillons. Pour ce test, l’assomption est que les deux séries de données proviennent de distributions avec des variances inégales. On parle de test t hétéroscédastique. Tout comme dans le cas précédent de l’égalité des variances, vous pouvez utiliser ce test t pour déterminer si les deux échantillons proviennent de distributions avec des moyennes égales de population. Utilisez ce test si les sujets des deux échantillons sont différents. Utilisez le test pour échantillon apparié, décrit dans l’exemple qui suit, pour un groupe de sujets identiques et si les mesures relevées pour les deux échantillons le sont avant et après traitement pour chaque sujet.

La formule suivante permet de calculer la valeur statistique t.

Formule pour calculer la valeur t

La formule suivante est utilisée pour calculer les degrés de liberté, df. Étant donné que le résultat du calcul n'est généralement pas un entier, la valeur de df est arrondie au nombre entier plus proche pour obtenir une valeur critique à partir de la table t. La fonction de feuille de calcul Excel T.TEST utilise la valeur df calculée sans arrondi, car il est possible calculer une valeur pour T.TEST avec les nombres décimaux un df. En raison de ces approches différentes pour déterminer les degrés de liberté, les résultats de T.TEST et cet outil de Test t diffèrent dans DF.

Formule de calcul du degré de liberté

Test z

Le Test z: outil d'analyse effectue un Test z deux échantillons moyennes dont les variances sont connues. Cet outil est utilisé pour tester l'hypothèse null qu'il n'existe aucune différence entre deux populations contre les hypothèses de remplacement à une face ou recto-verso. Si variances ne sont pas connues, la fonction de feuille de calcul Z.TEST doit être utilisée à la place.

Lorsque vous utilisez le test z, assurez-vous de bien interpréter le résultat. « P(Z <= z) unilatéral » correspond à P(Z >= ABS(z)), la probabilité d’une valeur z au-delà de 0 dans le même sens que la valeur z observée lorsqu’il n’existe pas de différence entre les moyennes des populations. « P(Z <= z) bilatéral » correspond à P(Z >= ABS(z) ou Z <= -ABS(z)), la probabilité d’une valeur z au-delà de 0 dans les deux sens par rapport à la valeur z observée lorsqu’il n’existe aucune différence entre les moyennes de population. Le résultat bilatéral correspond simplement au résultat unilatéral multiplié par 2. Le test z peut également servir lorsque l’hypothèse nulle est la suivante : il existe une valeur spécifique différente de zéro pour la différence entre les deux moyennes de population. Par exemple, vous pouvez utiliser ce test pour déterminer les différences entre les performances de deux modèles de voitures.

Remarque    Les fonctions d'analyse de données utilisées sur une feuille de calcul à la fois. Lorsque vous effectuez l'analyse des données dans des feuilles de calcul groupées, résultats s'affichent sur la première feuille de calcul et les tables mis en forme vides s'affichent dans les feuilles de calcul restantes. Pour effectuer une analyse de données sur le reste des feuilles de calcul, recalculer l'outil d'analyse pour chaque feuille de calcul.

Remarque : Avertissement traduction automatique : cet article a été traduit par un ordinateur, sans intervention humaine. Microsoft propose cette traduction automatique pour offrir aux personnes ne maîtrisant pas l’anglais l’accès au contenu relatif aux produits, services et technologies Microsoft. Comme cet article a été traduit automatiquement, il risque de contenir des erreurs de grammaire, de syntaxe ou de terminologie.

Ces informations vous ont-elles été utiles ?

Très bien ! Vous avez d’autres commentaires ?

Comment pouvons-nous l’améliorer ?

Nous vous remercions pour vos commentaires.

×