Share to: share facebook share twitter share wa share telegram print page

 

Asimetria (estadística)

Exemple de distribució amb asimetria diferent de zero (positiva).

En la teoria de la probabilitat i estadística, l'asimetria[nota 1] és una mesura de la simetria (o asimetria, segons com es vulgui dir) d'una distribució de probabilitat d'una variable aleatòria de valors reals, a un costat i altre de la mitjana.

El valor de l'asimetria pot ser positiu o negatiu, o fins i tot indefinit (zero, o gairebé zero). Qualitativament, un biaix negatiu indica que la cua en el costat esquerre de la funció de densitat de probabilitat és més llarg que el del costat dret i la major part dels valors (que poden incloure la mitjana) es troben a la dreta de la mitjana. Un biaix positiu indica que la cua en el costat dret és més llarg que el costat esquerre i la major part dels valors es troben a l'esquerra de la mitjana. Un valor de zero (o gairebé zero) indica que els valors són relativament distribuïts de forma uniforme a banda i banda de la mitjana. Addicionalment, en el cas de distribucions multimodals, l'asimetria és difícil d'interpretar. Per exemple, l'asimetria no determina la relació entre la mitjana i la mediana.

Introducció

Considerem les dues distribucions de la figura. En cada gràfic, les barres de la part dreta es deformen de manera diferent que les barres de la part esquerra. Aquestes deformacions dels costats s'anomenen cues, i proporcionen un mecanisme visual per determinar quina de les dues asimetries té una distribució:

  1. asimetria negativa: La cua de l'esquerra és més llarga; la massa de la distribució està concentrada en la part dreta de la figura.
  2. asimetria positiva: La cua de la dreta és més llarga; la massa de la distribució està concentrada en la part esquerra de la figura.

En puntejat negre: la mitjana, en puntejat gris: la moda
Corbes per a diferents valors d'asimetria

L'asimetria d'una sèrie de dades es pot observar no només de manera gràfica, sinó també per simple inspecció dels valors. Per exemple, considerem la seqüència numèrica (49, 50, 51), que té els valors distribuïts uniformement al voltant d'un valor central (50). Podem transformar aquesta seqüència en una distribució amb asimetria negativa mitjançant l'addició d'un valor molt per sota de la mitjana, per exemple (40, 49, 50, 51). De manera semblant, podem fer que la seqüència tingui asimetria positiva afegint un valor molt per sobre de la mitjana, com en (49, 50, 51, 60).

Relació entre la mitjana i la mediana

L'asimetria no està estrictament lligada a la relació entre la mitjana i la mediana: una distribució amb asimetria negativa pot tenir una mitjana més gran o igual a la mediana, i anàlogament per a l'asimetria positiva.

En l'antiga noció d'asimetria no paramètrica, definida com on µ és la mitjana, ν és la mediana, i σ és la desviació estàndard, l'asimetria es defineix en termes d'aquesta relació: una asimetria no paramètrica positiva/dreta significa que la mitjana és més gran que (està situada a la dreta de) la mediana, mentre que una asimetria no paramètrica negativa/esquerra significa que la mitjana és més petita que (està situada a l'esquerra de) la mediana. Tot i això, la definició moderna d'asimetria i la definició tradicional no tenen, en general, el mateix signe: encara que coincideixen per a algunes famílies de distribucions, són diferents en general.

Si la distribució és simètrica, llavors la mitjana és igual a la mediana, i la distribució té asimetria zero.[1] Si, a més, la distribució és unimodal, llavors mitjana = mediana = moda. Aquest és el cas del llançament d'una moneda, o de la sèrie 1, 2, 3, 4... Notem que, en general, el recíproc no és cert, és a dir, el fet que l'asimetria sigui zero no vol dir que la mitjana sigui igual a la mediana.

Paul T. von Hippel apunta:

« (anglès) Many textbooks, teach a rule of thumb stating that the mean is right of the median under right skew, and left of the median under left skew. This rule fails with surprising frequency. It can fail in multimodal distributions, or in distributions where one tail is long but the other is heavy. Most commonly, though, the rule fails in discrete distributions where the areas to the left and right of the median are not equal. Such distributions not only contradict the textbook relationship between mean, median, and skew, they also contradict the textbook interpretation of the median. (català) Molts llibres de text ensenyen una regla, que diu que la mitjana cau a la dreta de la mediana en el cas d'asimetria esquerra. Aquesta regla falla amb una freqüència sorprenent. Pot fallar en distribucions multimodals, o en distribucions on una cua és llarga i l'altra és pesant. Però sovint la regla falla en distribucions discretes, on les àrees a l'esquerra i a la dreta de la mediana no són iguals. Aquestes distribucions no només contradiuen el llibre de text pel que fa a la relació entr mitjana, mediana i asimetria, sinó que també contradiuen el llibre pel que fa a la interpretació de la mediana. »
— Paul T. von Hippel, Mean, Median, and Skew: Correcting a Textbook Rule (Journal of Statistics Education)[2]

Definició

Coeficient moment d'asimetria de Pearson

L'asimetria d'una variable aleatòria X és el coeficient moment d'asimetria.[3] De vegades hom s'hi refereix com el coeficient moment d'asimetria de Pearson,[4] que cal no confondre'l amb altres estadístics d'asimetria de Pearson (vegeu més endavant). És el tercer moment estàndard.[3][4] Es denota per γ1 i es defineix com

on μ₃ és el tercer moment central, μ és la mitjana, σ és la desviació estàndard, i E és l'esperança matemàtica. La darrera igualtat expressa l'asimetria en termes del quocient entre el tercer cumulant κ₃ i el segon cumulant κ₂ elevat a la potència 1,5. Això és anàleg a la definició de curtosi com el quart cumulant normalitzat pel quadrat del segon cumulant.

De vegades, l'asimetria es denota per Skew[X].[nota 2]

La fórmula que expressa l'asimetria en termes del moment no central E[X3] es pot expressar desenvolupant la fórmula anterior,

Propietats

L'asimetria pot ser infinita, com a

o indefinida, com a

En aquest últim exemple, el tercer cumulant és indefinit. També es poden tenir distribucions com

on tant el segon com el tercer cumulants són infinits, i per tant l'asimetria és, de nou, indefinida.

Si Y és la suma de n variables independents i idènticament distribuïdes, totes amb la distribució de X, llavors el tercer cumulant de Y és n vegades el de X i el segon cumulant de Y és n vegades el de X, de tal manera que . Això mostra que l'asimetria de la suma és més petita, conforme s'aproxima a una distribució gaussiana d'acord amb el teorema del límit central. Notem que la suposició de què les variables siguin independents és important, perquè és possible que fins i tot la suma de dues variables gaussianes tingui una distribució asimètrica.

Asimetria mostral

Per a una mostra de n valors, un estimador natural de mètode de moments per a l'asimetria de la població és

on és la mitjana mostral, s és la desviació estàndard mostral, i el numerador m₃ és el tercer moment central mostral.

Una altra definició habitual per a l'asimetria mostral és[5]

on és l'únic estimador simètric no esbiaixat del tercer cumulant i és l'estimador simètric no esbiaixat del segon cumulant (és a dir, la variància).

En general, les ràtios i són tots dos estimadors esbiaixats de l'asimetria poblacional ; el seu valor esperat pot tenir fins i tot signe contrari al de l'asimetria real (per exemple, una distribució mixta consistent en gaussianes molt primes centrades a −99, 0,5 i 2 amb pesos 0,01, 0,66 i 0,33 té una asimetria d'aproximadament −9,77, però en una mostra de 3, té un valor esperat d'aproximadament 0,32, ja que normalment totes tres mostres cauen en la part amb valors positius de la distribució, que té asimetria cap a l'altra banda). Tot i això, tant com tenen òbviament el valor esperat de zero per a qualsevol distribució simètrica amb un tercer moment finit, incloent-hi una distribució normal.

La variància de l'asimetria d'una mostra aleatòria de grandària n a partir d'una distribució normal és[6][7]

Una aproximació alternativa és 6/n, però no és prou acurada per a mostres petites.

En mostres normals, té la variància més baixa dels dos estimadors, amb

on el terme m₂ del denominador és el segon moment central mostral (esbiaixat).[5]

El coeficient de moment estandarditzat ajustat de Fisher–Pearson és el que es fa servir a Excel i a diversos paquets estadístics, com Minitab, SAS i SPSS.[8]

Aplicacions

L'asimetria té beneficis en moltes àrees. Molts models suposen que la distribució és normal, és a dir, les dades són simètriques al voltant de la mitjana. La distribució normal té una asimetria de zero. Però en la realitat, les dades poden no ser perfectament simètriques. Així, si s'interpreta correctament l'asimetria del conjunt de dades, hom pot preveure si les desviacions respecte a la mitjana seran positives o negatives.

Altres mesures d'asimetria

Comparació de la mitjana, la mediana i la moda de dues distribucions log-normal amb diferents graus d'asimetria.

Es poden fer servir altres mesures d'asimetria, incloent-hi alguns càlculs més senzills suggerits per Karl Pearson[9] (cal no confondre'ls amb el coeficient de moment de Pearson per a l'asimetria). Aquestes altres mesures són:

Primer coeficient d'asimetria de Pearson (asimetria de la moda)

L'asimetria de la moda de Pearson,[10] o primer coeficient d'asimetria, es defineix com

(mitjanamoda) / desviació estàndard.

Segon coeficient d'asimetria de Pearson (asimetria de la mediana)

L'asimetria de la mediana de Pearson, o segon coeficient d'asimetria,[11] es defineix com

3 (mitjanamediana) / desviació estàndard.

Altres

A partir de l'expansió estàndard d'un cumulant al voltant d'una distribució normal, es pot demostrar que

asimetria = 6 (mitjanamediana) / desviació estàndard (1 + curtosi / 8) + O (asimetria²).

Cal tenir present que aquestes igualtats sovint no es compleixen ni tan sols de forma aproximada, i aquestes expressions aproximades ja no es fan servir avui en dia. No existeix cap garantia que aquestes expressions tinguin el mateix signe les unes que les altres o que la definició ordinària d'asimetria.

Mesures basades en quantils

Es pot definir una funció asimetria[12][13]

,

on F és la funció de distribució de probabilitat. Això porta a una mesura general de l'asimetria[12] definida com el suprem d'aquesta expressió sobre l'interval . Es pot obtenir una altra mesura per integració del numerador i del denominador d'aquesta expressió.[14] La funció γ(u) satisfà −1 ≤ γ(u) ≤ 1 i està ben definida sense requerir l'existència dels moments de la distribució.[14]

La mesura de Galton per a l'asimetria[15] és γ(u) avaluada a u = 3/4. Altres noms per a aquesta quantitat són: asimetria de Bowley,[16] l'índex de Yule–Kendall[17] i l'asimetria quartil.

La mesura de Kelley per a l'asimetria utilitza .

L-moments

L'ús de L-moments en comptes de moments proporcionen una mesura de l'asimetria coneguda con L-asimetria.[18]

Asimetria de distància

Un valor d'asimetria igual a zero no implica que la distribució de probabilitat sigui simètrica; cal una altra mesura d'asimetria que tingui aquesta propietat: aquesta altra mesura fou introduïda l'any 2000.[19] S'anomena asimetria de distància i es denota per dSkew. Si X és una variable aleatòria que pren valors en l'espai euclidià de dimensió d, X té esperança finita, X' és una còpia independent de X distribuïda idènticament, i denota la norma de l'espai euclidià, llavors una mesura d'asimetria simple és

i dSkew(X):= 0 per a X = 0 (amb probabilitat 1). L'asimetria de distància té sempre un valor entre 0 i 1, val 0 si i només si X és diagonalment simètrica (X i −X tenen la mateixa distribució de probabilitat), i val 1 si i només si X és una constant no nul·la amb probabilitat 1.[20] Així, podem definir un contrast d'hipòtesi simple i consistent per a la simetria diagonal, basat en l'asimetria de la distància mostral:

Coeficient de Groeneveld-Meeden

Groeneveld i Meeden suggereixen, com a mesura alternativa de l'asimetria,[14]

on μ és la mitjana, ν és la mediana, |•| és el valor absolut, i E() és l'operador esperança.

Bibliografia

  • Johnson, Norman Lloyd; Kotz, Samuel; Balakrishnan, Narayanaswamy. Continuous Univariate Distributions, Vol 1. 2a edició. Wiley, 1994. ISBN 0-471-58495-9. 
  • MacGillivray, H.L. «Shape properties of the g- and h- and Johnson families». Comm. Statistics — Theory and Methods, 21, 5, 1992, pàg. 1244–1250. DOI: 10.1080/03610929208830842.

Notes

Referències

  1. «1.3.5.11. Measures of Skewness and Kurtosis». NIST. [Consulta: 30 desembre 2015].
  2. von Hippel, Paul T. «Mean, Median, and Skew: Correcting a Textbook Rule». Journal of Statistics Education, 13, 2, 2005. Arxivat de l'original el 2008-10-14 [Consulta: 1r gener 2016].
  3. 3,0 3,1 "Measures of Shape: Skewness and Kurtosis" Arxivat 2015-12-26 a Wayback Machine., 2008–2014 by Stan Brown, Oak Road Systems
  4. 4,0 4,1 Pearson's moment coefficient of skewness Arxivat 2023-06-04 a Wayback Machine., FXSolver.com
  5. 5,0 5,1 Joanes, D. N.; Gill, C. A. «Comparing measures of sample skewness and kurtosis». Journal of the Royal Statistical Society (Series D): The Statistician, 47, 1, 1998, pàg. 183–189. DOI: 10.1111/1467-9884.00122.
  6. Duncan, Cramer. Fundamental Statistics for Social Research. Routledge, 1997, p. 85. ISBN 9780415172042. 
  7. Kendall, M.G.; Stuart, A. «Ex 12.9». A: The Advanced Theory of Statistics, Volume 1: Distribution Theory. 3a edició. Griffin, 1969. ISBN 0-85264-141-9. 
  8. Doane DP, Seward LE (2011) J Stat Educ 19 (2)
  9. [enllaç sense format] http://www.stat.upd.edu.ph/s114%20cnotes%20fcapistrano/Chapter%2010.pdf Arxivat 2010-07-05 a Wayback Machine.
  10. Weisstein, Eric W., «Pearson Mode Skewness» a MathWorld (en anglès).
  11. Weisstein, Eric W., «Pearson's skewness coefficients» a MathWorld (en anglès).
  12. 12,0 12,1 MacGillivray (1992)
  13. Hinkley DV (1975) "On power transformations to symmetry", Biometrika, 62, 101-111
  14. 14,0 14,1 14,2 Groeneveld, R.A.; Meeden, G. «Measuring Skewness and Kurtosis». The Statistician, 33, 4, 1984, pàg. 391–399. DOI: 10.2307/2987742. JSTOR: 2987742.
  15. Johnson et al (1994) p 3, p 40
  16. Kenney JF and Keeping ES (1962) Mathematics of Statistics, Pt. 1, 3rd ed., Van Nostrand, (page 102)
  17. Wilks DS (1995) Statistical Methods in the Atmospheric Sciences, p 27. Academic Press. ISBN 0-12-751965-3
  18. Hosking, J.R.M. «Moments or L moments? An example comparing two measures of distributional shape». The American Statistician, 46, 3, 1992, pàg. 186–189. DOI: 10.2307/2685210. JSTOR: 2685210.
  19. Szekely, G.J. (2000). "Pre-limit and post-limit theorems for statistics", In: Statistics for the 21st Century (eds. C. R. Rao and G. J. Szekely), Dekker, Nova York, p. 411–422.
  20. Szekely, G. J. and Mori, T. F. (2001) "A characteristic measure of asymmetry and its application for testing diagonal symmetry", Communications in Statistics – Theory and Methods 30/8&9, 1633–1639.

Vegeu també

Enllaços externs

Kembali kehalaman sebelumnya