Share to: share facebook share twitter share wa share telegram print page

 

Bootstrapping (estadística)

Es treu una mostra d'una població. A partir d'aquesta mostra, es generen mostres mitjançant dibuix amb substitució (taronja). Els punts de dades que s'han dibuixat més d'una vegada (cosa que passa per aproximadament el 26,4% dels punts de dades) es mostren en vermell i lleugerament compensats. A partir de les mostres, l'estadística es calcula i, per tant, es pot calcular un histograma per estimar la distribució de .

El bootstrapping és qualsevol prova o mètrica que utilitza mostreig aleatori amb reemplaçament (per exemple, imitant el procés de mostreig) i s'inclou dins la classe més àmplia de mètodes de remostreig. Bootstrapping assigna mesures de precisió (biaix, variància, intervals de confiança, error de predicció, etc.) a les estimacions de la mostra. Aquesta tècnica permet estimar la distribució del mostreig de gairebé qualsevol estadística mitjançant mètodes de mostreig aleatori.[1]

Bootstrapping estima les propietats d'un estimand (com ara la seva variància) mesurant aquestes propietats quan es mostren a partir d'una distribució aproximada. Una opció estàndard per a una distribució aproximada és la funció de distribució empírica de les dades observades. En el cas en què es pot suposar que un conjunt d'observacions prové d'una població independent i distribuïda de manera idèntica, això es pot implementar mitjançant la construcció d'una sèrie de mostrejos amb substitució, del conjunt de dades observat (i de la mateixa mida que el conjunt de dades observat).

També es pot utilitzar per construir proves d'hipòtesis. Sovint s'utilitza com a alternativa a la inferència estadística basada en l'assumpció d'un model paramètric quan aquesta hipòtesi està en dubte, o quan la inferència paramètrica és impossible o requereix fórmules complicades per al càlcul d'errors estàndard.[2]

Història

El bootstrap va ser publicat per Bradley Efron a "Bootstrap methods: another look at the jackknife" (1979),[3] inspirat en treballs anteriors sobre el jackknife. Més tard es van desenvolupar estimacions millorades de la variància. Una extensió bayesiana es va desenvolupar el 1981. El bootstrap corregit i accelerat per biaix (BCa) va ser desenvolupat per Efron el 1987,[4] i el procediment ABC el 1992.

Aproximació

La idea bàsica de l'arrencada és que la inferència sobre una població a partir de dades de mostra (mostra → població) es pot modelar tornant a mostrejar les dades de la mostra i realitzant inferències sobre una mostra a partir de dades de mostreig (mostreja → mostra). Com que es desconeix la població, es desconeix l'error real d'una estadística mostra en comparació amb el seu valor poblacional. En bootstrap-resamples, la "població" és de fet la mostra, i això és conegut; per tant, la qualitat de la inferència de la mostra "vertadera" a partir de dades remostrejades (mostrejada → mostra) és mesurable.

De manera més formal, el bootstrap funciona tractant la inferència de la distribució de probabilitat real J, donades les dades originals, com a anàloga a una inferència de la distribució empírica Ĵ, donades les dades re-mostrejades. L'exactitud de les inferències sobre Ĵ utilitzant les dades re-mostrejades es pot avaluar perquè coneixem Ĵ . Si Ĵ és una aproximació raonable a J, aleshores es pot inferir la qualitat de la inferència sobre J.

Com a exemple, suposem que estem interessats en l'alçada mitjana (o mitjana) de les persones a tot el món. No podem mesurar totes les persones de la població mundial, de manera que només en mostrem una petita part i ho mesurem. Suposem que la mostra és de mida N ; és a dir, mesurem les altures de N individus. A partir d'aquesta mostra única, només es pot obtenir una estimació de la mitjana. Per raonar sobre la població, necessitem una certa noció de la variabilitat de la mitjana que hem calculat. El mètode d'arrencada més senzill consisteix a prendre el conjunt de dades original d'altures i, utilitzant un ordinador, fer-ne un mostreig per formar una nova mostra (anomenada "remostreig" o mostra d'arrencada) que també és de mida. N . La mostra d'arrencada s'obté de l'original utilitzant el mostreig amb substitució (p. ex., podríem "tornar a mostrejar" 5 vegades de [1,2,3,4,5] i obtenir [2,5,4,4,1]), així que, suposant que N és prou gran, per a tots els propòsits pràctics hi ha pràcticament zero probabilitat que sigui idèntica a la mostra "real" original. Aquest procés es repeteix un gran nombre de vegades (normalment 1.000 o 10.000 vegades), i per a cadascuna d'aquestes mostres d'arrencada, calculem la seva mitjana (cada una d'elles s'anomena "estimació de bootstrap"). Ara podem crear un histograma de mitjans bootstrap. Aquest histograma proporciona una estimació de la forma de la distribució de la mitjana mostral a partir de la qual podem respondre preguntes sobre quant varia la mitjana entre les mostres. (El mètode aquí, descrit per a la mitjana, es pot aplicar a gairebé qualsevol altra estadística o estimador).

Referències

  1. Joseph, Trist'n. «Bootstrapping Statistics. What it is and why it’s used.» (en anglès), 22-06-2020. [Consulta: 10 octubre 2023].
  2. «What Is the Bootstrapping Technique in Statistics?» (en anglès). [Consulta: 10 octubre 2023].
  3. Efron, B. The Annals of Statistics, 7, 1, 1979, pàg. 1–26. DOI: 10.1214/aos/1176344552 [Consulta: lliure].
  4. Efron, B. Journal of the American Statistical Association, 82, 397, 1987, pàg. 171–185. DOI: 10.2307/2289144. JSTOR: 2289144.
Kembali kehalaman sebelumnya


Index: pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve 
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9