DOKUMEN123.COM

Sa estadistikang pagmomodelo, ang pagsusuring regresyon ay isang pamamaraang estadistikal para tantiyahin ang ugnayan sa pagitan ng isang dependiyenteng baryabol (madalas tawaging kinalabasan o tumutugong baryabol, o tatak sa wika ng pagkatuto ng makina) at isa o higit pang independiyenteng baryabol (madalas tawaging mga regresor, tagahula o predictor, covariate o kasabay na baryabol, paliwanag na baryabol, o feature o tampok).^[1]^[2]

Ang pinakakaraniwang anyo ng pagsusuring regresyon ay ang lineyal na regresyon, kung saan hinahanap ang linya (o mas komplikadong kombinasyong lineyal) na pinakaangkop sa datos ayon sa isang tiyak na pamantayang matematikal. Halimbawa, ang paraang ordinaryong pinakamaliit na parisukat (least square) ay kumukuwenta ng natatanging linya (o hyperplane) na nagpapaliit sa kabuuan ng mga parisukat ng diperensiya sa pagitan ng aktuwal na datos at ng linyang iyon. Dahil sa mga partikular na dahilang matematikal (tingnan ang lineyal na regresyon), nagagawa nitong tantiyahin ng mananaliksik ang kondisyunal na inaasahang halaga (o karaniwang halaga ng populasyon) ng dependiyenteng baryabol kapag ang mga independiyenteng baryabol ay may ibinigay na hanay ng mga halaga. Ang mga hindi gaanong karaniwang anyo ng regresyon ay gumagamit ng bahagyang naiibang mga pamamaraan upang tantiyahin ang ibang mga parametro ng lokasyon (hal., quantile regression [regresyong kuwantil) o Necessary Condition Analysis^[3] [Pagsusuri ng Kailangan Kondisyon]) o upang tantiyahin ang kondisyunal na inaasahan sa mas malawak na hanay ng mga modelong di-linear (hal., regresyong di-parametriko).

Ang pagsusuring regresyon ay pangunahing ginagamit para sa dalawang magkaibang layunin sa konsepto. Una, malawakan itong ginagamit para sa prediksyon at pagtataya (forecasting), kung saan malaki ang pagkakaugnay nito sa larangan ng pagkatuto ng makina. Ikalawa, sa ilang situwasyon, maaari itong gamitin upang maghinuha ng mga ugnayang sanhi-at-bunga sa pagitan ng mga independiyente at dependiyenteng baryabol. Mahalaga, ang mga regresyon sa kanilang sarili ay nagpapakita lamang ng mga ugnayan sa pagitan ng isang dependiyenteng baryabol at isang pangkat ng mga independiyenteng baryabol sa loob ng isang nakapirming dataset o hanay ng datos. Upang magamit ang regresyon para sa prediksyon o paghinuha ng ugnayang sanhi, kinakailangan na maingat na maipaliwanag ng mananaliksik kung bakit may kakayahang manghula ang umiiral na mga ugnayan sa isang bagong konteksto, o kung bakit ang ugnayan ng dalawang baryabol ay maaaring ituring na sanhi. Lalong mahalaga ito kapag ang mga mananaliksik ay umaasang matantiya ang mga ugnayang sanhi gamit ang datos na naooberserba.^[4]^[5]

Modelo ng regresyon

Sa praktika, unang pinipili ng mga mananaliksik ang modelong nais nilang tantiyahin at pagkatapos ay ginagamit ang napiling pamamaraan (hal., ordinary least squares o ordinaryong pinakamaliit na parisukat) upang tantiyahin ang mga parametro ng modelong iyon. Ang mga modelo ng regresyon ay binubuo ng mga sumusunod na sangkap:

Ang mga hindi kilalang parametro, na kadalasang tinutukoy bilang isang iskalar o bektor na $\beta$ .
Ang mga independiyenteng baryabol, na nasusukat sa datos at kadalasang tinutukoy bilang bektor na $X_{i}$ (kung saan ang $i$ ay tumutukoy sa isang hilera ng datos).
Ang dependiyenteng baryabol, na nasusukat din sa datos at kadalasang tinutukoy gamit ang iskalar na $Y_{i}$ .
Ang mga termino ng kamalian error term, na hindi direktang nasusukat sa datos at kadalasang tinutukoy gamit ang iskalar na $e_{i}$ .

Sa iba't ibang larangan ng aplikasyon, iba-ibang terminolohiya ang ginagamit bilang kapalit ng mga baryabol dependiyente at independiyente.

Karamihan sa mga modelo ng regresyon ay nagmumungkahi na ang $Y_{i}$ ay isang punsyon (punsyong regresyon) ng $X_{i}$ at $\beta$ , kung saan ang $e_{i}$ ay kumakatawan sa isang nagdagdag na termino ng kamalian na maaaring pumalit sa mga hindi nakapaloob na salik na nakakaapekto sa $Y_{i}$ o sa walang-piling ingay pang-estadistika:

Y_{i}=f(X_{i},\beta )+e_{i}

Sa pamantayang modelong regresyon, ipinagpapalagay na ang mga independiyenteng baryabol na $X_{i}$ ay walang kamalian. Maaari namang gamitin ang modelong mga kamalian-sa-baryabol (errors-in-variables model) kung ipinagpapalagay na may kamalian ang mga independiyenteng baryabol. Maaari ding gumawa ng iba pang pagbabago sa pamantayang modelong regresyon upang isaalang-alang ang iba't ibang sitwasyon, tulad ng mga kasong may mga baryabol na tinanggal, baryabol na nakakalito, o endoheneidad.

Layunin ng mananaliksik na tantiyahin ang punsyon na $f(X_{i},\beta )$ na pinakaangkop sa datos. Upang maisagawa ang pagsusuring regresyon, dapat tukuyin ang anyo ng punsyon na $f$ . Minsan, ang anyo ng function ay batay sa kaalaman tungkol sa ugnayan ng $Y_{i}$ at $X_{i}$ na hindi nakabatay sa datos. Kung walang ganitong kaalaman, pinipili ang isang flexible (o naangkop) o maginhawang anyo ng punsyon na $f$ . Halimbawa, ang simpleng regresyong unibariyado ay maaaring magmungkahi na $f(X_{i},\beta )=\beta _{0}+\beta _{1}X_{i}$ , na nagpapahiwatig na naniniwala ang mananaliksik na $Y_{i}=\beta _{0}+\beta _{1}X_{i}+e_{i}$ ay isang makatwirang aproksimasyon para sa estadistikang proseso na bumubuo ng datos.

Kapag natukoy na ng mananaliksik ang kanilang nais na modelong estadistikal, ang iba't ibang anyo ng pagsusuring regresyon ay nagbibigay ng mga kagamitan upang tantiyahin ang mga parametro $\beta$ . Halimbawa, ang pinakamababang parisukat (kasama ang pinakakaraniwang bersyon na ordinaryong pinakamababang parisukat) ay hinahanap ang halaga ng $\beta$ na nagpapaliit sa kabuuan ng mga kamalian sa pinarisukat: $\sum _{i}(Y_{i}-f(X_{i},\beta ))^{2}$ . Sa huli, ang isang kaparaanang regresyon ay magbibigay ng tantiyang $\beta$ , karaniwang tinutukoy bilang ${\hat {\beta }}$ upang pag-iba ang tantiyang ito sa totoong (hindi kilalang) halaga ng parametro na bumuo sa datos. Gamit ang tantiyang ito, maaaring gamitin ng mananaliksik ang halagang tinantiya na ${\hat {Y_{i}}}=f(X_{i},{\hat {\beta }})$ para sa prediksyon o upang suriin ang katumpakan ng modelo sa pagpapaliwanag ng datos. Depende sa konteksto at layunin, maaaring ang pangunahing interes ng mananaliksik ay ang tantiyang ${\hat {\beta }}$ o ang halagang hinula na ${\hat {Y_{i}}}$ . Tulad ng ipinapakita sa ordinaryong pinakamababang parisukat, malawak ang paggamit ng pinakamababang parisukat dahil ang tantiyang punsyon na $f(X_{i},{\hat {\beta }})$ ay aproksimasyon ng inaasahang kondisyunal na $E(Y_{i}|X_{i})$ .^[6] Gayunpaman, ang iba pang bersyon (hal., least absolute deviations [o mga pinakamaliit na absolutong paglihis) o quantile regression [o regresyong kuwantil]) ay kapaki-pakinabang kapag nais ng mananaliksik na imodelo ang ibang mga punsyon na $f(X_{i},\beta )$ .

Dapat sapat ang datos upang tantiyahin ang isang modelo ng regresyon. Halimbawa, ipagpalagay na may akses ang mananaliksik sa $N$ na hilera ng datos na may isang dependiyente at dalawang independiyenteng baryabol: $(Y_{i},X_{1i},X_{2i})$ . Ipagpalagay na nais nilang tantiyahin ang modelong lineyal bibariyado gamit ang pinakamababang parisukat: $Y_{i}=\beta _{0}+\beta _{1}X_{1i}+\beta _{2}X_{2i}+e_{i}$ . Kung mayroon lamang silang $N=2$ na puntos ng datos, maaari silang makahanap ng walang katapusang kombinasyon ng $({\hat {\beta }}_{0},{\hat {\beta }}_{1},{\hat {\beta }}_{2})$ na pantay na nagpapaliwanag sa datos: anumang kombinasyon na tumutugma sa ${\hat {Y}}_{i}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}X_{1i}+{\hat {\beta }}_{2}X_{2i}$ ay magbibigay sa kabuuan ng residuwal na pinarisukat: $\sum _{i}{\hat {e}}_{i}^{2}=\sum _{i}({\hat {Y}}_{i}-({\hat {\beta }}_{0}+{\hat {\beta }}_{1}X_{1i}+{\hat {\beta }}_{2}X_{2i}))^{2}=0$ at ito ay solusyong balido. Ang dahilan kung bakit walang katapusang opsyon ay dahil mayroong 2 ekwasyon para sa 3 di-alam, kaya ang sistema ay kulang ang pagkakakilanlan. Maaari rin itong makita bilang walang katapusang 3-dimensyonal na mga plano na dumadaan sa 2 puntong nakapirimi.

Sa pangkalahatan, upang tantiyahin ang modelong pinakamababang parisukat na may $k$ na kakaibang parametro, dapat ay may $N\geq k$ na kakaibang punto ng datos. Kung $N>k$ , kadalasan walang set ng parametro na magpapatumpak na sukat sa datos. Ang $N-k$ ay madalas lumilitaw sa pagsusuring regresyon at tinutukoy bilang mga antas ng kalayaan ng modelo. Bukod pa rito, upang tantiyahin ang modelong pinakamababang parisukat, ang mga independiyenteng baryabol (X1i, X2i, ..., Xki) ay dapat lineyal na independeniyente: hindi dapat makabuo ng isa sa mga independiyenteng baryabol gamit ang pagdagdag at pagpaparami sa natitirang baryabol. Tulad ng tinalakay sa ordinaryong inakamababang parisukat, tinitiyak ng kundisyong ito na ang $X^{T}X$ ay nababaliktad at kaya may natatanging solusyong ${\hat {\beta }}$ .

Mga sanggunian

↑ Yan, Xin; Su, Xiaogang (2009). Linear Regression Analysis: Theory and Computing (sa wikang Ingles). World Scientific Publishing. pp. 2–3. ISBN 9789812834102.
↑ Freund, Rudolf J.; Mohr, Donna L.; Wilson, William J. (2010). Statistical Methods (sa wikang Ingles). Elsevier Science. p. 323. ISBN 9780080961033.
↑ Necessary Condition Analysis Naka-arkibo 2017-08-31 sa Wayback Machine. (sa Ingles)
↑ David A. Freedman (27 Abril 2009). Statistical Models: Theory and Practice (sa wikang Ingles). Cambridge University Press. ISBN 978-1-139-47731-4.
↑ Cook, R. Dennis; Weisberg, Sanford (1982). "Criticism and Influence Analysis in Regression". Sociological Methodology (sa wikang Ingles). 13: 313–361. doi:10.2307/270724. ISSN 0081-1750.
↑ Chapter 1 of: Angrist, J. D., & Pischke, J. S. (2008). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. (sa Ingles)

[1] Yan, Xin; Su, Xiaogang (2009). Linear Regression Analysis: Theory and Computing (sa wikang Ingles). World Scientific Publishing. pp. 2–3. ISBN 9789812834102.

[2] Freund, Rudolf J.; Mohr, Donna L.; Wilson, William J. (2010). Statistical Methods (sa wikang Ingles). Elsevier Science. p. 323. ISBN 9780080961033.

[3] Necessary Condition Analysis Naka-arkibo 2017-08-31 sa Wayback Machine. (sa Ingles)

[Freedman2009-4] David A. Freedman (27 Abril 2009). Statistical Models: Theory and Practice (sa wikang Ingles). Cambridge University Press. ISBN 978-1-139-47731-4.

[5] Cook, R. Dennis; Weisberg, Sanford (1982). "Criticism and Influence Analysis in Regression". Sociological Methodology (sa wikang Ingles). 13: 313–361. doi:10.2307/270724. ISSN 0081-1750.

[Gauss-6] Chapter 1 of: Angrist, J. D., & Pischke, J. S. (2008). Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. (sa Ingles)

[1]

[2]

[3]

[4]

[5]

[6]

DOKUMEN123.COM

Pagsusuring regresyon

Modelo ng regresyon

Mga sanggunian

Content Disclaimer