Share to: share facebook share twitter share wa share telegram print page

 

Modelos de regresión múltiple postulados y no postulados

En estadística un modelo de regresión múltiple no postulado es uno de los métodos de regresión lineal.

Modelo

Un modelo relaciona una o varias variables que hay que explicar Y a unas variables explicativas X, por una relación funcional Y = F (X)

  • Un modelo físico es un modelo explicativo sostenido por una teoría.
  • Un modelo estadístico, al contrario, es un modelo empírico nacido de datos disponibles, sin conocimientos a priori sobre los mecanismos en juego. Podemos sin embargo integrar en eso ecuaciones físicas (en el momento del pretratamiento de datos).

Disponemos de n de observaciones (i = 1,…, n ) de p variables. La ecuación de regresión se escribe:

donde

  • εi es el error del modelo;
  • a0, a1, …, ap son los coeficientes del modelo que hay que estimar.

El cálculo de los coeficientes a j y del error del modelo, a partir de las observaciones, es un problema bien dominado (ver Regresión lineal).

Más delicado es la elección de las variables que entran en este modelo. Puede ser postulado o no postulado.

Modelo postulado

Solo los coeficientes del modelo precedente de regresión son dirigidos por los datos, la estructura polinómica del modelo es impuesta por el utilizador (según su peritaje del problema), que postula a priori:

  • El tipo de modelo: lineal o polinómico, y el grado del polinomio,
  • las variables que entrarán en el modelo.

Ejemplo de modelo polinómico con dos variables explicativas:



01

El problema de la selección de las variables explicativas

Cuando el número de variables explicativas es grande, puede hacerse que ciertas variables sean correlacionadas. En este caso hay que eliminar los doblones. El software utiliza para hacerlo métodos de selección paso a paso (ascendientes, descendentes o mixtos).

Sin embargo la calidad del modelo final repone en gran parte en la elección de las variables, y del grado del polinomio.

Modelo no postulado

El modelo no postulado es al contrario totalmente dirigido por los datos , tanto su estructura matemática como sus coeficientes. La selección de las variables explicativas no pide conocimiento a priori sobre el modelo: se efectúa entre un conjunto muy grande de variables, comprendiendo:

  • Variables explicativas simples: A, B, C, (propuestas por los expertos del campo considerado y cuyo número p puede ser superior a n
  • Interacciones o acoplamiento de estas variables, por ejemplo « A*B » (producido cruzado sobre variables centradas reducidas), pero también « interacciones lógicas » tal « A y B », « A o B », « A y B medios », « A si B es fuerte »,« A si B es medio », « A si B es débil », etc.;
  • Funciones de estas variables': por ejemplo cos (A) o cualquier función sinusoidal amortiguada o ampliada, función periódica no sinusoidal, efecto de umbral, etc.


La selección se produce antes del cálculo de los coeficientes de la regresión según el principio siguiente:

Buscamos el factor o la interacción o la función mejor correlada a la respuesta. Habiéndolo encontrado, buscamos el factor o la interacción mejor correlada al residuo no explicado por la correlación precedente; etc. Este método pretende no contar dos veces la misma influencia, cuando los factores son correlados, y a ordenarlos por importancia decreciente.

La lista por orden de importancia decreciente encontrada y clasificada, no puede contar más términos que desconocidas (n). Si se guarda sólo un término en el modelo, deberá ser la primera de la lista. Si se guarda dos, serán ambos primeros, etc.

En efecto ya que cada uno de los términos de la lista explica el residuo no explicado por los precedentes, los últimos explican posiblemente solo el ruido. ¿ Cuál criterio de parada escoger?

El número de términos conservados en el modelo puede ser, por ejemplo, el que minimiza el error estándar de predicción SEP (Standard error of Prediction), o el que maximiza el F de Fisher. Este número de término puede también ser escogido por el utilizador a partir de consideraciones físicas.


Ejemplo: suponemos que el conjunto de las « variables explicativas » candidatas es {A,B,C,D,E,F,G}, y que el modelo obtenido es :
Y = constante + a.A + b.(« E et G ») + c.(« D y F medios »)
Observamos que:
* las variables B y C, no pertinentes, no figuran en el modelo
* la variable A apareció como término simple
* las variables E y G de una parte, y D y F, por otra parte, aparecen solo como « interacciones lógicas ».


Este modelo « parsimonioso », es decir conteniendo pocos términos (aquí tres), contrata 5 variables, y estará pegado mejor a la realidad física que un modelo polinómico. En efecto la conjunción « E y G » que significa « E y G fuertes simultáneamente » es encontrado más a menudo en la realidad física (ejemplo: la catálisis en química) que un término polinómico de tipo E.G.

Descomposición armónica

Un modelo no postulado será también eficaz en la descomposición armónica de las series.

En efecto, el principio se aplica también bien en caso de muestreo irregular (donde los métodos de tipo media móvil, ARIMA o Box y Jenkins son hechos caer en falta) que en los casos no estacionarios (donde Análisis armónico no se aplica). Permite descubrir y desenredar las interferencias de ciclos diversos y estacionalidad con roturas de tendencias en escalón, en V, roturas logísticas, motivos periódicos, y acontecimientos accidentales tales como picos aislados o pedazos de ondas.

Referencias

[1] Lesty M. (1999) Une nouvelle approche dans le choix des régresseurs de la régression multiple en présence d’interactions et de colinéarités. La revue de Modulad, n°22, janvier 1999, pp. 41-77

[2] Lesty M. (2002) La recherche des harmoniques, une nouvelle fonction du logiciel CORICO. La revue de Modulad, n°29, juin 2002, pp. 39-77

Kembali kehalaman sebelumnya


Index: pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve 
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9