La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que la relación más exacta entre las variables peso y altura definidas anteriormente sea algo de la forma
Por el momento no se pretende encontrar relaciones tan complicadas entre variables, por lo cual se limitará al caso de la regresión lineal. Con este tipo de regresiones se puede encontrar relaciones funcionales de tipo lineal, es decir se buscan las cantidades a y b tales que se pueda escribir
con el menor error posible entre e Y, o bien
de forma que sea una variable que toma valores próximos a cero.
Nota
Obsérvese que la relación explica cosas como que si X varía en 1 unidad, varía la cantidad b. Por tanto:
Si b>0 , las dos variables aumentan o disminuyen a la vez;
Si b<0 , cuando una variable aumenta, la otra disminuye.
Por lo tanto, en el caso de las variables peso y altura lo lógico será encontrar que b>0
El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un conjunto de n observaciones
de forma que se minimice el error. Las etapas en que se divide el proceso que va ha desarrollar son de forma esquemática, las siguientes:
1.Dadas dos variables X , Y , sobre las que se define
se mide el error que se comete al aproximar Y mediante calculando una suma de las diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los errores):
2. Una aproximación de Y , se define a partir de dos cantidades a y b . Se calculará aquellas que minimizan la función
3. Posteriormente se encuentran las fórmulas para el cálculo directo de Y que servirán para cualquier problema.