Portfolio Portafolio

The Bow of Error

El arco del error

A visualization of bias, variance, and the middle way.

Una visualización del sesgo, la varianza y el punto medio.

Statistical Learning
Aprendizaje estadístico
scroll ↓
desplaza ↓
§

Statistical learning asks one quiet question: how much model does the data deserve? Too little and the model goes blind to the pattern. Too much and it chases noise, mistaking the accidents of one sample for the shape of the world.

The answer is never a formula. It is a balance: two errors pulling in opposite directions. Plotted against model flexibility, they trace a curve with a soft valley. A bow, bent by its two ends.

What follows is that bow, drawn slowly.

El aprendizaje estadístico gira alrededor de una sola pregunta: ¿qué tan complejo debe ser el modelo para estos datos? Si es demasiado simple, no captura el patrón. Si es demasiado complejo, memoriza el ruido y confunde las particularidades de una muestra con la realidad que intenta describir.

La respuesta no es una fórmula. Es un equilibrio entre dos errores que empujan en direcciones opuestas. Si los graficas contra la flexibilidad del modelo, dibujan una curva con un valle suave. Un arco, tensado desde sus dos extremos.

Lo que sigue es ese arco, trazado paso a paso.

I The Observations

A handful of points

All we have is a scatter. Behind it, a pattern we cannot see directly: the true relationship between cause and effect, hidden inside the noise. The question is how tightly to model it.

I Las observaciones

Un puñado de puntos

Todo lo que tenemos es una nube de puntos. Detrás de ella, un patrón que no podemos ver directamente: la verdadera relación entre causa y efecto, oculta dentro del ruido. La pregunta es con cuánta fuerza modelarlo.

II Too Rigid

The honest line

A straight line is simple. It is also blind. It ignores the shape the data is trying to show. The error it makes is systematic: the model lacks the flexibility to bend toward the truth. This error has a name: bias.

II Demasiado rígido

La línea honesta

Una línea recta es simple. También es ciega. Ignora la forma que los datos intentan mostrar. El error que comete es sistemático: le falta flexibilidad para inclinarse hacia la verdad. Este error tiene nombre: sesgo.

III Too Loyal

The wiggling curve

Now a curve that visits every point. It is loyal; too loyal. It has memorized the accidents of this particular sample. Give it new data and it will flail. The error of over-adaptation has a name too: variance.

III Demasiado leal

La curva que serpentea

Ahora una curva que pasa por cada punto. Es leal; demasiado leal. Memorizó los caprichos de esta muestra. Con datos nuevos se desarma. El error de sobreadaptación también tiene nombre: varianza.

IV The Middle

A curve that listens without obeying

Between the line and the wiggle lives a curve that tracks the pattern but refuses to chase every fluctuation. This is where good models live. Their quality is judged on data they have never seen; the training set is only the rehearsal.

IV El centro

Una curva que escucha sin obedecer

Entre la línea y el serpenteo vive una curva que sigue el patrón pero se niega a perseguir cada fluctuación. Ahí viven los buenos modelos. Se les mide por el error sobre datos nuevos; el error sobre los datos con que se entrenaron queda como ensayo.

V The Bow

Two errors, one axis

Plot error against flexibility and the story becomes geometric. Training error falls forever; more flexibility, tighter fit. Test error falls, then bends, then climbs. Its bottom is the bow's lowest point, the place where bias and variance have negotiated a truce.

V El arco

Dos errores, un eje

Grafica el error frente a la flexibilidad y la historia se vuelve geométrica. El error de entrenamiento cae siempre: más flexibilidad, ajuste más apretado. El error de prueba cae, se curva y vuelve a subir. Su fondo es el punto más bajo del arco, el lugar donde el sesgo y la varianza negocian una tregua.

VI The Honest Mirror

Why training error lies

The training curve is a flattering mirror: it always approves of more complexity. It cannot see the valley. To estimate the true bow we hold data out, fit on one part, and test on another. That procedure has a name: cross-validation. It is the instrument that locates the bottom of the U.

VI El espejo honesto

Por qué miente el error de entrenamiento

La curva de entrenamiento es un espejo halagador: siempre pide más complejidad. No puede ver el valle. Para estimar el arco verdadero hay que reservar datos, ajustar con una parte y probar con la otra. Ese procedimiento tiene nombre: validación cruzada. Es el instrumento que localiza el fondo de la U.

§

Every model lives somewhere on the bow.

Error cannot be eliminated. The craft is to find the place where the two errors meet, and pitch the model's tent there.

Excess is as bad as deficiency.

Todo modelo vive en algún lugar del arco.

El error no puede eliminarse. El oficio es encontrar el punto donde los dos errores se cruzan y asentar ahí el modelo.

El exceso es tan malo como la carencia.