Nivel 3 · 40 min

RLHF y DPO: alinear con preferencias

RLHF y DPO: alinear con preferencias es una pieza que tenés que poder explicar desde el mecanismo, no desde la herramienta. El punto senior es conectar RLHF y DPO con garantías, límites y señales operativas.

Modelo mental

Empezá definiendo qué representa RLHF y DPO, qué entrada recibe, qué salida produce y qué garantía entrega. Esa definición te protege de aplicar una receta de memoria cuando cambian los constraints del problema.

Trade-offs de diseño

Una respuesta fuerte compara alternativas: costo, latencia, memoria, complejidad de implementación, seguridad y facilidad de debug. No alcanza con decir que algo es O(n) o que una arquitectura escala; tenés que decir bajo qué supuesto escala.

Fallas comunes

La falla típica es tratar RLHF y DPO como caja negra. En producción necesitás instrumentar inputs, estado intermedio y outputs para distinguir un bug de datos, un supuesto roto o una mala elección de diseño.

Puntos clave

Definí la garantía exacta antes de elegir técnica o algoritmo.
Nombrá el trade-off medible: tiempo, memoria, costo, latencia, seguridad u operabilidad.
Incluí el modo de falla y la métrica que mirarías durante rollout.

Code example

Checklist:
1. Definir objetivo del usuario
2. Declarar garantía del sistema
3. Enumerar supuestos
4. Elegir diseño o algoritmo
5. Instrumentar métricas
6. Probar el modo de falla más probable