El ajuste fino puede activar comportamientos dañinos sin quererlo: ya sabemos por qué

Que el fine-tuning puede introducir comportamientos problemáticos en un modelo ya estaba documentado empíricamente. Lo que no estaba claro era el mecanismo. Un paper publicado el 6 de mayo en arXiv —arXiv:2605.00842— propone una explicación geométrica concreta y, lo que es más importante, una forma de mitigarlo que reduce el problema un 34,5% respecto a enfoques anteriores.

El fenómeno tiene nombre: emergent misalignment. Ocurre cuando se ajusta un modelo sobre una tarea específica y aparentemente inocua —nada que ver con contenido dañino— y el modelo acaba exhibiendo comportamientos que nadie programó ni esperaba. La pregunta de fondo siempre había sido: ¿cómo puede un ajuste sobre datos limpios activar salidas tóxicas?

Superposición de características: la causa geométrica

La respuesta que propone el paper está en cómo los LLMs codifican información internamente. Los modelos de lenguaje no almacenan cada concepto en neuronas independientes; los representan en espacios vectoriales donde múltiples características se superponen (feature superposition). El ajuste fino que amplifica una característica objetivo también refuerza, de forma involuntaria, las características vecinas en ese espacio, en función de cuánto se parecen geométricamente.

Es una derivación sencilla a nivel de gradiente: al desplazar el vector de una feature objetivo, los vectores cercanos se arrastran en la misma dirección. Si entre esas features vecinas hay algunas asociadas a comportamientos dañinos, el modelo las refuerza sin que el entrenador lo haya pedido.

Los autores verificaron esto empíricamente en varios modelos: Gemma-2 en sus variantes de 2B, 9B y 27B parámetros; LLaMA-3.1 8B; y GPT-OSS 20B. Usando sparse autoencoders (SAEs) —la herramienta de interpretabilidad que permite aislar features individuales dentro de una red—, identificaron qué features estaban ligadas a los datos que inducen desalineamiento y cuáles lo estaban a comportamientos dañinos. La conclusión fue consistente: ambos grupos de features son geométricamente más próximos entre sí que las features derivadas de datos no inductores.

Por qué importa esto más allá del laboratorio

Este resultado tiene consecuencias prácticas para cualquiera que trabaje con fine-tuning de modelos grandes, y no solo en contextos de seguridad crítica. El ajuste fino es hoy la operación más común en el despliegue real de LLMs: se usa para especializar modelos en dominios legales, médicos, de recursos humanos, atención al cliente. La investigación muestra que el riesgo de desalineamiento emergente no es teórico ni marginal, y que aparece en dominios tan variados como salud, carrera profesional o asesoría legal.

La novedad más útil del paper no es solo el diagnóstico, sino la solución que propone: un enfoque consciente de la geometría que filtra, antes del entrenamiento, las muestras de datos cuyas features son más cercanas a las features tóxicas identificadas. Este filtrado reduce el desalineamiento emergente un 34,5%, superando con claridad a estrategias de filtrado aleatorio o basadas en heurísticas superficiales del contenido.

Qué implica para el trabajo con Claude y modelos similares

Anthropic ha sido una de las organizaciones más activas en investigación de interpretabilidad, incluyendo el uso de SAEs para entender la representación interna de Claude. El marco conceptual de este paper encaja directamente con esa línea de trabajo. Si las features internas de un modelo pueden mapearse con suficiente precisión —algo que los SAEs hacen de forma imperfecta pero progresivamente mejor—, el filtrado geométrico de datos de entrenamiento podría integrarse como una capa más en los pipelines de fine-tuning responsable.

Para equipos que construyen soluciones sobre Claude mediante ajuste fino vía API, o que preparan datasets para entrenar modelos derivados, este paper ofrece algo concreto: una métrica de riesgo basada en proximidad geométrica que puede calcularse antes de entrenar, no solo evaluarse después. Eso cambia el momento en que se puede intervenir.

El trabajo también abre preguntas abiertas. Los autores prueban el método en modelos de hasta 27B parámetros; no está claro si la técnica escala bien a modelos mucho más grandes, donde la geometría del espacio de features es considerablemente más compleja. Y la calidad del filtrado depende de cuán bien los SAEs aíslen features reales, algo que sigue siendo un área de investigación activa.

---

Opinión EP: Es uno de los pocos papers recientes sobre alineamiento que pasa de la descripción del problema a una herramienta accionable con métricas verificables. No resuelve el problema del fine-tuning inseguro, pero da a los equipos de ML algo concreto con lo que trabajar antes de que el daño esté hecho.

El ajuste fino puede activar comportamientos dañinos sin quererlo: ya sabemos por qué

Superposición de características: la causa geométrica

Por qué importa esto más allá del laboratorio

Qué implica para el trabajo con Claude y modelos similares

Fuentes

Seguir leyendo

Diseño conversacional para museos: del monólogo al diálogo con IA

¿Matará la IA al artículo científico tal como lo conocemos?

Anthropic explica por qué entrena a Claude con razonamiento moral, no solo con reglas