Annotator Policy Models: entender por qué los anotadores discrepan en seguridad IA
Un paper de arXiv propone modelos interpretables que infieren la política interna de cada anotador solo a partir de su comportamiento de etiquetado, sin preguntarles directamente.
Cuando dos anotadores humanos etiquetan el mismo texto como «seguro» e «inseguro» respectivamente, la pregunta obvia es: ¿por qué? La respuesta importa más de lo que parece, porque el remedio es completamente distinto según la causa. Un paper publicado el 8 de mayo en arXiv (arXiv:2605.05329) propone una forma sistemática de responder esa pregunta sin tener que interrogar a los anotadores, lo cual resulta costoso y, según los autores, frecuentemente poco fiable.
El trabajo introduce los Annotator Policy Models (APMs): modelos interpretables que aprenden la política interna de seguridad de cada anotador únicamente a partir de su historial de etiquetado. Sin encuestas, sin justificaciones adicionales, sin aumentar la carga de trabajo.
El problema que nadie había atacado directamente
El desacuerdo entre anotadores es ubicuo en los proyectos de datos para IA, pero la literatura tiende a tratarlo como ruido estadístico que se promedia o se filtra. Los autores argumentan que eso es un error, porque el desacuerdo puede tener al menos tres orígenes distintos:
- Fallos operativos: el anotador no entendió bien la tarea o la ejecutó mal. Solución: control de calidad.
- Ambigüedad de la política: la redacción de las guías de anotación admite varias interpretaciones razonables. Solución: revisar y clarificar la política.
- Pluralismo de valores: anotadores distintos tienen concepciones genuinamente diferentes sobre qué es seguro. Solución: deliberación sobre qué perspectivas deben representarse y cómo.
Cómo funcionan los APMs
La intuición central es que el comportamiento de etiquetado de un anotador a lo largo del tiempo contiene información implícita sobre los criterios que está aplicando, aunque el anotador no los articule explícitamente. Los APMs extraen esos criterios mediante modelos interpretables —no cajas negras— para que los resultados puedan ser inspeccionados, comparados y comunicados a equipos de política.
El hecho de que sean interpretables es clave. Un modelo de gradiente boosting o una regresión logística con features bien construidas puede revelar, por ejemplo, que un anotador penaliza especialmente el lenguaje ambiguo sobre armas mientras que otro prioriza el contexto de vulnerabilidad del receptor. Eso es información accionable para el equipo que diseña la política de seguridad.
Los autores también señalan que pedir a los anotadores que expliquen sus decisiones no es una solución fiable: el razonamiento autorreportado —tanto en humanos como en LLMs usados como anotadores— a menudo no refleja el proceso de decisión real. Es el mismo problema que la comunidad de interpretabilidad lleva años señalando respecto a las explicaciones post-hoc de los propios modelos.
Por qué esto afecta al ecosistema Claude
Este tipo de investigación tiene implicaciones directas para cualquier pipeline de RLHF o de fine-tuning con feedback humano, que es precisamente cómo se construyen y ajustan modelos como los de la familia Claude. Las políticas de seguridad de Anthropic —y las de cualquier laboratorio— dependen de que los datos de anotación sean coherentes y representativos. Si el desacuerdo sistemático entre anotadores no se diagnostica correctamente, los datos de entrenamiento pueden contener sesgos implícitos que ni siquiera el equipo de política detecta.
Para equipos que desarrollan agentes o sistemas basados en Claude y que construyen sus propios datasets de evaluación de seguridad, los APMs ofrecen una herramienta concreta: en lugar de asumir que el desacuerdo es ruido, pueden mapear qué tipo de desacuerdo tienen y actuar en consecuencia.
Limitaciones a tener en cuenta
El paper es preprint —no ha pasado revisión por pares todavía— y los experimentos se circunscriben a escenarios de anotación de seguridad con políticas relativamente bien definidas. La escalabilidad a proyectos con miles de anotadores y políticas muy heterogéneas está por demostrar. Tampoco queda claro del todo cómo se comportan los APMs cuando un mismo anotador cambia de criterio a lo largo del tiempo, algo habitual en proyectos largos.
Dicho esto, la propuesta de separar operación, ambigüedad y pluralismo como categorías de análisis es en sí misma un avance conceptual útil, independientemente de si la implementación técnica específica acaba consolidándose.
---
Opinión EP: Es refrescante ver investigación que trata el desacuerdo entre anotadores como un fenómeno con estructura propia, no como un inconveniente a eliminar. Si los APMs se validan empíricamente con mayor variedad de datasets, podrían convertirse en una herramienta estándar de auditoría en pipelines de alineamiento.
Fuentes
Seguir leyendo
Diseño conversacional para museos: del monólogo al diálogo con IA
Un preprint propone un marco de diseño para integrar IA conversacional en entornos de patrimonio cultural, replanteando cómo los museos transmiten conocimiento.
¿Matará la IA al artículo científico tal como lo conocemos?
Un debate abierto en Marginal Revolution cuestiona si los LLMs están vaciando de sentido el formato del paper académico. Analizamos qué hay de fondo.
Anthropic explica por qué entrena a Claude con razonamiento moral, no solo con reglas
El equipo de alineamiento de Anthropic publica un artículo sobre cómo enseñan a Claude el porqué de sus valores, no solo qué hacer o qué evitar.