Anotación humana
8El panel de diez anotadores
Reuní a
diez revisores (R01–R10), siete de ellos programadores en activo y tres docentes
universitarios, y les pedí que puntuaran a ciegas las retroalimentaciones de los cuatro sistemas. Cada uno
evaluó los 50 casos held-out en las tres dimensiones cualitativas con una escala Likert de 1 a 5. El
resultado es una matriz de 2000 filas y 6000 puntuaciones humanas que cruzo contra las 600 del juez
qwen2.5:32b. Toda cifra de esta página procede de
sistema-rag/benchmark/analisis_humano.json.
El diseño persigue un único objetivo, comprobar si el juez automático que sostiene la parte cualitativa del TFM coincide con el criterio de personas reales. Lo planteo como una prueba que el juez puede no superar, y registro el resultado tal como salga.
9Acuerdo entre anotadores
Antes de comparar a los humanos con el juez conviene saber cuánto concuerdan los humanos entre sí. Reporto tres coeficientes con lecturas distintas. Fleiss κ y Krippendorff α miden el acuerdo celda a celda y salen bajos, porque diez personas rara vez clavan el mismo número en una escala de cinco puntos. ICC(2,k) mide otra cosa, la fiabilidad del promedio de los diez, y sale bueno.
| Coeficiente | Global | Divulgativa | Técnica | Sugerencia |
|---|---|---|---|---|
| Fleiss κ | 0,096 | 0,071 | 0,143 | 0,032 |
| Krippendorff α (ordinal) | 0,318 | 0,216 | 0,507 | 0,116 |
| ICC(2,k) acuerdo absoluto | 0,831 | 0,736 | 0,910 | 0,605 |
No hay contradicción. Diez personas distribuyen sus respuestas por toda la escala de cinco puntos, así que el acuerdo exacto por celda es bajo (Fleiss y Krippendorff descartables como criterio de sustitución individual). Pero esos desacuerdos se cancelan al promediar, y por eso el ICC(2,k) del panel completo llega a 0,831. La media de los diez es un instrumento fiable aunque cada anotador por separado no lo sea.
10Medias humanas por sistema
El consenso humano (media de los diez por celda) separa los cuatro sistemas con nitidez. El test de Friedman es significativo en las tres dimensiones (χ² 122,3 divulgativa · 137,8 técnica · 92,6 sugerencia) y los seis pares de sistemas alcanzan significación por dimensión con Wilcoxon corregido por Holm. Cada sistema muestra su perfil esperado, B y D dominan en explicación técnica, A y C en divulgación.
| Dimensión | A | B | C | D |
|---|---|---|---|---|
| Divulgativa | 3,60 | 3,02 | 3,77 | 2,83 |
| Técnica | 2,37 | 3,82 | 2,58 | 4,20 |
| Sugerencia | 3,23 | 2,90 | 3,64 | 3,03 |
11Validez de criterio humano frente al juez
Esta es la prueba decisiva. Comparo el consenso humano con la puntuación del juez qwen2.5:32b
celda a celda, sobre los 33 casos que ambos conjuntos comparten (33 × 4 × 3 = 396 celdas). La correlación de
Pearson global es muy débil y en la dimensión divulgativa es negativa, esto es, el juez ordena esos casos al
revés que los humanos.
| Medida | Global | Divulgativa | Técnica | Sugerencia |
|---|---|---|---|---|
| Pearson r | 0,203 | −0,203 | 0,363 | 0,041 |
| Spearman ρ | 0,189 | −0,203 | 0,357 | 0,031 |
| Sesgo Bland-Altman | +0,139 | −0,082 | +0,124 | +0,375 |
Sobre estos mismos datos apliqué además el alt-test de sustitución de Calderon y colaboradores (ACL 2025), el protocolo formal que pregunta si el juez automático podría reemplazar a un anotador humano del panel. Lo coloco aquí, dentro de la validez de criterio, porque su resultado parece apuntar en sentido contrario al de las correlaciones de arriba y eso exige leerlo con cuidado, no aislado. El test mide, para cada uno de los diez anotadores, si el juez queda al menos tan alineado con el resto del panel como ese anotador, con un margen de tolerancia ε=0,15; la fracción de anotadores para los que el juez gana es el winning rate.
| Medida | Global | Divulgativa | Técnica | Sugerencia |
|---|---|---|---|---|
| Winning rate | 1,0 | 1,0 | 0,6 | 0,7 |
| Prob. de ventaja media | 0,696 | 0,781 | 0,680 | 0,626 |
Con winning rate global 1,0 el alt-test concluye literalmente sustitución justificada. La clave para entenderlo es que el alt-test es un test relativo, enfrenta al juez con humanos que entre sí concuerdan muy poco (Fleiss 0,096). Cuando el acuerdo entre personas es tan bajo, igualar a un anotador típico es un listón bajo que un juez internamente consistente supera sin esfuerzo, mientras que seguir el consenso del panel, que es lo que mide la validez de criterio, sigue siendo difícil (Pearson 0,203) y encima el juez puntúa sistemáticamente alto (Bland-Altman +0,139).
Por eso no hay contradicción entre el winning rate 1,0 y la correlación débil de la sección anterior, miden cosas distintas. Un juez consistente bate a cada humano por separado y a la vez no rastrea el orden del consenso. El alt-test no valida al juez como instrumento absoluto, así que sus puntuaciones cualitativas se toman como indicativas y el veredicto del trabajo se ancla en las métricas objetivas (categoría y concepto) y el grounding, que son inmunes al juez.
12Lectura y limitación
El juez qwen2.5:32b no queda validado como instrumento de puntuación absoluta frente al consenso
humano. La correlación es muy débil (Pearson 0,203 global) y en divulgativa es negativa (−0,203), de modo que
ahí el juez ordena los casos al revés que las personas; los límites de acuerdo de Bland-Altman, de unos ±2,3
sobre una escala de 5, son inservibles a nivel de celda. Solo la dimensión técnica alcanza una correlación
moderada (0,363), justo donde los propios humanos más concuerdan (ICC técnica 0,910).
Hay dos matices a favor del proceso. El ICC(2,k) global de 0,831 indica que el promedio de los diez anotadores es fiable, aunque cada uno concuerde poco por la granularidad de la escala. Y el panel humano separa los sistemas con claridad, las cuatro herramientas quedan ordenadas por su perfil de diseño. Este resultado confirma con evidencia humana la cautela que el TFM ya sostenía, las puntuaciones cualitativas dependen del juez, y por eso el veredicto del trabajo se ancla en las métricas objetivas (categoría y concepto) y en el grounding, que son inmunes al juez.
Los conjuntos de casos del panel humano y del juez solo solapan en 33 de 50, así que la validez de criterio se calcula sobre esos 33 casos × 4 sistemas × 3 dimensiones = 396 celdas. No invento las celdas no solapadas. Cerrar el solape a 50/50 es el único paso que falta para una validez plena, y queda registrado como tal.
Si este trabajo te resulta útil y quieres referenciarlo, esta es la cita recomendada.
Bueno Junquero, A. (2026). Integración de un grafo de conocimiento educativo con un LLM mediante RAG. Trabajo Fin de Máster, Máster Universitario en Investigación en Inteligencia Artificial, UNED. Director, José Luis Fernández Vindel.