Anotación humana

8El panel de diez anotadores

Reuní a diez revisores (R01–R10), siete de ellos programadores en activo y tres docentes universitarios, y les pedí que puntuaran a ciegas las retroalimentaciones de los cuatro sistemas. Cada uno evaluó los 50 casos held-out en las tres dimensiones cualitativas con una escala Likert de 1 a 5. El resultado es una matriz de 2000 filas y 6000 puntuaciones humanas que cruzo contra las 600 del juez qwen2.5:32b. Toda cifra de esta página procede de sistema-rag/benchmark/analisis_humano.json.

anotadores humanos (7 programadores + 3 docentes)

6000

puntuaciones humanas (Likert 1–5)

casos held-out × 4 sistemas × 3 dimensiones

33/50

casos que solapan con el juez LLM

El diseño persigue un único objetivo, comprobar si el juez automático que sostiene la parte cualitativa del TFM coincide con el criterio de personas reales. Lo planteo como una prueba que el juez puede no superar, y registro el resultado tal como salga.

9Acuerdo entre anotadores

Antes de comparar a los humanos con el juez conviene saber cuánto concuerdan los humanos entre sí. Reporto tres coeficientes con lecturas distintas. Fleiss κ y Krippendorff α miden el acuerdo celda a celda y salen bajos, porque diez personas rara vez clavan el mismo número en una escala de cinco puntos. ICC(2,k) mide otra cosa, la fiabilidad del promedio de los diez, y sale bueno.

0,096

Fleiss κ global (acuerdo leve por celda)

0,318

Krippendorff α global (ordinal)

0,831

ICC(2,k) global, IC95 [0,80, 0,86]

Acuerdo inter-anotador humano (n=10) por dimensión y global. Fleiss y Krippendorff valoran el acuerdo por celda; ICC(2,k) la fiabilidad del promedio del panel.
Coeficiente	Global	Divulgativa	Técnica	Sugerencia
Fleiss κ	0,096	0,071	0,143	0,032
Krippendorff α (ordinal)	0,318	0,216	0,507	0,116
ICC(2,k) acuerdo absoluto	0,831	0,736	0,910	0,605

Diagrama de bosque con los tres coeficientes de acuerdo (Fleiss kappa, Krippendorff alfa, ICC(2,k)) por dimensión y global; el ICC global se sitúa en 0,83 con intervalo de confianza estrecho mientras Fleiss y Krippendorff quedan cerca de cero. — Acuerdo entre anotadores por coeficiente y dimensión. La técnica es la dimensión donde más concuerdan (ICC 0,910), justo la más objetiva.

Por qué Fleiss baja y el ICC sube

No hay contradicción. Diez personas distribuyen sus respuestas por toda la escala de cinco puntos, así que el acuerdo exacto por celda es bajo (Fleiss y Krippendorff descartables como criterio de sustitución individual). Pero esos desacuerdos se cancelan al promediar, y por eso el ICC(2,k) del panel completo llega a 0,831. La media de los diez es un instrumento fiable aunque cada anotador por separado no lo sea.

10Medias humanas por sistema

El consenso humano (media de los diez por celda) separa los cuatro sistemas con nitidez. El test de Friedman es significativo en las tres dimensiones (χ² 122,3 divulgativa · 137,8 técnica · 92,6 sugerencia) y los seis pares de sistemas alcanzan significación por dimensión con Wilcoxon corregido por Holm. Cada sistema muestra su perfil esperado, B y D dominan en explicación técnica, A y C en divulgación.

Medias humanas de consenso por sistema y dimensión (Likert 1–5, n=50 por celda; IC95 bootstrap en el JSON). El mejor por fila en verde.
Dimensión	A	B	C	D
Divulgativa	3,60	3,02	3,77	2,83
Técnica	2,37	3,82	2,58	4,20
Sugerencia	3,23	2,90	3,64	3,03

Diagramas de caja de las puntuaciones humanas para los cuatro sistemas en las tres dimensiones; las cajas de cada sistema se separan claramente entre dimensiones. — Distribución de las puntuaciones humanas por sistema. La separación entre cajas confirma que el panel discrimina los cuatro sistemas.

Mapa de calor de medias humanas con sistemas en filas y dimensiones en columnas; D destaca en técnica con 4,20 y C en divulgativa y sugerencia. — Mapa de calor de las medias por sistema y dimensión. Cada sistema brilla en su dimensión de diseño.

Gráfico radar de tres ejes (divulgativa, técnica, sugerencia) con un polígono por sistema; los perfiles de A/C y B/D son visiblemente complementarios. — Perfil de cada sistema en los tres ejes cualitativos. A y C cubren divulgación y sugerencia, B y D la vertiente técnica.

11Validez de criterio humano frente al juez

Esta es la prueba decisiva. Comparo el consenso humano con la puntuación del juez qwen2.5:32b celda a celda, sobre los 33 casos que ambos conjuntos comparten (33 × 4 × 3 = 396 celdas). La correlación de Pearson global es muy débil y en la dimensión divulgativa es negativa, esto es, el juez ordena esos casos al revés que los humanos.

0,203

Pearson r global humano↔juez (débil)

−0,203

Pearson r en divulgativa (negativa)

0,363

Pearson r en técnica (moderada)

+0,139

sesgo Bland-Altman (humano − juez)

Validez de criterio humano frente al juez LLM sobre los 33 casos solapados. Pearson y Spearman miden correlación; Bland-Altman, el sesgo medio y los límites de acuerdo (humano − juez).
Medida	Global	Divulgativa	Técnica	Sugerencia
Pearson r	0,203	−0,203	0,363	0,041
Spearman ρ	0,189	−0,203	0,357	0,031
Sesgo Bland-Altman	+0,139	−0,082	+0,124	+0,375

Gráfico de Bland-Altman de la diferencia humano menos juez frente a la media; la línea de sesgo está en +0,139 y los límites de acuerdo se sitúan en torno a menos 2,19 y más 2,47. — Bland-Altman del consenso humano frente al juez. El sesgo medio es pequeño (+0,139) pero los límites de acuerdo, de unos ±2,3 sobre 5, hacen el juez inservible a nivel de celda.

Sobre estos mismos datos apliqué además el alt-test de sustitución de Calderon y colaboradores (ACL 2025), el protocolo formal que pregunta si el juez automático podría reemplazar a un anotador humano del panel. Lo coloco aquí, dentro de la validez de criterio, porque su resultado parece apuntar en sentido contrario al de las correlaciones de arriba y eso exige leerlo con cuidado, no aislado. El test mide, para cada uno de los diez anotadores, si el juez queda al menos tan alineado con el resto del panel como ese anotador, con un margen de tolerancia ε=0,15; la fracción de anotadores para los que el juez gana es el winning rate.

Alt-test de sustitución (Calderon et al., ACL 2025; ε=0,15) sobre los diez anotadores. El winning rate es la fracción de anotadores a los que el juez iguala o supera; la probabilidad de ventaja media resume cuánto.
Medida	Global	Divulgativa	Técnica	Sugerencia
Winning rate	1,0	1,0	0,6	0,7
Prob. de ventaja media	0,696	0,781	0,680	0,626

El alt-test concluye "sustitución justificada", pero no rescata al juez

Con winning rate global 1,0 el alt-test concluye literalmente sustitución justificada. La clave para entenderlo es que el alt-test es un test relativo, enfrenta al juez con humanos que entre sí concuerdan muy poco (Fleiss 0,096). Cuando el acuerdo entre personas es tan bajo, igualar a un anotador típico es un listón bajo que un juez internamente consistente supera sin esfuerzo, mientras que seguir el consenso del panel, que es lo que mide la validez de criterio, sigue siendo difícil (Pearson 0,203) y encima el juez puntúa sistemáticamente alto (Bland-Altman +0,139).

Por eso no hay contradicción entre el winning rate 1,0 y la correlación débil de la sección anterior, miden cosas distintas. Un juez consistente bate a cada humano por separado y a la vez no rastrea el orden del consenso. El alt-test no valida al juez como instrumento absoluto, así que sus puntuaciones cualitativas se toman como indicativas y el veredicto del trabajo se ancla en las métricas objetivas (categoría y concepto) y el grounding, que son inmunes al juez.

12Lectura y limitación

Resultado central, con datos humanos reales

El juez qwen2.5:32b no queda validado como instrumento de puntuación absoluta frente al consenso humano. La correlación es muy débil (Pearson 0,203 global) y en divulgativa es negativa (−0,203), de modo que ahí el juez ordena los casos al revés que las personas; los límites de acuerdo de Bland-Altman, de unos ±2,3 sobre una escala de 5, son inservibles a nivel de celda. Solo la dimensión técnica alcanza una correlación moderada (0,363), justo donde los propios humanos más concuerdan (ICC técnica 0,910).

Hay dos matices a favor del proceso. El ICC(2,k) global de 0,831 indica que el promedio de los diez anotadores es fiable, aunque cada uno concuerde poco por la granularidad de la escala. Y el panel humano separa los sistemas con claridad, las cuatro herramientas quedan ordenadas por su perfil de diseño. Este resultado confirma con evidencia humana la cautela que el TFM ya sostenía, las puntuaciones cualitativas dependen del juez, y por eso el veredicto del trabajo se ancla en las métricas objetivas (categoría y concepto) y en el grounding, que son inmunes al juez.

Limitación declarada

Los conjuntos de casos del panel humano y del juez solo solapan en 33 de 50, así que la validez de criterio se calcula sobre esos 33 casos × 4 sistemas × 3 dimensiones = 396 celdas. No invento las celdas no solapadas. Cerrar el solape a 50/50 es el único paso que falta para una validez plena, y queda registrado como tal.

Cómo citar

Si este trabajo te resulta útil y quieres referenciarlo, esta es la cita recomendada.

Bueno Junquero, A. (2026). Integración de un grafo de conocimiento educativo con un LLM mediante RAG. Trabajo Fin de Máster, Máster Universitario en Investigación en Inteligencia Artificial, UNED. Director, José Luis Fernández Vindel.