Análisis estadístico

1Pruebas inferenciales entre sistemas

Este panel reúne las pruebas formales que sostienen la lectura de la anotación humana. Toda cifra procede de sistema-rag/benchmark/analisis_humano.json, calculada sobre las puntuaciones de consenso de los diez anotadores. La pregunta de partida es sencilla, si los cuatro sistemas difieren de verdad o si la separación que se ve en las medias podría deberse al azar. La prueba de Friedman, no paramétrica y pensada para medidas repetidas, responde que sí difieren en las tres dimensiones, con valores de χ² altos y p prácticamente nula.

122,3

Friedman χ² divulgativa (k=4, n=50; p≈0)

137,8

Friedman χ² técnica (k=4, n=50; p≈0)

92,6

Friedman χ² sugerencia (k=4, n=50; p≈0)

6/6

pares de sistemas significativos por dimensión

Establecido que hay diferencias globales, el paso siguiente es localizar entre qué sistemas. Comparo los seis pares posibles con la prueba de Wilcoxon de los signos para muestras pareadas y corrijo los p-valores por el método de Holm, que controla el error de familia sin ser tan conservador como Bonferroni. En las tres dimensiones los seis pares alcanzan significación tras la corrección, así que cada sistema se distingue de cada otro. El tamaño del efecto de Cohen acompaña a cada par para que la magnitud no se confunda con la mera significación.

Comparaciones pareadas entre sistemas por dimensión. p de Wilcoxon corregido por Holm; d de Cohen como tamaño del efecto y su interpretación. Los seis pares son significativos al 0,05 en las tres dimensiones.
Par	Dimensión	d de Cohen	Magnitud	p (Holm)
A vs B	Divulgativa	1,857	grande	<0,001
A vs C	Divulgativa	−0,589	mediano	0,00022
A vs D	Divulgativa	2,560	grande	<0,001
B vs C	Divulgativa	−2,359	grande	<0,001
B vs D	Divulgativa	0,608	mediano	0,00022
C vs D	Divulgativa	2,801	grande	<0,001
A vs B	Técnica	−3,442	grande	<0,001
A vs C	Técnica	−0,616	mediano	0,00016
A vs D	Técnica	−4,289	grande	<0,001
B vs C	Técnica	3,136	grande	<0,001
B vs D	Técnica	−1,711	grande	<0,001
C vs D	Técnica	−4,314	grande	<0,001
A vs B	Sugerencia	0,837	grande	0,000006
A vs C	Sugerencia	−1,478	grande	<0,001
A vs D	Sugerencia	0,657	mediano	0,00014
B vs C	Sugerencia	−1,804	grande	<0,001
B vs D	Sugerencia	−0,401	pequeño	0,0127
C vs D	Sugerencia	1,756	grande	<0,001

Por qué Friedman y Wilcoxon, y no ANOVA

La escala Likert de cinco puntos es ordinal y las puntuaciones de un mismo caso a través de los cuatro sistemas están pareadas. Friedman es la opción no paramétrica para medidas repetidas y Wilcoxon de los signos su complemento para los contrastes par a par, sin suponer normalidad. La corrección de Holm reparte el riesgo de falso positivo entre los seis contrastes de cada dimensión, de modo que la significación que queda es la que sobrevive a esa penalización.

2Acuerdo inter-anotador

Antes de fiarse del consenso conviene medir cuánto concuerdan los diez anotadores entre sí. Reporto tres coeficientes que miden cosas distintas. Fleiss κ y Krippendorff α valoran el acuerdo celda a celda y salen bajos, porque diez personas rara vez coinciden en el mismo número de una escala de cinco puntos. El ICC(2,k) mide la fiabilidad del promedio de los diez y sale bueno, con un intervalo de confianza al 95 % estrecho.

0,096

Fleiss κ global (acuerdo leve por celda)

0,318

Krippendorff α global (ordinal)

0,831

ICC(2,k) global, IC95 [0,80, 0,86]

0,910

ICC(2,k) técnica, la dimensión más concordante

Acuerdo inter-anotador humano (n=10) por dimensión y global. Fleiss y Krippendorff valoran el acuerdo por celda; ICC(2,k) la fiabilidad del promedio del panel, con su IC95.
Coeficiente	Global	Divulgativa	Técnica	Sugerencia
Fleiss κ	0,096	0,071	0,143	0,032
Krippendorff α (ordinal)	0,318	0,216	0,507	0,116
ICC(2,k) acuerdo absoluto	0,831	0,736	0,910	0,605
IC95 del ICC(2,k)	[0,80, 0,86]	[0,67, 0,79]	[0,87, 0,94]	[0,51, 0,69]

Diagrama de bosque con los tres coeficientes de acuerdo (Fleiss kappa, Krippendorff alfa, ICC(2,k)) por dimensión y global; el ICC global se sitúa en 0,83 con intervalo de confianza estrecho mientras Fleiss y Krippendorff quedan cerca de cero. — Acuerdo entre anotadores por coeficiente y dimensión. La técnica es donde más concuerdan (ICC 0,910), justo la dimensión más objetiva.

Por qué Fleiss baja y el ICC sube

No hay contradicción. Diez personas reparten sus respuestas por toda la escala, así que el acuerdo exacto por celda es bajo y Fleiss y Krippendorff quedan descartables como criterio de sustitución individual. Pero esos desacuerdos se cancelan al promediar, y por eso el ICC(2,k) del panel completo llega a 0,831. La media de los diez es un instrumento fiable aunque cada anotador por separado no lo sea.

3Medias por sistema con intervalo

El consenso humano separa los cuatro sistemas con nitidez y cada uno muestra su perfil de diseño. Las medias van acompañadas de su intervalo de confianza al 95 % por bootstrap, lo que muestra que la separación entre sistemas excede el ancho de los intervalos. B y D dominan en explicación técnica, A y C en divulgación y sugerencia.

Medias humanas de consenso por sistema y dimensión (Likert 1–5, n=50 por celda) con IC95 bootstrap. El mejor por fila en verde.
Dimensión	A	B	C	D
Divulgativa	3,60 [3,55, 3,65]	3,02 [2,96, 3,08]	3,77 [3,72, 3,83]	2,83 [2,76, 2,90]
Técnica	2,37 [2,27, 2,47]	3,82 [3,76, 3,87]	2,58 [2,49, 2,66]	4,20 [4,15, 4,26]
Sugerencia	3,23 [3,16, 3,30]	2,90 [2,84, 2,97]	3,64 [3,56, 3,71]	3,03 [2,98, 3,09]
Global	3,07 [2,97, 3,16]	3,25 [3,17, 3,32]	3,33 [3,23, 3,42]	3,36 [3,25, 3,46]

Diagramas de caja de las puntuaciones humanas para los cuatro sistemas en las tres dimensiones; las cajas de cada sistema se separan claramente entre dimensiones. — Distribución de las puntuaciones humanas por sistema. La separación entre cajas confirma que el panel discrimina los cuatro sistemas.

Mapa de calor de medias humanas con sistemas en filas y dimensiones en columnas; D destaca en técnica con 4,20 y C en divulgativa y sugerencia. — Mapa de calor de las medias por sistema y dimensión. Cada sistema brilla en su dimensión de diseño.

Gráfico radar de tres ejes (divulgativa, técnica, sugerencia) con un polígono por sistema; los perfiles de A/C y B/D son visiblemente complementarios. — Perfil de cada sistema en los tres ejes cualitativos. A y C cubren divulgación y sugerencia, B y D la vertiente técnica.

4Validez de criterio frente al juez

La última pieza compara el consenso humano con la puntuación del juez qwen2.5:32b celda a celda, sobre los 33 casos que ambos conjuntos comparten (33 × 4 × 3 = 396 celdas). La correlación de Pearson global es muy débil y en la dimensión divulgativa es negativa, esto es, el juez ordena esos casos al revés que las personas. El análisis de Bland-Altman cuantifica el sesgo medio (humano − juez) y sus límites de acuerdo.

0,203

Pearson r global humano↔juez (débil)

−0,203

Pearson r en divulgativa (negativa)

0,363

Pearson r en técnica (moderada)

+0,139

sesgo Bland-Altman global (humano − juez)

Validez de criterio humano frente al juez LLM sobre los 33 casos solapados. Pearson y Spearman miden correlación; Bland-Altman, el sesgo medio y los límites de acuerdo (humano − juez).
Medida	Global	Divulgativa	Técnica	Sugerencia
Pearson r	0,203	−0,203	0,363	0,041
Spearman ρ	0,189	−0,203	0,357	0,031
Sesgo Bland-Altman	+0,139	−0,082	+0,124	+0,375
Límites de acuerdo	[−2,19, 2,47]	[−1,79, 1,63]	[−2,51, 2,76]	[−2,09, 2,84]

Gráfico de Bland-Altman de la diferencia humano menos juez frente a la media; la línea de sesgo está en +0,139 y los límites de acuerdo se sitúan en torno a menos 2,19 y más 2,47. — Bland-Altman del consenso humano frente al juez. El sesgo medio es pequeño (+0,139) pero los límites de acuerdo, de unos ±2,3 sobre 5, hacen el juez inservible a nivel de celda.

El cierre formal de esta validez de criterio es el alt-test de sustitución de Calderon y colaboradores (ACL 2025), un contraste con margen de tolerancia ε=0,15 que decide, anotador a anotador, si el juez automático queda al menos tan alineado con el resto del panel como ese anotador. La fracción de anotadores a los que el juez iguala o supera es el winning rate. Lo reporto aquí, junto a las correlaciones, porque su veredicto suena más favorable de lo que de verdad es y conviene encuadrarlo bien.

Alt-test de sustitución (Calderon et al., ACL 2025; ε=0,15) sobre los diez anotadores. El winning rate es la fracción de anotadores a los que el juez iguala o supera; la probabilidad de ventaja media resume cuánto.
Medida	Global	Divulgativa	Técnica	Sugerencia
Winning rate	1,0	1,0	0,6	0,7
Prob. de ventaja media	0,696	0,781	0,680	0,626

El winning rate 1,0 dice "sustitución justificada", pero es un test relativo

Con un winning rate global de 1,0 el alt-test concluye sustitución justificada. Choca solo en apariencia con la correlación débil de arriba, no la contradice porque miden cosas distintas. El alt-test es relativo, compara al juez con humanos que entre sí concuerdan muy poco (Fleiss 0,096); con un acuerdo inter-humano tan bajo, igualar a un anotador aislado es un listón modesto que un juez internamente consistente supera, mientras que seguir el consenso del panel, justo lo que cuantifica la validez de criterio, sigue siendo difícil (Pearson 0,203) y el juez además puntúa sistemáticamente alto (Bland-Altman +0,139).

La lectura conjunta es que el juez es más consistente que cualquier humano por separado pero no rastrea el orden del consenso. El alt-test no valida al juez como instrumento absoluto; por eso sus puntuaciones cualitativas se toman como indicativas y el veredicto del TFM se ancla en las métricas objetivas (categoría y concepto) y el grounding, inmunes al juez.

5Lectura del cuadro estadístico

Qué sostiene el panel estadístico y qué no

La inferencia entre sistemas es sólida. Friedman es significativo en las tres dimensiones (χ² 122,3 · 137,8 · 92,6 con p≈0) y los seis pares de sistemas resisten la corrección de Holm con tamaños de efecto en su mayoría grandes, de modo que el panel humano discrimina las cuatro herramientas sin ambigüedad. El acuerdo del promedio de los diez es bueno (ICC global 0,831, IC95 [0,80, 0,86]), aunque el acuerdo por celda sea bajo. Lo que el panel no sostiene es la validez de criterio del juez automático, la correlación de Pearson con el consenso humano es muy débil (0,203 global) e incluso negativa en divulgativa (−0,203).

Limitación declarada

Los conjuntos de casos del panel humano y del juez solo solapan en 33 de 50, así que la validez de criterio se calcula sobre esos 33 casos × 4 sistemas × 3 dimensiones = 396 celdas, y las celdas no solapadas no se inventan. El sesgo de Bland-Altman es pequeño (+0,139) pero los límites de acuerdo, de unos ±2,3 sobre una escala de 5, hacen al juez inservible a nivel de celda. Por eso el veredicto del TFM se ancla en las métricas objetivas (categoría y concepto) y en el grounding, inmunes al juez, y la validez plena queda pendiente de cerrar el solape a 50/50.

Cómo citar

Si este trabajo te resulta útil y quieres referenciarlo, esta es la cita recomendada.

Bueno Junquero, A. (2026). Integración de un grafo de conocimiento educativo con un LLM mediante RAG. Trabajo Fin de Máster, Máster Universitario en Investigación en Inteligencia Artificial, UNED. Director, José Luis Fernández Vindel.