Análisis estadístico
1Pruebas inferenciales entre sistemas
Este panel reúne las pruebas formales que sostienen la lectura de la anotación humana. Toda cifra procede de
sistema-rag/benchmark/analisis_humano.json, calculada sobre las puntuaciones de consenso de los diez
anotadores. La pregunta de partida es sencilla, si los cuatro sistemas difieren de verdad o si la separación que se
ve en las medias podría deberse al azar. La prueba de Friedman, no paramétrica y pensada para medidas repetidas,
responde que sí difieren en las tres dimensiones, con valores de χ² altos y p prácticamente nula.
Establecido que hay diferencias globales, el paso siguiente es localizar entre qué sistemas. Comparo los seis pares posibles con la prueba de Wilcoxon de los signos para muestras pareadas y corrijo los p-valores por el método de Holm, que controla el error de familia sin ser tan conservador como Bonferroni. En las tres dimensiones los seis pares alcanzan significación tras la corrección, así que cada sistema se distingue de cada otro. El tamaño del efecto de Cohen acompaña a cada par para que la magnitud no se confunda con la mera significación.
| Par | Dimensión | d de Cohen | Magnitud | p (Holm) |
|---|---|---|---|---|
| A vs B | Divulgativa | 1,857 | grande | <0,001 |
| A vs C | Divulgativa | −0,589 | mediano | 0,00022 |
| A vs D | Divulgativa | 2,560 | grande | <0,001 |
| B vs C | Divulgativa | −2,359 | grande | <0,001 |
| B vs D | Divulgativa | 0,608 | mediano | 0,00022 |
| C vs D | Divulgativa | 2,801 | grande | <0,001 |
| A vs B | Técnica | −3,442 | grande | <0,001 |
| A vs C | Técnica | −0,616 | mediano | 0,00016 |
| A vs D | Técnica | −4,289 | grande | <0,001 |
| B vs C | Técnica | 3,136 | grande | <0,001 |
| B vs D | Técnica | −1,711 | grande | <0,001 |
| C vs D | Técnica | −4,314 | grande | <0,001 |
| A vs B | Sugerencia | 0,837 | grande | 0,000006 |
| A vs C | Sugerencia | −1,478 | grande | <0,001 |
| A vs D | Sugerencia | 0,657 | mediano | 0,00014 |
| B vs C | Sugerencia | −1,804 | grande | <0,001 |
| B vs D | Sugerencia | −0,401 | pequeño | 0,0127 |
| C vs D | Sugerencia | 1,756 | grande | <0,001 |
La escala Likert de cinco puntos es ordinal y las puntuaciones de un mismo caso a través de los cuatro sistemas están pareadas. Friedman es la opción no paramétrica para medidas repetidas y Wilcoxon de los signos su complemento para los contrastes par a par, sin suponer normalidad. La corrección de Holm reparte el riesgo de falso positivo entre los seis contrastes de cada dimensión, de modo que la significación que queda es la que sobrevive a esa penalización.
2Acuerdo inter-anotador
Antes de fiarse del consenso conviene medir cuánto concuerdan los diez anotadores entre sí. Reporto tres coeficientes que miden cosas distintas. Fleiss κ y Krippendorff α valoran el acuerdo celda a celda y salen bajos, porque diez personas rara vez coinciden en el mismo número de una escala de cinco puntos. El ICC(2,k) mide la fiabilidad del promedio de los diez y sale bueno, con un intervalo de confianza al 95 % estrecho.
| Coeficiente | Global | Divulgativa | Técnica | Sugerencia |
|---|---|---|---|---|
| Fleiss κ | 0,096 | 0,071 | 0,143 | 0,032 |
| Krippendorff α (ordinal) | 0,318 | 0,216 | 0,507 | 0,116 |
| ICC(2,k) acuerdo absoluto | 0,831 | 0,736 | 0,910 | 0,605 |
| IC95 del ICC(2,k) | [0,80, 0,86] | [0,67, 0,79] | [0,87, 0,94] | [0,51, 0,69] |
No hay contradicción. Diez personas reparten sus respuestas por toda la escala, así que el acuerdo exacto por celda es bajo y Fleiss y Krippendorff quedan descartables como criterio de sustitución individual. Pero esos desacuerdos se cancelan al promediar, y por eso el ICC(2,k) del panel completo llega a 0,831. La media de los diez es un instrumento fiable aunque cada anotador por separado no lo sea.
3Medias por sistema con intervalo
El consenso humano separa los cuatro sistemas con nitidez y cada uno muestra su perfil de diseño. Las medias van acompañadas de su intervalo de confianza al 95 % por bootstrap, lo que muestra que la separación entre sistemas excede el ancho de los intervalos. B y D dominan en explicación técnica, A y C en divulgación y sugerencia.
| Dimensión | A | B | C | D |
|---|---|---|---|---|
| Divulgativa | 3,60 [3,55, 3,65] | 3,02 [2,96, 3,08] | 3,77 [3,72, 3,83] | 2,83 [2,76, 2,90] |
| Técnica | 2,37 [2,27, 2,47] | 3,82 [3,76, 3,87] | 2,58 [2,49, 2,66] | 4,20 [4,15, 4,26] |
| Sugerencia | 3,23 [3,16, 3,30] | 2,90 [2,84, 2,97] | 3,64 [3,56, 3,71] | 3,03 [2,98, 3,09] |
| Global | 3,07 [2,97, 3,16] | 3,25 [3,17, 3,32] | 3,33 [3,23, 3,42] | 3,36 [3,25, 3,46] |
4Validez de criterio frente al juez
La última pieza compara el consenso humano con la puntuación del juez qwen2.5:32b celda a celda, sobre
los 33 casos que ambos conjuntos comparten (33 × 4 × 3 = 396 celdas). La correlación de Pearson global es muy débil
y en la dimensión divulgativa es negativa, esto es, el juez ordena esos casos al revés que las personas. El análisis
de Bland-Altman cuantifica el sesgo medio (humano − juez) y sus límites de acuerdo.
| Medida | Global | Divulgativa | Técnica | Sugerencia |
|---|---|---|---|---|
| Pearson r | 0,203 | −0,203 | 0,363 | 0,041 |
| Spearman ρ | 0,189 | −0,203 | 0,357 | 0,031 |
| Sesgo Bland-Altman | +0,139 | −0,082 | +0,124 | +0,375 |
| Límites de acuerdo | [−2,19, 2,47] | [−1,79, 1,63] | [−2,51, 2,76] | [−2,09, 2,84] |
El cierre formal de esta validez de criterio es el alt-test de sustitución de Calderon y colaboradores (ACL 2025), un contraste con margen de tolerancia ε=0,15 que decide, anotador a anotador, si el juez automático queda al menos tan alineado con el resto del panel como ese anotador. La fracción de anotadores a los que el juez iguala o supera es el winning rate. Lo reporto aquí, junto a las correlaciones, porque su veredicto suena más favorable de lo que de verdad es y conviene encuadrarlo bien.
| Medida | Global | Divulgativa | Técnica | Sugerencia |
|---|---|---|---|---|
| Winning rate | 1,0 | 1,0 | 0,6 | 0,7 |
| Prob. de ventaja media | 0,696 | 0,781 | 0,680 | 0,626 |
Con un winning rate global de 1,0 el alt-test concluye sustitución justificada. Choca solo en apariencia con la correlación débil de arriba, no la contradice porque miden cosas distintas. El alt-test es relativo, compara al juez con humanos que entre sí concuerdan muy poco (Fleiss 0,096); con un acuerdo inter-humano tan bajo, igualar a un anotador aislado es un listón modesto que un juez internamente consistente supera, mientras que seguir el consenso del panel, justo lo que cuantifica la validez de criterio, sigue siendo difícil (Pearson 0,203) y el juez además puntúa sistemáticamente alto (Bland-Altman +0,139).
La lectura conjunta es que el juez es más consistente que cualquier humano por separado pero no rastrea el orden del consenso. El alt-test no valida al juez como instrumento absoluto; por eso sus puntuaciones cualitativas se toman como indicativas y el veredicto del TFM se ancla en las métricas objetivas (categoría y concepto) y el grounding, inmunes al juez.
5Lectura del cuadro estadístico
La inferencia entre sistemas es sólida. Friedman es significativo en las tres dimensiones (χ² 122,3 · 137,8 · 92,6 con p≈0) y los seis pares de sistemas resisten la corrección de Holm con tamaños de efecto en su mayoría grandes, de modo que el panel humano discrimina las cuatro herramientas sin ambigüedad. El acuerdo del promedio de los diez es bueno (ICC global 0,831, IC95 [0,80, 0,86]), aunque el acuerdo por celda sea bajo. Lo que el panel no sostiene es la validez de criterio del juez automático, la correlación de Pearson con el consenso humano es muy débil (0,203 global) e incluso negativa en divulgativa (−0,203).
Los conjuntos de casos del panel humano y del juez solo solapan en 33 de 50, así que la validez de criterio se calcula sobre esos 33 casos × 4 sistemas × 3 dimensiones = 396 celdas, y las celdas no solapadas no se inventan. El sesgo de Bland-Altman es pequeño (+0,139) pero los límites de acuerdo, de unos ±2,3 sobre una escala de 5, hacen al juez inservible a nivel de celda. Por eso el veredicto del TFM se ancla en las métricas objetivas (categoría y concepto) y en el grounding, inmunes al juez, y la validez plena queda pendiente de cerrar el solape a 50/50.
Si este trabajo te resulta útil y quieres referenciarlo, esta es la cita recomendada.
Bueno Junquero, A. (2026). Integración de un grafo de conocimiento educativo con un LLM mediante RAG. Trabajo Fin de Máster, Máster Universitario en Investigación en Inteligencia Artificial, UNED. Director, José Luis Fernández Vindel.