Resultados

Subpáginas

Las páginas de detalle que cuelgan de este hub de evaluación. Cada una desarrolla una pieza del análisis.

Generalización a código real

La prueba fuera de distribución sobre código de Dublin, donde la ventaja se invierte.

Validación del juez

El juez automático y su acuerdo entre familias (Fleiss 0,213), y su validez de criterio frente a la anotación humana.

Anotación humana

La validación con diez anotadores reales y la validez de criterio frente al juez.

Análisis estadístico

El cuadro inferencial completo, con Friedman, Wilcoxon-Holm y tamaños de efecto.

5Resultados en distribución (n=50)

Benchmark held-out de 50 casos sintéticos (esqueletos no vistos), métricas objetivas ancladas a verdad de referencia; juez cualitativo qwen2.5:32b.

Acierto de categoríaAcierto de concepto

›Tabla completa de las 7 dimensiones (n=50)

Métricas objetivas (categoría, concepto, D1, D5) y del juez (1–5). El mejor por fila en verde.
Métrica	A	B	C	D
Acierto de categoría	0,26	0,70	0,36	0,76
Acierto de concepto	0,18	0,50	0,48	0,54
Identificación (D1, 1–5)	2,04	3,80	2,44	4,04
Trazabilidad (D5, 1–5)	1,72	3,00	2,92	3,16
Divulgativa (juez)	3,52	3,38	3,20	3,66
Técnica (juez)	3,02	3,44	2,44	3,62
Sugerencia (juez)	2,94	2,86	2,80	2,90

Nota de redundancia: D1 = 1+4·categoría y D5 ≈ 1+4·concepto son recodificaciones afines; hay 2 métricas objetivas independientes, no 4.

Significación estadística

Friedman: categoría χ²=51,85 p<0,0001; concepto p=0,0004. Todos los aumentados (B, C, D) superan al base A de forma significativa (IC95% D−A categoría [+0,36, +0,64]). Pero D vs B no alcanza significación (Wilcoxon-Holm p=0,18 categoría / 0,88 concepto): a n=50 no puede afirmarse que el híbrido supere al afinado.

6Generalización a código real (Dublin DCU CS1)

Prueba fuera de distribución sobre código real de estudiantes (dataset público koutch/intro_prog, subconjunto Dublin repair; n=60, 54 únicos). Métrica objetiva: relevancia-al-arreglo (fracción de tokens del arreglo real citados en el feedback).

Base / GraphRAG (A, C)Afinado / híbrido (B, D) · Las augmentaciones (B, D) no transfieren a código real.

Ahora con test formal

Friedman χ²=68,7, p=8,1×10⁻¹⁵. Significativos (Wilcoxon-Holm y Nemenyi): A>D (+0,479), C>D (+0,409), A>B (+0,369), C>B (−0,299). A≈C (n.s.). B vs D es marginal (Wilcoxon-Holm 0,042 pero Nemenyi n.s. — se reporta la discrepancia, no se elige lo favorable). Robusto al deduplicar a 54 únicos.

Causa raíz, medida: el coseno medio intra-esqueleto es 0,962 frente al global 0,604. Las "1396 respuestas únicas" difieren casi solo en nombres de variable dentro de cada una de las 35 plantillas, el modelo afinó la plantilla, no el razonamiento.

7Fidelidad al subgrafo y recuperador

Grounding propio y métricas estilo RAGAS (juez local `qwen2.5:32b`, n=50).
Métrica	C (GraphRAG)	D (híbrido)
Grounding propio (fidelidad al subgrafo)	0,35	0,65
RAGAS faithfulness	0,618	0,575
RAGAS context_precision (mismo recuperador)	0,375	0,375

D es casi el doble de fiel al subgrafo (cita menos conceptos —2,56 vs 5,24— pero mejor anclados). La context_precision idéntica (0,375) señalaba margen de mejora en el recuperador, no en el generador.

Mejora del recuperador, re-medida en código real

Comparación pareada antiguo vs nuevo recuperador (mismo juez, temp 0) sobre los 54 casos Dublin, context_precision 0,454 → 0,519 (+0,065) global; y 0,455 → 0,534 (+0,079) en los 22 casos donde la recuperación cambió. Mejora real y positiva sobre código real.

Cómo citar

Si este trabajo te resulta útil y quieres referenciarlo, esta es la cita recomendada.

Bueno Junquero, A. (2026). Integración de un grafo de conocimiento educativo con un LLM mediante RAG. Trabajo Fin de Máster, Máster Universitario en Investigación en Inteligencia Artificial, UNED. Director, José Luis Fernández Vindel.