Resultados
Subpáginas
Las páginas de detalle que cuelgan de este hub de evaluación. Cada una desarrolla una pieza del análisis.
Generalización a código real
La prueba fuera de distribución sobre código de Dublin, donde la ventaja se invierte.
Validación del juez
El juez automático y su acuerdo entre familias (Fleiss 0,213), y su validez de criterio frente a la anotación humana.
Anotación humana
La validación con diez anotadores reales y la validez de criterio frente al juez.
Análisis estadístico
El cuadro inferencial completo, con Friedman, Wilcoxon-Holm y tamaños de efecto.
5Resultados en distribución (n=50)
Benchmark held-out de 50 casos sintéticos (esqueletos no vistos), métricas objetivas ancladas a verdad de
referencia; juez cualitativo qwen2.5:32b.
›Tabla completa de las 7 dimensiones (n=50)
| Métrica | A | B | C | D |
|---|---|---|---|---|
| Acierto de categoría | 0,26 | 0,70 | 0,36 | 0,76 |
| Acierto de concepto | 0,18 | 0,50 | 0,48 | 0,54 |
| Identificación (D1, 1–5) | 2,04 | 3,80 | 2,44 | 4,04 |
| Trazabilidad (D5, 1–5) | 1,72 | 3,00 | 2,92 | 3,16 |
| Divulgativa (juez) | 3,52 | 3,38 | 3,20 | 3,66 |
| Técnica (juez) | 3,02 | 3,44 | 2,44 | 3,62 |
| Sugerencia (juez) | 2,94 | 2,86 | 2,80 | 2,90 |
Nota de redundancia: D1 = 1+4·categoría y D5 ≈ 1+4·concepto son recodificaciones afines; hay 2 métricas objetivas independientes, no 4.
Friedman: categoría χ²=51,85 p<0,0001; concepto p=0,0004. Todos los aumentados (B, C, D) superan al base A de forma significativa (IC95% D−A categoría [+0,36, +0,64]). Pero D vs B no alcanza significación (Wilcoxon-Holm p=0,18 categoría / 0,88 concepto): a n=50 no puede afirmarse que el híbrido supere al afinado.
6Generalización a código real (Dublin DCU CS1)
Prueba fuera de distribución sobre código real de estudiantes (dataset público
koutch/intro_prog, subconjunto Dublin repair; n=60, 54 únicos). Métrica objetiva:
relevancia-al-arreglo (fracción de tokens del arreglo real citados en el feedback).
Friedman χ²=68,7, p=8,1×10⁻¹⁵. Significativos (Wilcoxon-Holm y Nemenyi): A>D (+0,479), C>D (+0,409), A>B (+0,369), C>B (−0,299). A≈C (n.s.). B vs D es marginal (Wilcoxon-Holm 0,042 pero Nemenyi n.s. — se reporta la discrepancia, no se elige lo favorable). Robusto al deduplicar a 54 únicos.
Causa raíz, medida: el coseno medio intra-esqueleto es 0,962 frente al global 0,604. Las "1396 respuestas únicas" difieren casi solo en nombres de variable dentro de cada una de las 35 plantillas, el modelo afinó la plantilla, no el razonamiento.
7Fidelidad al subgrafo y recuperador
| Métrica | C (GraphRAG) | D (híbrido) |
|---|---|---|
| Grounding propio (fidelidad al subgrafo) | 0,35 | 0,65 |
| RAGAS faithfulness | 0,618 | 0,575 |
| RAGAS context_precision (mismo recuperador) | 0,375 | 0,375 |
D es casi el doble de fiel al subgrafo (cita menos conceptos —2,56 vs 5,24— pero mejor anclados). La
context_precision idéntica (0,375) señalaba margen de mejora en el recuperador, no en
el generador.
Comparación pareada antiguo vs nuevo recuperador (mismo juez, temp 0) sobre los 54 casos Dublin,
context_precision 0,454 → 0,519 (+0,065) global; y 0,455 → 0,534 (+0,079)
en los 22 casos donde la recuperación cambió. Mejora real y positiva sobre código real.
Si este trabajo te resulta útil y quieres referenciarlo, esta es la cita recomendada.
Bueno Junquero, A. (2026). Integración de un grafo de conocimiento educativo con un LLM mediante RAG. Trabajo Fin de Máster, Máster Universitario en Investigación en Inteligencia Artificial, UNED. Director, José Luis Fernández Vindel.