Validación del juez
8Validación del juez LLM
Las dimensiones cualitativas las puntúa un juez LLM. ¿Es fiable? Tres experimentos convergentes dicen que el acuerdo entre familias es bajo: el veredicto del TFM se sostiene en las métricas objetivas y el grounding, no en el juez.
| Experimento | Métrica | Valor | Lectura |
|---|---|---|---|
| Panel de 3 familias (Qwen/Llama/Gemma) | Fleiss κ global | 0,213 | leve |
| Segundo juez (Llama vs Qwen) | κ ponderado global | 0,118 | leve |
| Cribado 3 familias ajenas (Llama/Gemma/DeepSeek) | Krippendorff α global | 0,289 | < 0,50 (no sustituye) |
| DeepSeek vs juez Qwen | κ ponderado global | 0,098 | leve |
Se incorporó deepseek-coder-v2 (familia, arquitectura y datos distintos a Qwen/Llama/Gemma) como
tercer anotador no-Qwen, con su español validado empíricamente. El Krippendorff α sobre las tres familias
ajenas es 0,289: la tercera familia no rescata el acuerdo, lo confirma bajo. Es cribado, no validez
de criterio. Refuerza que hace falta anotación humana.
Con 2–3 anotadores sobre el arnés ya construido se obtiene el techo humano-humano, el κ humano-vs-juez (con Krippendorff α) y el Alt-Test. "Resolver" esto es pasar de "no sé la validez de mi juez" a "la he medido con un referente humano", gane o no el juez el test. Esta es la línea de validación que queda por completar.
9Conclusiones y trabajo futuro
- En el benchmark canónico en distribución (n=50), la augmentación (grafo y/o fine-tuning) supera al LLM base de forma significativa; la superioridad del híbrido sobre el afinado es prometedora pero no significativa a n=50. No es un veredicto general: solo vale dentro de la distribución sintética.
- La augmentación por pasajes no gana por sí sola. En la reconstrucción aislada de ablación de
recuperación (Linaje B, juez
qwen2.5:32b, n=10), el RAG por pasajes (ORPO-v2 y ORPO-v3) no supera a la base (3,467 y 3,567 < 3,733); solo el RAG semántico/ontológico por SPARQL (ORPO-v4) la supera (4,233 > 3,733), con la mejora en técnica y sugerencia. La mejora es de recuperación, no de fine-tuning (v4 comparte adaptador con v3); hay 2 derrotas (sub_00803,sub_01444); solo 3/10 casos activaron una misconception; n=10 y juez no determinista. - La ventaja en distribución no transfiere a código real (sobreajuste a plantillas, ahora con test formal). Es una limitación medida, y reportarla refuerza la validez del trabajo.
- El camino para cerrar el hueco es datos de entrenamiento reales / destilación de feedback diverso (la vía de "Narrowing the Gap", arXiv:2507.05305), el único modo de que lo afinado generalice.
- El juez LLM se usa como cribado, no como validez de criterio; el veredicto se ancla en métricas objetivas y grounding, inmunes al juez.
10Estado de entrega
Qué está hecho y verificado, y qué queda pendiente de la anotación manual. Cada ítem lleva su estado explícito (texto + icono + color), no solo color.
Hecho y verificado
- Grafo EKG canónico (1772/4786/157/30, SHACL conforme) y consulta federada con salida real.
- Sistema RAG + fine-tuning QLoRA; benchmark held-out A/B/C/D (n=50) con estadística inferencial.
- Generalización a código real (Dublin) con test formal (Friedman p=8,1×10⁻¹⁵).
- Recuperador mejorado (AST + RRF) y re-medido (
context_precision0,454→0,519). - Validación del juez por capas: panel PoLL, segundo juez, cribado con 3ª familia (DeepSeek) y Krippendorff α.
- Reproducibilidad: lockfile con hashes,
trust_remote_code=False, deps muertas eliminadas, semillas en A/C. - Infraestructura de anotación lista: arnés autocontenido,
kappa_humano.py(con Krippendorff α) yalt_test.py(con WR por dimensión).
Pendiente — depende de personas
- Anotación de 2–3 personas sobre el arnés → validez de criterio del juez (C1). Es la pieza que aporta validez de criterio al juez automático.
- Corpus de código real etiquetado para reentrenar B y cerrar el sobreajuste a las plantillas (C2).
Si este trabajo te resulta útil y quieres referenciarlo, esta es la cita recomendada.
Bueno Junquero, A. (2026). Integración de un grafo de conocimiento educativo con un LLM mediante RAG. Trabajo Fin de Máster, Máster Universitario en Investigación en Inteligencia Artificial, UNED. Director, José Luis Fernández Vindel.