Validación del juez

8Validación del juez LLM

Las dimensiones cualitativas las puntúa un juez LLM. ¿Es fiable? Tres experimentos convergentes dicen que el acuerdo entre familias es bajo: el veredicto del TFM se sostiene en las métricas objetivas y el grounding, no en el juez.

Acuerdo inter-juez / inter-familia (κ ponderado y Krippendorff α). Todos por debajo de los umbrales de fiabilidad.
Experimento	Métrica	Valor	Lectura
Panel de 3 familias (Qwen/Llama/Gemma)	Fleiss κ global	0,213	leve
Segundo juez (Llama vs Qwen)	κ ponderado global	0,118	leve
Cribado 3 familias ajenas (Llama/Gemma/DeepSeek)	Krippendorff α global	0,289	< 0,50 (no sustituye)
DeepSeek vs juez Qwen	κ ponderado global	0,098	leve

Tercera familia ajena (DeepSeek)

Se incorporó deepseek-coder-v2 (familia, arquitectura y datos distintos a Qwen/Llama/Gemma) como tercer anotador no-Qwen, con su español validado empíricamente. El Krippendorff α sobre las tres familias ajenas es 0,289: la tercera familia no rescata el acuerdo, lo confirma bajo. Es cribado, no validez de criterio. Refuerza que hace falta anotación humana.

Lo que resuelve el examen humano

Con 2–3 anotadores sobre el arnés ya construido se obtiene el techo humano-humano, el κ humano-vs-juez (con Krippendorff α) y el Alt-Test. "Resolver" esto es pasar de "no sé la validez de mi juez" a "la he medido con un referente humano", gane o no el juez el test. Esta es la línea de validación que queda por completar.

9Conclusiones y trabajo futuro

En el benchmark canónico en distribución (n=50), la augmentación (grafo y/o fine-tuning) supera al LLM base de forma significativa; la superioridad del híbrido sobre el afinado es prometedora pero no significativa a n=50. No es un veredicto general: solo vale dentro de la distribución sintética.
La augmentación por pasajes no gana por sí sola. En la reconstrucción aislada de ablación de recuperación (Linaje B, juez qwen2.5:32b, n=10), el RAG por pasajes (ORPO-v2 y ORPO-v3) no supera a la base (3,467 y 3,567 < 3,733); solo el RAG semántico/ontológico por SPARQL (ORPO-v4) la supera (4,233 > 3,733), con la mejora en técnica y sugerencia. La mejora es de recuperación, no de fine-tuning (v4 comparte adaptador con v3); hay 2 derrotas (sub_00803, sub_01444); solo 3/10 casos activaron una misconception; n=10 y juez no determinista.
La ventaja en distribución no transfiere a código real (sobreajuste a plantillas, ahora con test formal). Es una limitación medida, y reportarla refuerza la validez del trabajo.
El camino para cerrar el hueco es datos de entrenamiento reales / destilación de feedback diverso (la vía de "Narrowing the Gap", arXiv:2507.05305), el único modo de que lo afinado generalice.
El juez LLM se usa como cribado, no como validez de criterio; el veredicto se ancla en métricas objetivas y grounding, inmunes al juez.

10Estado de entrega

Qué está hecho y verificado, y qué queda pendiente de la anotación manual. Cada ítem lleva su estado explícito (texto + icono + color), no solo color.

Hecho y verificado

Grafo EKG canónico (1772/4786/157/30, SHACL conforme) y consulta federada con salida real.
Sistema RAG + fine-tuning QLoRA; benchmark held-out A/B/C/D (n=50) con estadística inferencial.
Generalización a código real (Dublin) con test formal (Friedman p=8,1×10⁻¹⁵).
Recuperador mejorado (AST + RRF) y re-medido (context_precision 0,454→0,519).
Validación del juez por capas: panel PoLL, segundo juez, cribado con 3ª familia (DeepSeek) y Krippendorff α.
Reproducibilidad: lockfile con hashes, trust_remote_code=False, deps muertas eliminadas, semillas en A/C.
Infraestructura de anotación lista: arnés autocontenido, kappa_humano.py (con Krippendorff α) y alt_test.py (con WR por dimensión).

Pendiente — depende de personas

Anotación de 2–3 personas sobre el arnés → validez de criterio del juez (C1). Es la pieza que aporta validez de criterio al juez automático.
Corpus de código real etiquetado para reentrenar B y cerrar el sobreajuste a las plantillas (C2).

Cómo citar

Si este trabajo te resulta útil y quieres referenciarlo, esta es la cita recomendada.

Bueno Junquero, A. (2026). Integración de un grafo de conocimiento educativo con un LLM mediante RAG. Trabajo Fin de Máster, Máster Universitario en Investigación en Inteligencia Artificial, UNED. Director, José Luis Fernández Vindel.