Significación estadística — benchmark Dublin (código REAL DCU CS1), relevancia_arreglo
métrica objetiva = fracción de tokens del arreglo real (educador) citados en el feedback
[coherencia] OK: las medias re-calculadas reproducen resultados_dublin_real.json (A0.802/B0.433/C0.733/D0.323 vs A0.802/B0.433/C0.733/D0.323)

=== Dublin n=60 (con 6 ids repetidos, doble-peso menor) (n=60) ===
medias A/B/C/D = 0.802/0.433/0.733/0.323
Friedman: chi2=68.69, p=8.13e-15 | Kendall's W=0.218
Rangos medios (1=peor..4=mejor): A=3.08, B=2.11, C=2.95, D=1.87
Nemenyi diferencia crítica (CD, alpha=0.05) = 0.606  -> dos sistemas difieren si |ΔR| >= CD
Comparaciones por pares:
  A vs B: Δmedia=+0.369  Wilcoxon p(Holm)=0.0000  IC95%[+0.251,+0.488]  Nemenyi sig (ΔR=0.97)
  A vs C: Δmedia=+0.069  Wilcoxon p(Holm)=0.1651  IC95%[-0.039,+0.179]  Nemenyi n.s. (ΔR=0.12)
  A vs D: Δmedia=+0.479  Wilcoxon p(Holm)=0.0000  IC95%[+0.363,+0.590]  Nemenyi sig (ΔR=1.21)
  B vs C: Δmedia=-0.299  Wilcoxon p(Holm)=0.0022  IC95%[-0.437,-0.160]  Nemenyi sig (ΔR=0.84)
  B vs D: Δmedia=+0.110  Wilcoxon p(Holm)=0.0420  IC95%[+0.017,+0.208]  Nemenyi n.s. (ΔR=0.24)
  C vs D: Δmedia=+0.409  Wilcoxon p(Holm)=0.0000  IC95%[+0.287,+0.528]  Nemenyi sig (ΔR=1.08)

=== Dublin n=54 (casos ÚNICOS, robustez sin pseudo-réplica) (n=54) ===
medias A/B/C/D = 0.780/0.389/0.721/0.313
Friedman: chi2=64.16, p=7.601e-14 | Kendall's W=0.230
Rangos medios (1=peor..4=mejor): A=3.08, B=2.05, C=2.98, D=1.89
Nemenyi diferencia crítica (CD, alpha=0.05) = 0.638  -> dos sistemas difieren si |ΔR| >= CD
Comparaciones por pares:
  A vs B: Δmedia=+0.391  Wilcoxon p(Holm)=0.0000  IC95%[+0.268,+0.513]  Nemenyi sig (ΔR=1.04)
  A vs C: Δmedia=+0.059  Wilcoxon p(Holm)=0.2608  IC95%[-0.056,+0.176]  Nemenyi n.s. (ΔR=0.10)
  A vs D: Δmedia=+0.467  Wilcoxon p(Holm)=0.0000  IC95%[+0.349,+0.583]  Nemenyi sig (ΔR=1.19)
  B vs C: Δmedia=-0.333  Wilcoxon p(Holm)=0.0011  IC95%[-0.474,-0.190]  Nemenyi sig (ΔR=0.94)
  B vs D: Δmedia=+0.076  Wilcoxon p(Holm)=0.1724  IC95%[-0.017,+0.171]  Nemenyi n.s. (ΔR=0.16)
  C vs D: Δmedia=+0.408  Wilcoxon p(Holm)=0.0000  IC95%[+0.281,+0.534]  Nemenyi sig (ΔR=1.09)
