USACH

Del producto a la trayectoria

Un protocolo para enseñar criterio profesional
en la era de la inteligencia artificial generativa

Ángel Royo Melgarejo · Facultad de Ingeniería · Departamento de Ingeniería Industrial

La IA generativa ya está en el aula

No es una amenaza futura.
Es la realidad de este semestre, en esta asignatura.

Si generar un informe, un análisis técnico o una recomendación es trivialmente fácil para cualquiera con acceso a un prompt...
el contenido como producto deja de probar competencia.

Deuda cognitiva

Un estudiante produce el output correcto sin haber construido el proceso cognitivo que lo genera.

🎓
Entrega el informe
Respuesta correcta, presentación impecable, cumple la rúbrica.
No puede defenderlo
No explica el razonamiento. No identifica el mecanismo. No transfiere.

No es deshonestidad académica.
Es un problema de diseño instruccional.

Ceguera simétrica

El docente usa IA para preparar su clase.

Luego evalúa si el estudiante produjo contenido sin IA.

El evaluador delegó a la IA el mismo proceso cognitivo que exige al evaluado hacer a mano.

La regla no negociable

La IA nunca llega antes que el pensamiento propio.
🧠 ➡️ 🤖

Contraste

Hay algo propio que contrastar

🤖 ➡️ 🧠

Delegación

Sin pensamiento previo no hay aprendizaje

La clase mide trayectoria, no producto

* C1: rastro extendido (15–35 min), sin BUILD. C2-C4: estructura completa abajo.

M1 · 5-15 min
Rastro en papel
Escribe a mano. Sin IA. Línea base.
M2 · 15-37 min
PLAN socrático
Chatbot lee el papel y presiona.
M3 · 40-72 min
BUILD adversarial
Chatbot genera documento con errores. El alumno evalúa.
M4 · 72-80 min
Reflexión de cierre
¿Qué cambiarías? Δ_intra.

El chatbot muta por clase

PLAN
Socrático
Pregunta, no genera.
Presiona vacíos.
C1-C4
BUILD
Adversarial
Genera con errores.
Defiende sus errores.
"¿Lo firmarías?"
C2-C4
NEUTRO
No directivo
Responde sin presionar. Mide transferencia autónoma.
C5

Momentos de medición por clase

No todas las clases tienen los 4 momentos. La distribución es asimétrica por diseño.

ClaseM1 (Papel)M2 (Chat PLAN)M3 (Chat BUILD)M4 (Cierre DD_30)Total
C1✓ (PLAN básico)3
C2✓ (PLAN)✓ (BUILD)4
C3✓ (PLAN)✓ (BUILD)4
C4✓ (PLAN adversarial)✓ (BUILD)4
C5✓ (NEUTRO)3

C1 no tiene BUILD (DD_21) · C5 no tiene BUILD ni PLAN (chatbot NEUTRO)
M3 no se usa para Δ_intra: es indicador independiente de capacidad evaluativa (D3, DD_27)
Δ_intra = M4 − M1 · Δ_inter = M1N − M1N−1

La rúbrica: 4 dimensiones

No medimos "calidad del razonamiento". Medimos recursos lingüísticos observables.

DimensiónPreguntaRecurso observable
D1 Causalidad¿Síntomas o mecanismos?Nexos causales · nominalizaciones
D2 Especificidad¿Variables medibles?Valores numéricos con unidades
D3 Consciencia¿Sabe lo que no sabe?Modales · marcadores evidenciales
D4 Decisión¿Toma posición? ¿Nombra riesgos?Verbos de decisión · condicionales

Codificación: doble ciego con κ ponderado (planificado ≥0.70) · 2 codificadores independientes

D1 — De síntoma a mecanismo

Nivel 1 — Descriptivo
"El agua está turbia." "El pH subió."
Nivel 2 — Causal simple
"El pH alto causa turbidez."
Nivel 3 — Causal múltiple
"T↑ → pH↑ → eficiencia cloro baja → ORP cae → proliferación."
Nivel 4 — Sistémico
"Filtro obstruido reduce caudal, lo que aumenta tiempo de residencia del agua caliente, acelerando degradación química."

4 niveles · criterios observables · codificación doble con κ ponderado (planificado en piloto)

D2 — De vago a diagnóstico

¿El estudiante nombra variables medibles? ¿Usa valores con unidades?

N1 · Vago
"Algo anda mal con el sistema."
N2 · Nominal
"El filtro puede ser el problema."
N3 · Operacional
"El ΔP pasó de 12 a 38 kPa en 14 horas."
N4 · Diagnóstico
"ORP bajo 650 mV indica desinfección comprometida; pH sobre 7.8 reduce eficiencia del cloro en ~80%."

D3 — Consciencia epistémica

¿El estudiante distingue lo que sabe de lo que supone?

N1 · Ausente
"El problema es el filtro." (sin duda, sin fuente)
N2 · Implícita
"Probablemente el filtro esté obstruido."
N3 · Explícita
"Asumo que no hay fuga. Necesitaría el dato de cloro libre residual para confirmar."
N4 · Metacognitiva
"Mi hipótesis depende de que el sistema no tenga fuga. Si la tuviera, el caudal decreciente tendría otra explicación."

D4 — Decisión bajo incertidumbre

¿Toma una posición explícita? ¿Nombra el riesgo? ¿Define plan B?

N1 · Evasión
"Necesito más información antes de recomendar."
N2 · Decisión sin riesgo
"Recomiendo retrolavado." (sin análisis de qué pasa si falla)
N3 · Decisión con riesgo
"Recomiendo retrolavado. Si no resuelve en 2h, el riesgo es exposición a agua con ORP < 500 mV."
N4 · Decisión contingente
"Retrolavado inmediato. Si ORP no sube a 650+ en 2h: cerrar sistema y shock de hipoclorito. Riesgo de demora: exposición sanitaria."

Transferencia: Clase 5

El aprendizaje que solo funciona con andamiaje
no es aprendizaje: es producción asistida.

C1–C4
Piscina centro acuático
Chatbot PLAN + BUILD
Presión socrática
C5
Torre de enfriamiento industrial
Chatbot NEUTRO
Sin presión, sin guía
Si reproduce el método sin que el chatbot lo exija → internalizó.
Si no lo reproduce → solo funcionó con andamiaje.

(Hipótesis a verificar en el piloto — n≈20, descriptivo-exploratorio, transferencia cercana)

Validación psicométrica — Evidencias planificadas

Una rúbrica sin evidencias de validez no es un instrumento — es una opinión estructurada.

EvidenciaEstándarAcción en piloto
Contenido¿Los descriptores representan el constructo?Juicio sistemático de 3 expertos externos
Procesos de respuesta¿El estudiante interpreta la tarea como se espera?Entrevistas cognitivas a 3 estudiantes
Fiabilidad¿Dos codificadores llegan al mismo nivel?κ ponderado ≥0.70 (≥0.80 publicable)
Estructura interna¿Las 4 dimensiones emergen empíricamente?Análisis de dimensionalidad (exploratorio con n≈20)
Consecuencias¿El uso del instrumento es justo?Evaluación de impacto diferencial post-piloto

Referencia: Standards for Educational and Psychological Testing (AERA/APA/NCME, 2014) · Ejemplares ancla por nivel: por extraer del piloto (slides 8-11 = arquetipos teóricos)

Protocolo de codificación — De la evidencia al dato

El κ no mide qué tan buena es la rúbrica — mide qué tan de acuerdo están dos codificadores al usarla.

PASO 0 — Calibración pre-piloto (Rúbrica v1.6 §6)
① Textos simulados (3 perfiles + casos de borde D1↔D4)
② Codificación independiente (no se consultan)
③ Confrontación: ¿desacuerdo de observación o de criterio?
④ Iteración hasta κ ≥ 0.85 en ≥3 textos consecutivos
⑤ Documentación de decisiones como anexo metodológico
FLUJO DE CODIFICACIÓN — Doble ciego
Texto estudiante Codif. A Codif. B κ ponderado Consenso
Umbral: κ ≥ 0.70 exploratorio · κ ≥ 0.80 publicable (Landis & Koch, 1977)
Codificación primaria: AGENT_SESION (tiempo real) · Secundaria: 2 codificadores humanos (ciegos)
AGENT_ANALISTA_SFL: motor SFL compartido · AGENT_TRAYECTORIA: inter-sesión
Desacuerdos persistentes → tercer evaluador independiente · Sin calibración, κ bajo ≠ instrumento malo

Lo que el piloto NO afirma

Sin grupo control → no es experimental
n≈20 → descriptivo-exploratorio, no inferencial confirmatorio
Una cohorte, una asignatura → no generaliza
Transferencia cercana (mismo tipo de caso técnico)
Instrumento en validación inicial — requiere replicación

La honestidad metodológica protege más que la sobreafirmación.

Cinco orientaciones transferibles

  1. Cambiar lo que se evalúa. Del producto a la trayectoria.
  2. Secuenciar, no prohibir. La IA después del pensamiento propio.
  3. Operacionalizar el razonamiento. Recursos lingüísticos contables > juicios holísticos.
  4. Medir transferencia cercana sin andamiaje. Una clase sin presión revela lo internalizado.
  5. Diseñar para escalar. Plataforma multiagente que otros profesores pueden adoptar.

Se estudia para construir criterio

Criterio es la capacidad de pensar un sistema antes de que la IA lo piense por ti. De distinguir cuándo la IA acierta y cuándo no. De decidir bajo incertidumbre lo que ningún modelo puede decidir en tu nombre.

Protocolo IA-Socrático · USACH · angelroyo.com/paper