Universidad de Santiago de Chile — Facultad de Ingeniería

Protocolo IA-Socrático

Coexistencia con IA en educación técnica universitaria

Reunión con Nicole Abricot Marchant

Junio 2026

La pregunta que mueve el proyecto

Si la IA generativa puede producir respuestas correctas sin razonamiento visible, ¿qué pasa con la evaluación que solo mira el producto final?

Dato clave: El 93,7% de los estudiantes y el 72,2% de los docentes de la Pontificia Universidad Católica de Chile usan IA generativa regularmente. El 96% de los docentes anticipa transformaciones profundas en la práctica educativa. Estudio "IA en la UC", Vicerrectoría de Inteligencia Digital, 2025.

Deuda cognitiva inducida por IA

Qué falla hoy

La evaluación universitaria estándar mide producto: examen, informe, control. La suposición implícita es que existe una relación estable entre proceso cognitivo y producto entregado.

Qué cambió con IA generativa (2022–2026)

Un estudiante puede obtener un producto final correcto sin ejercitar el proceso que lo haría defendible en contextos profesionales nuevos. El producto dejó de ser evidencia suficiente de razonamiento.

Deuda cognitiva inducida por IA: la diferencia entre el producto que la IA puede producir y el razonamiento que el estudiante efectivamente ejerció.

Qué intenta recuperar el diseño

Una intervención pedagógica estructurada en cinco sesiones, basada en rastro inicial sin IA, mediación socrática controlada, evaluación crítica de errores deliberados y transferencia autónoma a un caso nuevo.

No prohibir la IA. Rediseñar la evaluación para capturar proceso, trayectoria, criterio y transferencia.

Cinco sesiones, 80 minutos cada una

	C1	C2	C3	C4	C5
Función	Línea base	Diagnóstico	Datos ambiguos	Automatización	Transferencia
Caso	Piscina — filtro	Piscina — cloro	Piscina — SCADA	Piscina — 38h	Torre (nuevo)
Chatbot	PLAN	PLAN + BUILD	PLAN + BUILD	PLAN + BUILD	NEUTRO
Foco	¿Síntomas o mecanismos?	¿Hipótesis competidoras?	¿Correlación o causalidad?	¿Restricciones múltiples?	¿Reproduce sin guía?

Los cuatro momentos (M1–M4)

Momento	Qué es	Cuándo	Codificación
M1	Rastro inicial sin IA. Escribe a mano, sube foto.	Antes del chatbot	AI Vision → JSON
M2	Chatbot PLAN (socrático, no genera).	Durante la clase	Log → PostgreSQL
M3	Chatbot BUILD (genera con errores deliberados).	Durante la clase	Log → PostgreSQL
M4	Decisión final con riesgo explícito.	Cierre	Texto / foto / chat

Lo que el alumno NO sabe (DD_28): No conoce los modos PLAN, BUILD, NEUTRO. Si lo supiera, dejaría de razonar y evaluaría al chatbot.

Tres métricas, dos transferencias

Métrica	Fórmula	Lectura
Δ_intra	M4 − M1 (dentro de una clase)	Ganancia atribuible al chatbot
Δ_inter	M1_N − M1_(N−1) (entre clases)	Trayectoria longitudinal
Transferencia cercana	C5 vs C1 (dominio nuevo, sin andamiaje)	Internalización

Las dos transferencias

Tipo	Definición	Cómo se mide
Transferencia longitudinal (Δ_inter)	Reproducir la estructura del género entre clases consecutivas, con andamiaje.	M1_(N) − M1_(N−1) por dimensión. Si es 0 en dos sesiones consecutivas, alerta de estancamiento.
Transferencia cercana (C1↔C5)	Aplicar la estructura a un dominio nuevo (piscina → torre) sin andamiaje.	Comparación C5 vs C1 con chatbot NEUTRO. Si reproduce la estructura, internalizó.

Referencia: Perkins & Salomon (1992); Bransford et al. (2000). El aprendizaje profundo se demuestra cuando el estudiante aplica lo aprendido a situaciones nuevas sin andamiaje.

La rúbrica: cuatro dimensiones

D1 — Ideacional

Complejidad causal

¿Identifica síntomas o mecanismos?

D2 — Ideacional

Especificidad técnica

¿Usa variables medibles o generalidades?

D3 — Interpersonal

Consciencia epistémica

¿Sabe qué sabe, qué no sabe, qué evidencia necesita?

D4 — Interpersonal

Decisión bajo incertidumbre

¿Toma una decisión defendible con riesgo explícito?

Criterios lingüísticos, no intuitivos. Fundamentados en Halliday & Matthiessen (2014) y Rose & Martin (2012). κ ponderado ≥ 0.80 (Landis & Koch, 1977).

La rejilla 4D × 4N

	N1 — Descriptivo	N2 — Simple	N3 — Múltiple	N4 — Contingente
D1 Causal	Sin nexos causales	≥1 nexo simple	≥2 nexos + nominalización	≥2 tipos lógico-semánticos
D2 Específico	Sin modificación numérica	≥1 variable con valor	≥1 valor con unidad	≥2 variables + umbrales
D3 Epistémico	0 modales, 0 evidenciales	≥1 modal sin fuente	≥1 evidencial + vacío	≥1 condicional + límites
D4 Decisión	0 verbos decisión 1ª persona	≥1 verbo, sin condicional	Verbo + condicional	Verbo + condicional + escalamiento + autoridad

Ejemplo: Juan — antes y después

M1 C1 — Línea base (antes del chatbot)

"El agua se ve turbia y el olor es raro. El operador dice que es el filtro. Hay que cambiarlo y listo."

D1: N1 D2: N1 D3: N1 D4: N1

↓ Δ_intra C4 = +9 puntos (máximo posible: 12) ↓

M4 C4 — Cierre con presión

"Yo recomendaría que el protocolo incluyera un chequeo cada 4 horas, no solo cuando la bomba falle. Si ORP no se normaliza en 2 horas, llamar a un técnico de turno. Si no, el riesgo es una sanción SEREMI."

D1: N3 D2: N3 D3: N3 D4: N4

Arquitectura técnica

Capa	Implementación	Lo que controla
Frontend estudiante	Interfaz web (chat + subida foto)	Captura M1, M2, M3, M4
Frontend profesor	7 controles (selector, dashboard, pausa, BUILD, cierre…)	Modo de operación
Backend	Orquestador de IA con 2 agentes diferenciados	Modes, prompts, persistencia
LLM	Intercambiable	System prompt controla modos, no el modelo

Premisa P1: Una sola IA. El chatbot es del proyecto. No es GPT, no es Gemini, no es Claude externo. El system prompt controla modos. El LLM es intercambiable; el diseño no.

Lo que sí decimos

La IA no es el enemigo. Prohibirla no resuelve nada — los estudiantes la usan igual. El desafío es diseñar evaluaciones que capturen razonamiento, no solo producto final.
El piloto está diseñado, no ejecutado. Tenemos el protocolo, la rúbrica y los casos. Lo que falta es recolectar datos con estudiantes reales.
El chatbot es una herramienta, no el centro. Lo que importa es la secuencia pedagógica: rastro → confrontación → evaluación crítica → transferencia.
La rúbrica tiene fundamentos, no validación empírica. Está operacionalizada con Lingüística Sistémico-Funcional. Necesita datos para validarla.

Dos estudiantes pueden entregar el mismo texto. Uno razonó para escribirlo. El otro le pidió a la IA que lo hiciera. Si la evaluación solo mira el resultado, no puede distinguirlos. Ese es el problema que buscamos resolver.

Gracias.

No prohibir. No ignorar. Enseñar a coexistir.

Ángel Royo Melgarejo

Ingeniero IA — Universidad de Santiago de Chile

www.angelroyo.com