Del producto a la trayectoria: un protocolo para enseñar criterio profesional en la era de la inteligencia artificial generativa

Capítulo postulado a libro colectivo sobre docencia universitaria — USACH · Junio 2026

Eje temático: 1. Orientaciones teóricas o procedimentales para la docencia universitaria
Convocatoria: Libro colectivo sobre docencia universitaria — USACH
Formato: APA 7 · Máx. 15 páginas
Versión: 1.3 — Junio 2026
Descarga: PDF (LaTeX)
Presentación: Diapositivas (charla 15 min)

1. Introducción

La inteligencia artificial generativa está disponible para los estudiantes universitarios. No es una amenaza futura: es una realidad operativa en este semestre, en este laboratorio, en esta asignatura. Frente a esa realidad, las instituciones enfrentan una elección que no han terminado de hacer: ignorar la IA y seguir evaluando como si no existiera, prohibirla sin poder verificar el cumplimiento, o rediseñar la experiencia de aprendizaje para que la presencia de la IA no destruya la validez del proceso educativo.

Este capítulo propone el tercer camino. No como postura ideológica, sino como orientación procedimental concreta: un protocolo de diseño instruccional que cambia lo que se evalúa, el momento en que la IA entra y el rol del docente. El protocolo fue diseñado para el Laboratorio de Máquinas y Equipos Industriales de la Universidad de Santiago de Chile, pero su arquitectura es disciplinariamente transferible: cualquier asignatura donde el producto final haya dejado de probar competencia puede adaptarlo.

El argumento central: si generar un informe, un análisis técnico o una recomendación es trivialmente fácil para cualquiera con acceso a un prompt, entonces el contenido como producto deja de ser evidencia de competencia. El estudiante que sabe y el que no sabe pueden producir el mismo output. La diferencia ya no está en lo que entregan: está en lo que pueden defender, explicar, transferir y revisar bajo presión. Eso que pueden defender es criterio profesional.

2. El problema: cuando el producto dejó de probar competencia

2.1 Deuda cognitiva

El concepto de deuda cognitiva describe una condición que la IA generativa hace posible a escala: un estudiante produce un output correcto sin haber construido el proceso cognitivo que normalmente lo genera. No es un problema de honestidad académica: es un problema de diseño instruccional. Una universidad que evalúa solo productos finales no la detecta hasta que es demasiado tarde.

Tabla 1. Manifestaciones de la deuda cognitiva en el aula universitaria
Condición	Síntoma visible	Consecuencia diferida
El estudiante entrega un informe correcto sin poder explicarlo	No puede responder preguntas de seguimiento	Aprueba sin haber construido el criterio técnico evaluado
El estudiante usa IA para formular hipótesis antes de observar el sistema	Sus hipótesis no guardan relación con sus conocimientos previos reales	Desarrolla dependencia: sin IA no puede iniciar análisis técnico
El docente evalúa solo productos finales	No detecta que el proceso fue delegado a la IA	Entrega títulos a estudiantes con déficit cognitivo encubierto
La institución no define una postura frente a la IA	Cada docente improvisa; estándares fragmentados	La brecha se amplía irreversiblemente

El término deuda cognitiva aplicado a IA generativa en educación universitaria es de uso emergente en la literatura (Kaput, 2024; Denny et al., 2024). Su raíz conceptual está en la teoría de la carga cognitiva (Sweller, 1988) y en la distinción entre acciones epistémicas y pragmáticas (Kirsh & Maglio, 1994): las herramientas que reducen la carga de procesamiento también pueden reducir el aprendizaje si el procesamiento que eliminan era el que producía la comprensión.

Evidencia neurocognitiva reciente aporta plausibilidad a esta preocupación. Un estudio del MIT Media Lab y colaboradores (Kosmyna et al., 2025) midió mediante electroencefalografía la actividad cerebral en tres condiciones —escribir sin ayuda, con buscador y con un LLM—. El grupo que usó el LLM de forma genérica mostró la menor conectividad neuronal; en cambio, un subgrupo que produjo esfuerzo cognitivo propio antes de recurrir a la herramienta —Brain-to-LLM— mostró mayor conectividad que el grupo sin tecnología. Es consistente con la hipótesis central del protocolo: el orden importa; pensar primero, contrastar después.

2.2 Ceguera simétrica

Los docentes celebran que la IA les permite generar diapositivas, rúbricas y evaluaciones en una fracción del tiempo. Pero ignoran un hecho que vuelve esa celebración insostenible: el estudiante tiene acceso exactamente a la misma herramienta. Cuando un docente usa IA para preparar contenido y luego evalúa si el estudiante produjo contenido sin IA, se produce una crisis de legitimidad: el evaluador delegó a la IA el mismo proceso cognitivo que exige al evaluado hacer a mano.

2.3 El colapso del contenido como evidencia

Durante más de un siglo, la universidad organizó su modelo evaluativo sobre un supuesto: la capacidad de producir contenido técnico correcto es evidencia de aprendizaje. Un informe bien hecho demuestra que el estudiante entiende; un cálculo correcto, que domina el método; un diseño funcional, que tiene criterio.

Ese supuesto ya no es válido. La IA generativa puede producir informes, cálculos, diseños y análisis de calidad técnica comparable o superior a la de un estudiante promedio en segundos. El contenido como producto ha perdido su función probatoria: ya no prueba nada sobre el proceso cognitivo del autor.

Esto no es una predicción: es la realidad operativa de este semestre. Lo que no ha ocurrido todavía es la consecuencia institucional: cambiar lo que se evalúa.

3. La respuesta: un protocolo que mide trayectoria, no producto

3.1 La regla no negociable

La IA nunca llega antes que el pensamiento propio. Toda sesión comienza con producción cognitiva del estudiante, sin mediación tecnológica. El rastro de ese pensamiento inicial es condición de ingreso a cualquier herramienta.

3.2 Arquitectura de la sesión: cuatro momentos

Tabla 2. Momentos de medición del protocolo
Momento	Sigla	Actividad	Evidencia
Rastro en papel	M1	Escribe a mano diagnóstico, hipótesis, variables	Línea base pre-IA
Contraste socrático	M2	Chatbot PLAN presiona puntos débiles con preguntas	Trayectoria de refinamiento
Evaluación profesional	M3	Recibe documento BUILD con errores; evalúa en chat	Capacidad evaluativa
Reflexión de cierre	M4	Responde 5 preguntas sobre qué cambiaría	Δ_intra

Tabla 2b. Distribución de momentos M1-M4 por clase
Clase	M1 (Papel)	M2 (Chat PLAN)	M3 (Chat BUILD)	M4 (Cierre)	Total
C1	✓	✓ (PLAN básico)	—	✓	3
C2	✓	✓ (PLAN)	✓ (BUILD)	✓	4
C3	✓	✓ (PLAN)	✓ (BUILD)	✓	4
C4	✓	✓ (PLAN adversarial)	✓ (BUILD)	✓	4
C5	✓	✓ (NEUTRO)	—	✓	3

C1 no tiene BUILD por ser la línea base; C2-C4 tienen los 4 momentos completos con errores deliberados escalados; C5 retira BUILD y PLAN —el chatbot opera en modo NEUTRO— para medir transferencia sin andamiaje. M3 (BUILD) no se usa para calcular Δ_intra: se analiza como indicador independiente de capacidad evaluativa.

3.3 El chatbot mutante: tres modos

Tabla 3. Modos del chatbot por clase
Modo	Función	Comportamiento	Clases
PLAN	Socrático	Pregunta, no genera. Presiona vacíos: causalidad, variables sin cuantificar, certezas sin evidencia	C1–C4
BUILD	Generador adversarial	Genera entregable con errores deliberados. Defiende sus errores. Push "¿lo firmarías?"	C2–C4
NEUTRO	No directivo	Responde sin presionar. Mide transferencia autónoma	C5

La escalación de errores en BUILD sigue una progresión deliberada: Clase 2: obvios; Clase 3: sutiles; Clase 4: profesionales (solo los detecta quien tiene criterio experto). El estudiante no sabe que los documentos contienen errores. Se le presentan como "informes basados en tu trabajo, revísalos antes de firmarlos".

El push "¿lo firmarías con tu nombre profesional?" es el instrumento más directo de detección de deuda cognitiva. Si el estudiante aceptó el documento sin verificar, esta pregunta —que no revela errores— mide si el criterio profesional se activa bajo presión mínima.

4. El aparato de medición: rúbrica y métricas

4.1 Cuatro dimensiones observables

Tabla 4. Dimensiones de análisis del razonamiento técnico
Dim.	Pregunta	Recurso lingüístico observable
D1 — Complejidad causal	¿Identifica síntomas o mecanismos?	Nexos causales explícitos, nominalizaciones
D2 — Especificidad técnica	¿Variables medibles? ¿Valores con unidades?	Participantes con modificación numérica
D3 — Consciencia epistémica	¿Distingue lo que sabe de lo que supone?	Operadores modales, marcadores evidenciales
D4 — Decisión bajo incertidumbre	¿Toma posición explícita? ¿Nombra riesgos?	Verbos de decisión, cláusulas condicionales

Tabla 5. Niveles de D1 — Complejidad causal
Nivel	Descriptor	Indicador
1	Descriptivo	"El agua está turbia" (sin nexo causal)
2	Causal simple	"El pH alto causa turbidez" (1 nexo)
3	Causal múltiple	"T↑ → pH↑ → cloro se degrada → ORP cae" (≥2 nexos encadenados)
4	Sistémico	Integra subsistemas, retroalimentaciones, condiciones de borde

Las dimensiones se operacionalizan mediante Lingüística Sistémico-Funcional (Halliday & Matthiessen, 2014): D1 y D2 se anclan en la metafunción ideacional; D3 y D4 en la interpersonal. Esto permite codificación replicable: dos codificadores cuentan recursos lingüísticos, no interpretan calidades.

4.2 Métricas de desplazamiento

Δ_intra = M4 − M1: efecto inmediato de la intervención dentro de una sesión
Δ_inter = M1_N − M1_N−1: aprendizaje retenido entre sesiones consecutivas

4.3 Codificación y confiabilidad

La codificación sigue un esquema dual: un analizador lingüístico automático asigna niveles D1–D4 en tiempo real y genera feedback formativo, mientras dos codificadores humanos independientes asignan niveles sobre datos anonimizados para la publicación. El acuerdo inter-codificador se calcula con Cohen's κ ponderado —apropiado para escalas ordinales— con umbral ≥ 0.80 para reporte publicable (Landis & Koch, 1977); los desacuerdos se resuelven con un tercer evaluador. El κ entre el analizador automático y los codificadores humanos es, en sí mismo, un hallazgo publicable sobre la viabilidad de codificación automatizada del razonamiento técnico.

5. Fundamentos teóricos

El protocolo se construye sobre cinco tradiciones, resolviendo en cada caso la fractura que la IA introduce:

Aprendizaje activo y flipped classroom (Freeman et al., 2014; Bergmann & Sams, 2012): el protocolo captura el proceso dentro del aula porque la IA vuelve no verificable el proceso previo.
Método socrático (Collins, 1988; Mollick & Mollick, 2023): el chatbot escala la presión cognitiva con la condición de que haya pensamiento previo que contrastar.
Evaluación formativa (Black & Wiliam, 1998; Hattie & Timperley, 2007): el feedback opera sobre proceso, no sobre resultado. El estudiante recibe vía WhatsApp feedback SFL de proceso, nunca dimensional: describe hábitos cognitivos observados (cómo conectó variables, cómo revisó hipótesis bajo contradicción) sin revelar niveles D1-D4 ni las dimensiones medidas. Si el alumno supiera qué se mide, podría adaptar sus respuestas a la métrica, inflando Δ_inter y destruyendo la validez interna.
Transferencia del aprendizaje (Bransford et al., 2000; Perkins & Salomon, 1992): la Clase 5 mide transferencia cercana sin andamiaje. Si el aprendizaje solo funciona con soporte, no es aprendizaje real; sin andamiaje no se puede distinguir transferencia de reconocimiento asistido (Roschelle, 1995).
Lingüística Sistémico-Funcional (Halliday & Matthiessen, 2014) y pedagogía de géneros (Rose & Martin, 2012): el diagnóstico técnico se enseña como género disciplinar con un ciclo deconstrucción → construcción conjunta → construcción independiente.

La distinción entre feedback de proceso y feedback dimensional es operativa: el alumno recibe orientación sobre cómo razonó, nunca sobre el nivel D1–D4 que obtuvo. Si supiera qué se mide, podría adaptar sus respuestas a la métrica e inflar Δ_inter.

Tabla 6. Contenido del feedback: lo permitido y lo prohibido
Lo que SÍ dice (SFL de proceso)	Lo que NO dice (dimensional, prohibido)
"Conectaste varias variables pero tus cadenas causales eran de un solo eslabón. La próxima vez intenta trazar el camino completo: ¿qué causó qué, y eso qué provocó después?"	"Estás en D1 nivel 2. Necesitas más nexos causales para llegar a nivel 3."
"Cuando el chatbot te mostró datos contradictorios, revisaste tu hipótesis. Ese hábito te va a servir en el caso de la torre de enfriamiento."	"Tu D3 mejoró de nivel 1 a nivel 2. Sigue así."
"Tus variables estaban bien identificadas pero sin valores. En ingeniería, un dato sin número es una opinión."	"D2 nivel 1: te faltan participantes con modificación numérica."

6. Implementación y escalabilidad

El protocolo se ejecuta sobre una plataforma propia (Astro en Cloudflare + capa de orquestación con webhooks, schedulers y AI Agent + PostgreSQL) con dos interfaces de chat. El profesor cuenta con siete controles: selector de clase, dashboard en vivo, chat bajo demanda, pausa grupal, activación de BUILD, activación de cierre y cierre de sesión con pipeline de feedback automático.

El sistema está diseñado para que otros profesores lo adopten sin modificar la plataforma: solo necesitan definir su caso técnico y prompts. La arquitectura multiagente permite que cada asignatura tenga su chatbot con reglas específicas, mientras la base de datos centralizada unifica métricas.

7. Limitaciones

Diseñado para laboratorio de ingeniería (~20 alumnos); la transferencia a otras disciplinas requiere adaptación
Diseño intra-sujeto sin grupo control
Transferencia medida es cercana (mismo dominio); la transferencia lejana no está capturada
El modo BUILD implica engaño leve (errores no declarados), justificado por realismo profesional y con debriefing posterior

8. Cinco orientaciones transferibles

Cambiar lo que se evalúa. Del producto a la trayectoria: cómo llegó el estudiante a ese output, qué pensó antes de usar herramientas, cómo defendió su decisión.
Secuenciar, no prohibir. Si la IA llega después del pensamiento propio, se convierte en interlocutor. Si llega antes, es delegación.
Operacionalizar el razonamiento. Dimensiones observables traducidas a recursos lingüísticos contables. Una rúbrica que pide contar nexos causales es más replicable que una que pide evaluar "calidad".
Medir transferencia sin andamiaje. El aprendizaje que solo funciona con soporte no es aprendizaje: es producción asistida.
Diseñar para escalar. Un protocolo que depende del carisma docente es una anécdota, no una orientación procedimental.

El problema no es cómo usar IA en el aula. Es cómo enseñar criterio profesional cuando la IA puede generar el producto. La respuesta no está en la tecnología: está en el diseño de la experiencia de aprendizaje. Y ese diseño empieza por dejar de evaluar lo que la IA puede producir y empezar a evaluar lo que solo un ser humano formado puede defender.

Referencias (APA 7)

Bergmann, J. & Sams, A. (2012). Flip your classroom: Reach every student in every class every day. ISTE.

Black, P. & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education, 5(1), 7–74.

Bransford, J. D., Brown, A. L. & Cocking, R. R. (2000). How people learn: Brain, mind, experience, and school. National Academy Press.

Collins, A. (1988). Cognitive apprenticeship and instructional technology (Reporte técnico N.º ED 331 465). Bolt, Beranek & Newman.

Denny, P. et al. (2024). Computing education in the era of generative AI. Communications of the ACM, 67(2), 56–67.

Freeman, S. et al. (2014). Active learning increases student performance in science, engineering, and mathematics. PNAS, 111(23), 8410–8415.

Halliday, M. A. K. & Matthiessen, C. M. I. M. (2014). Halliday's introduction to functional grammar (4th ed.). Routledge.

Hattie, J. & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81–112.

Kaput, K. (2024). Evidence of AI in higher education: What the research says. Education Evolving.

Kirsh, D. & Maglio, P. (1994). On distinguishing epistemic from pragmatic action. Cognitive Science, 18(4), 513–549.

Kosmyna, N., Hauptmann, E., Yuan, Y. T., Situ, J., Liao, X.-H., Beresnitzky, A. V., Braunstein, I. & Maes, P. (2025). Your brain on ChatGPT: Accumulation of cognitive debt when using an AI assistant for essay writing task. arXiv:2506.08872.

Landis, J. R. & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159–174.

Mollick, E. R. & Mollick, L. (2023). Assigning AI: Seven approaches for students, with prompts. SSRN Working Paper.

Perkins, D. N. & Salomon, G. (1992). Transfer of learning. En International Encyclopedia of Education (2nd ed.). Pergamon Press.

Roschelle, J. (1995). Learning in interactive environments: Prior knowledge and new experience. En J. H. Falk & L. D. Dierking (Eds.), Public institutions for personal learning (pp. 37–51). American Association of Museums.

Rose, D. & Martin, J. R. (2012). Learning to write, reading to learn: Genre, knowledge and pedagogy in the Sydney School. Equinox.

Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. Cognitive Science, 12(2), 257–285.