---
nombre: Marco de Revisión de Literatura
tipo: doc_inv
version: 1.7
fecha_emision: 2026-06-12
status: fuente_normativa
emitido_por: Ángel Royo Melgarejo (IP)
fuente_extraida_de: protocolo/Marco_Revision_Literatura_v1.2.docx
referencia_premisas: instrumentos/doc_inv_Premisas_Diseno_v1.1.md
nota: >
  Extracción de .docx a .md (2026-05-24). Correcciones aplicadas:
  (1) Título del paper actualizado al oficial (Premisas v1.0).
  (2) Afiliación corregida: "Facultad de Ingeniería" (no "Ingeniería Mecánica").
  (3) Cabecera de versión actualizada a v1.2 con fecha real.
  (4) Sección 3.4 (Ed3) y 3.5 (MIT Media Lab) reordenadas por coherencia narrativa.
  (5) Pie de página actualizado al título oficial.
  Contenido íntegro preservado.
---


# Marco de Revisión de Literatura

**Versión:** 1.7
**Fecha:** Junio 2026
**Paper:** Deuda cognitiva en educación técnica: un protocolo de intervención con chatbot socrático para el rediseño del aprendizaje universitario en contexto de IA generativa
**Institución:** Universidad de Santiago de Chile — Facultad de Ingeniería — Departamento de Ingeniería Industrial

> **Cambios v1.6 → v1.7** (incorporación David 1990, dictamen IP 2026-06-12):
> - Agregado párrafo de motivación histórica al inicio de §3: David (1990, "The Dynamo and the Computer") sobre tecnologías de propósito general — las ganancias no aparecen al insertar la tecnología sobre el sistema antiguo (group drive) sino al rediseñar el sistema alrededor de ella (unit drive). Citada la cautela del propio autor ("computers are not dynamos"): la analogía es motivación, no evidencia.
> - Agregada referencia David (1990) en §7 bajo "Marco histórico (motivación)".
>
> **Cambios v1.5 → v1.6** (incorporación Liu et al., dictamen IP 2026-06-12):
> - Agregada sección §3.7 "Evidencia experimental de reversión y homogeneización al retirar la IA" (Liu et al., 2024, arXiv:2401.06816, preprint): la mejora con ChatGPT revierte a línea base al retirar la herramienta; la homogeneización de contenidos persiste. Citado con alcance declarado: estatus de preprint, dominio de creatividad divergente (no razonamiento técnico), uso de ChatGPT como generador de respuestas (no socrático).
> - Actualizadas tabla §4 (nueva fila) y referencias §7.
> - Corregido pie de página: decía "v1.2 · Mayo 2026" (deriva de versiones detectada en inspección IP).
>
> **Cambios v1.4 → v1.5** (incorporación Moorhouse, Yeo & Wan, 2026-06-05):
> - Agregada sección §3.2 sobre lineamientos institucionales internacionales frente a IA generativa y evaluación, basada en Moorhouse, Yeo & Wan (2023).
> - Reencuadrado el paper como evidencia internacional de necesidad de rediseño evaluativo, no como validación empírica directa del Protocolo IA-Socrático.
> - Actualizadas tabla §4 y referencias §7.
>
> **Cambios v1.3 → v1.4** (incorporación SFL — Ingrid Westhoff Podestá, 2026-05-31):
> - Agregada sección §2.5 "Análisis del discurso y pedagogía de géneros": Lingüística Sistémico-Funcional (Halliday & Matthiessen, 2014) como marco de análisis del discurso; operacionalización de D1-D4 como recursos lingüísticos observables de las metafunciones ideacional e interpersonal; pedagogía de géneros (Rose & Martin, 2012) como marco de enseñanza explícita del diagnóstico técnico como género disciplinar; distinción entre cambio superficial (variación léxica) y cambio estructural (incorporación de recursos lógico-semánticos).
> - Actualizada tabla §4 (mapa de literatura): agregada fila "Análisis del discurso y pedagogía de géneros" con aporte y limitación.
> - Actualizadas referencias §7: agregadas Halliday & Matthiessen (2014) y Rose & Martin (2012).
>
> **Cambios v1.2 → v1.3** (inspección IP 2026-05-30):
> - Eliminadas referencias al "criterio de transferencia de cuatro niveles (procedimental, conceptual, estructural, metacognitivo)" — instrumento fantasma que no existe en Rúbrica, Premisas ni Glosario. Reemplazado por la rúbrica D1-D4 real y Δ_inter como indicador de transferencia.
> - Estudio MIT reencuadrado: citada fuente primaria (arXiv:2506.08872), reemplazado "uso socrático" por "Brain-to-LLM" (esfuerzo propio antes de la herramienta), bajado verbo de "demuestra… forma óptima" a "consistente con / aporta plausibilidad neural a". Palacio relegado a fuente secundaria.
>
> **Cambios v1.1 → v1.2** (Mayo 2026):
> - Incorporación de evidencia neuro-cognitiva sobre descarga cognitiva: estudio MIT Media Lab (2025).
> - Fuente: entrevista de Roberto Palacio (2026) referenciando el estudio.

---

> **Argumento central de posicionamiento:**
> El piloto no es un experimento sobre IA en el aula. Es un experimento sobre cómo rediseñar la experiencia de aprendizaje para que la presencia de la IA no destruya la validez del proceso educativo. Esa distinción es la contribución original.

---

## 1. Propósito de esta revisión

Esta revisión no es exhaustiva: es estratégica. Su objetivo no es cubrir la literatura sobre educación e IA, sino construir el argumento de por qué el piloto es necesario, qué lo diferencia de lo que ya existe y qué vacío específico llena.

La revisión se organiza en cuatro capas: la tradición pedagógica sobre la que se construye el piloto, el problema que esa tradición no puede resolver en el contexto actual, el estado de la cuestión sobre IA en educación, y el gap específico que el piloto aborda.

---

## 2. La tradición pedagógica que sostiene el diseño

### 2.1 Aprendizaje activo y flipped classroom

La evidencia sobre aprendizaje activo es robusta y consistente. Freeman et al. (2014), en un metaanálisis de 225 estudios en STEM, demostraron que los estudiantes en clases activas obtienen mejores resultados en exámenes y tienen tasas de reprobación significativamente menores que en clases magistrales. Prince (2004) sistematizó los mecanismos: el compromiso activo del estudiante —no la tecnología ni el formato— es la variable crítica.

El flipped classroom (Bergmann & Sams, 2012) llevó ese principio a su consecuencia lógica: si el valor del tiempo presencial no está en transmitir información sino en aplicarla, el contenido puede ir fuera del aula. Bishop & Verleger (2013), en la primera revisión sistemática del modelo, confirmaron los beneficios, pero también identificaron su condición crítica: el modelo funciona cuando el proceso cognitivo previo realmente ocurrió.

> **La fractura con la IA generativa:**
> El flipped classroom fue diseñado en un mundo donde la única forma de prepararse para la clase era estudiar. Hoy, la IA puede generar el resumen del video, el esquema del tema y las respuestas anticipadas a las preguntas del docente en menos de un minuto. El modelo asume que el proceso previo fue del estudiante. Con IA disponible, esa suposición ya no es verificable.

### 2.2 Método socrático y cuestionamiento sistemático

La eficacia del cuestionamiento socrático en educación está documentada desde Collins (1988), que describió la tutoría socrática como la forma más efectiva de activar metacognición y revelar las inconsistencias en el razonamiento del estudiante. Paul & Elder (2006) formalizaron el método para el desarrollo del pensamiento crítico en educación superior: el cuestionamiento no entrega respuestas, obliga al estudiante a producirlas.

La pregunta que la literatura no respondía hasta ahora era si un chatbot podía cumplir esa función a escala, sin perder la función de presión cognitiva. Los estudios más recientes (Kasneci et al., 2023; Mollick & Mollick, 2023) sugieren que sí, con condiciones: el chatbot socrático debe estar configurado para preguntar, no para responder, y el estudiante debe tener pensamiento previo sobre el que el chatbot pueda operar.

Esa segunda condición —pensamiento previo como prerequisito del contraste socrático— es la regla institucional del piloto: la IA nunca llega antes que el pensamiento propio.

### 2.3 Evaluación formativa y trayectoria de razonamiento

Black & Wiliam (1998) demostraron en una revisión de más de 250 estudios que la evaluación formativa es la intervención pedagógica con mayor impacto en el aprendizaje, con tamaños de efecto de 0.4 a 0.7 desviaciones estándar. El mecanismo central es el feedback sobre el proceso de razonamiento, no sobre el resultado final.

Hattie & Timperley (2007) refinaron ese hallazgo: el feedback más efectivo opera sobre la tarea y el proceso, no sobre la persona ni sobre el resultado. Un estudiante que recibe retroalimentación sobre cómo construyó su hipótesis aprende más que uno que recibe retroalimentación sobre si la hipótesis era correcta.

El piloto implementa este principio de forma estructural: la evidencia que se recolecta no es la respuesta final, sino la trayectoria de construcción de esa respuesta. La rúbrica de cuatro dimensiones (complejidad causal, especificidad técnica, consciencia epistémica, decisión bajo incertidumbre) es un instrumento de evaluación formativa del proceso, aplicado longitudinalmente.

### 2.4 Transferencia del aprendizaje

Bransford, Brown & Cocking (2000), en la síntesis más citada sobre ciencias del aprendizaje, establecieron que el aprendizaje significativo se demuestra por transferencia: la capacidad de aplicar lo aprendido en situaciones nuevas. Sin transferencia, el aprendizaje puede ser reconocimiento superficial o memorización contextual.

Perkins & Salomon (1992) distinguieron dos tipos de transferencia: cercana (aplicar a situaciones similares) y lejana (aplicar a dominios diferentes). En el piloto, la Clase 5 mide transferencia cercana: mismo dominio hidráulico-tratamiento de agua, diferente sistema industrial, diferente contexto operacional.

La ausencia de andamiaje en la Clase 5 es metodológicamente deliberada: Roschelle (1995) demostró que la transferencia genuina solo es detectable cuando el aprendiz enfrenta el nuevo caso sin los scaffolds que usó durante el aprendizaje. Si hay andamiaje, no se puede distinguir transferencia de reconocimiento asistido.

### 2.5 Análisis del discurso y pedagogía de géneros

La Lingüística Sistémico-Funcional (SFL), desarrollada por Halliday & Matthiessen (2014), proporciona el marco teórico para analizar cómo el lenguaje construye —no solo refleja— el razonamiento. La premisa central es que todo texto realiza simultáneamente tres metafunciones: la **ideacional** (cómo el lenguaje construye la experiencia), la **interpersonal** (cómo el hablante se posiciona frente a lo que dice) y la **textual** (cómo se organiza la información).

En el contexto del piloto, las cuatro dimensiones de la rúbrica (D1-D4) se operacionalizan como recursos lingüísticos observables de estas metafunciones:

- **D1 (Complejidad causal)** se manifiesta en la metafunción ideacional: presencia de nexos causales explícitos ("porque", "debido a", "lo que causa"), nominalizaciones técnicas ("la obstrucción del filtro"), y cadenas de procesos materiales conectados.
- **D2 (Especificidad técnica)** se manifiesta en la metafunción ideacional: participantes con modificación numérica y unidades ("pH de 7.9", "caudal de 72 m³/h"), vocabulario técnico preciso, umbrales de clasificación.
- **D3 (Consciencia epistémica)** se manifiesta en la metafunción interpersonal: operadores modales epistémicos ("probablemente", "podría ser"), marcadores evidenciales ("según los datos", "asumo que"), reconocimiento explícito de lo que no se sabe.
- **D4 (Decisión bajo incertidumbre)** se manifiesta en la metafunción interpersonal: verbos de decisión en primera persona ("recomiendo", "decido"), cláusulas condicionales de riesgo ("si el ORP sigue bajando, entonces..."), actos de habla de comunicación a autoridad.

La pedagogía de géneros, desarrollada por Rose & Martin (2012) en la tradición de la Sydney School, proporciona el marco para enseñar explícitamente la estructura del "diagnóstico técnico argumentado" como género discursivo disciplinar. El ciclo de enseñanza-aprendizaje de Reading to Learn tiene tres fases: deconstrucción (analizar un modelo del género), construcción conjunta (producir con andamiaje) y construcción independiente (producir sin andamiaje). El piloto implementa estas tres fases: deconstrucción en Clase 1 (Fase 3b del Guion Docente), construcción conjunta en Clases 2-4 (chatbot PLAN como andamiaje), y construcción independiente en Clase 5 (chatbot NEUTRO, sin andamiaje).

La distinción entre **cambio superficial** y **cambio estructural** en el razonamiento del estudiante se traduce en términos SFL como:

- **Cambio superficial:** variación léxica sin cambio en los recursos lógico-semánticos. El estudiante sustituye participantes o procesos pero no incorpora nuevos nexos causales, nominalizaciones, marcadores evidenciales ni cláusulas condicionales.
- **Cambio estructural:** incorporación de nuevos recursos de las metafunciones ideacional o interpersonal. El estudiante añade nexos causales, nominalizaciones técnicas, operadores modales epistémicos, marcadores evidenciales o cláusulas condicionales que no estaban presentes en su rastro inicial.

Esta operacionalización lingüística permite que la codificación de D1-D4 sea replicable y no dependa de juicios holísticos subjetivos. Dos codificadores que cuentan nexos causales o identifican marcadores evidenciales llegan al mismo resultado con más frecuencia que dos codificadores que interpretan "calidad del razonamiento" por intuición.

---

## 3. El estado de la cuestión: IA en educación

Antes de revisar la evidencia educativa, un precedente histórico enmarca el problema. David (1990), analizando la paradoja de productividad del computador a la luz de la electrificación industrial, mostró que las tecnologías de propósito general no producen sus ganancias cuando se insertan sobre sistemas diseñados para el régimen anterior: las fábricas que montaron motores eléctricos sobre la transmisión a vapor existente ("group drive") no obtuvieron mejoras medibles; las ganancias aparecieron décadas después, cuando la planta completa se rediseñó alrededor del motor unitario ("unit drive"). Trasladado a educación —con la cautela que el propio David exige: "computers are not dynamos", las analogías históricas no deben tomarse literalmente—, el precedente sugiere que permitir o prohibir la IA generativa sobre tareas y evaluaciones diseñadas para un mundo pre-IA equivale al group drive: cambia la herramienta, no el sistema evaluativo. Este protocolo opera en la lógica del unit drive: no agrega IA a la evaluación tradicional, sino que rediseña la unidad de evaluación —del producto final a la trayectoria de razonamiento— alrededor de la presencia de la IA. La analogía es motivación, no evidencia; la evidencia se revisa a continuación.

### 3.1 Usos institucionales de IA — el debate actual en Chile y América Latina

El debate público sobre IA en educación en Chile en 2025-2026 se desarrolla principalmente en dos frentes: la regulación del uso de IA por parte de los estudiantes (prohibiciones, detectores, políticas de integridad académica) y el uso de IA como herramienta de apoyo institucional para docentes y directivos.

Olguín Olate (2026), en El Desconcierto, ejemplifica la postura más avanzada del segundo frente: propone la IA como aliada para prevenir, orientar y acompañar en contextos de conflicto escolar, citando herramientas de generación de protocolos como Ciudadanía Digital Inteligente del Mineduc. La IA aquí es un asistente del adulto a cargo.

En el mismo mes, La Tercera (Iberti, 2026) publica una caracterización del aula invertida en el contexto de la expansión de la educación online en Chile, mencionando el uso de portafolios digitales y analítica de datos para seguimiento del estudiante, sin abordar el problema específico de la verificación del razonamiento en un entorno con IA disponible.

Ninguno de estos textos formula la pregunta que el piloto responde: ¿cómo rediseñar la experiencia de aprendizaje para que la presencia de la IA no destruya la validez del proceso educativo? El piloto opera en ese espacio no cubierto.

### 3.2 Lineamientos institucionales internacionales frente a IA generativa y evaluación

Moorhouse, Yeo & Wan (2023) revisaron las orientaciones institucionales de universidades de alto ranking frente al uso de herramientas de inteligencia artificial generativa en evaluación. Su estudio muestra que la irrupción de estos sistemas no puede abordarse únicamente desde la lógica del plagio, la detección automática o la prohibición, sino que exige una reconsideración profunda del diseño evaluativo. Los autores identifican que las instituciones de educación superior han debido generar lineamientos en torno a integridad académica, comunicación con los estudiantes y rediseño de tareas evaluativas, reconociendo que la IA generativa altera las condiciones tradicionales bajo las cuales se infiere aprendizaje a partir de un producto final.

Este hallazgo es especialmente relevante para el Protocolo IA-Socrático porque confirma el problema de fondo que motiva esta investigación: en contextos mediados por IA, el entregable final pierde fuerza como única evidencia de competencia. Por ello, la evaluación debe desplazarse hacia la trazabilidad del razonamiento, la justificación de decisiones, la detección de errores, la reflexión metacognitiva y la transferencia del conocimiento a nuevas situaciones.

**Alcance de la evidencia:** Moorhouse, Yeo & Wan (2023) no validan empíricamente el Protocolo IA-Socrático ni sus instrumentos D1-D4. Su aporte es otro: documentan una presión institucional internacional hacia el rediseño evaluativo frente a la IA generativa. Mientras ese estudio evidencia la necesidad institucional, el Protocolo IA-Socrático propone una respuesta metodológica concreta: transformar la interacción con IA en una fuente de evidencia evaluativa mediante rastros iniciales, diálogo socrático, análisis de decisiones, detección de errores y tareas de transferencia.

### 3.3 Chatbots socráticos — evidencia emergente

Kasneci et al. (2023), en una revisión sobre ChatGPT en educación, identificaron el uso de LLMs como tutores socráticos como una de las aplicaciones con mayor potencial. El mecanismo propuesto: el chatbot configurado para preguntar en vez de responder puede activar el mismo tipo de reflexión que un tutor humano, a escala y sin el costo temporal del tutor.

Mollick & Mollick (2023) operacionalizaron esa propuesta con experimentos en entornos universitarios, mostrando que los estudiantes que interactuaron con chatbots socráticos producían respuestas más elaboradas y con mayor evidencia de razonamiento que los que recibían respuestas directas. La condición crítica en sus experimentos: el estudiante debía formular una posición propia antes de la interacción con el chatbot.

Ese resultado empírico es el fundamento experimental de la regla del piloto. La diferencia con los estudios de Mollick & Mollick es que el piloto agrega dos elementos: el rastro visible como captura del pensamiento previo (no solo la posición verbal) y la transferencia final como verificación de que el aprendizaje fue real y no local.

### 3.4 Deuda cognitiva — el concepto que el debate no ha formalizado

La idea de que la externalización cognitiva a herramientas puede debilitar la construcción de estructuras cognitivas duraderas tiene raíces en Sweller (1988) y la teoría de la carga cognitiva: las herramientas que reducen la carga de procesamiento también pueden reducir el aprendizaje si el procesamiento que eliminan era precisamente el que producía la comprensión.

Kirsh & Maglio (1994) distinguieron entre acciones epistémicas (modificar el entorno para simplificar el problema cognitivo) y acciones pragmáticas (acciones orientadas al objetivo final). La IA generativa colapsa esa distinción: permite pasar directamente a las acciones pragmáticas (producir el output esperado) sin las acciones epistémicas (construir la comprensión que normalmente precede al output).

El término 'deuda cognitiva' aplicado específicamente a IA generativa en educación universitaria es de uso emergente en la literatura (Kaput, 2024; Denny et al., 2024). El piloto aporta a este marco teórico no solo un argumento conceptual sino evidencia empírica de cómo detectarla operacionalmente: la brecha entre lo que el estudiante produce y lo que puede defender.

> **La definición operacional de deuda cognitiva que el piloto usa:**
> Deuda cognitiva es la condición en que un estudiante produce un output correcto sin haber construido el proceso cognitivo que normalmente lo genera. La IA generativa la hace posible a escala y con apariencia de competencia. Una universidad que evalúa solo productos finales no la detecta hasta que el egresado enfrenta una situación real que no puede resolver.

### 3.5 Percepción docente internacional: el riesgo que ven pero no saben gestionar

Ed3 (2026), en su estudio *The Emerging Role of Teachers in the Age of AI*, encuestó a 1.147 educadores K-12 en Estados Unidos sobre cómo la IA está cambiando su rol. Los resultados revelan una tensión central: la IA actualmente es aditiva, no transformativa. Se integra en tareas preparatorias y analíticas, pero las responsabilidades relacionales y cognitivamente intensivas permanecen humanas.

Los docentes encuestados identifican como núcleo irreemplazable de su rol al *Cognitive Coach*: quien guía a los estudiantes en el cuestionamiento de información, la evaluación de ideas y la formación de juicios independientes. Esa función es exactamente lo que el chatbot socrático del piloto activa y lo que el rastro inicial protege.

El dato más significativo para el piloto: el escenario "Students will learn fundamentals and core subjects mostly through adaptive digital tools" tiene una probabilidad percibida neta de 42%, pero una deseabilidad neta de -19%, con el 50% de concentración en respuestas indeseables. Es el único escenario ampliamente esperado pero evaluado negativamente por los propios docentes.

**Limitación crítica del reporte para el paper:** El estudio no distingue entre el uso de IA en la preparación para la instrucción versus el uso de IA durante la instrucción. Tampoco pregunta qué le ocurre al razonamiento del estudiante cuando la IA está disponible. El piloto llena exactamente esa brecha con datos desde la perspectiva del proceso cognitivo del estudiante.

### 3.6 Evidencia neuro-cognitiva de la descarga cognitiva y el uso socrático

Un estudio de investigadores del MIT Media Lab, Wellesley College y MassArt (2025) titulado *Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task* aporta la evidencia neurológica exacta para el problema que este piloto aborda. Mediante electroencefalografía (EEG), midieron la actividad cerebral en tres condiciones: escribiendo sin ayuda, usando un buscador tradicional, y usando un LLM.

El hallazgo principal fue la demostración empírica de la descarga cognitiva (cognitive offloading). El grupo que usó el LLM de forma genérica mostró la menor conectividad neuronal, una reducción severa en el compromiso semántico y una desactivación de las ondas cerebrales asociadas a la creatividad (ondas gamma). Además, reportaron menor retención y sentido de autoría sobre sus textos.

**Hallazgo complementario: el grupo Brain-to-LLM.** Un subgrupo de participantes (~10%) utilizó el LLM no como generador de respuestas, sino como interlocutor para evaluar posiciones previamente formuladas — es decir, produjeron esfuerzo cognitivo propio antes de recurrir a la herramienta. Este grupo mostró mayor conectividad neuronal que el grupo sin tecnología (MIT Media Lab et al., 2025, arXiv:2506.08872). El resultado es consistente con la secuencia del piloto (rastro inicial → chatbot crítico) y aporta plausibilidad neural a la hipótesis de que el orden importa: pensar primero, contrastar después. No demuestra que nuestro protocolo sea óptimo; demuestra que el esfuerzo propio antes de la herramienta preserva la actividad cerebral, lo que nuestro diseño explota pedagógicamente.

### 3.7 Evidencia experimental de reversión y homogeneización al retirar la IA

Liu, Zhou, Huang & Li (2024), en un experimento pre-registrado de laboratorio de siete días con seguimiento a los 30 días (n = 61 estudiantes universitarios, con grupo control; 3.302 ideas creativas y 427 soluciones analizadas), examinaron qué ocurre con el desempeño creativo cuando ChatGPT deja de estar disponible. Tres hallazgos son relevantes para esta revisión: (1) el efecto de mejora con ChatGPT fue consistente durante los cinco días de uso; (2) al retirar la herramienta (día 7 y día 30), el desempeño revirtió a la línea base — la mejora no se internalizó; (3) el uso de ChatGPT produjo contenidos crecientemente homogéneos entre participantes, y esa homogeneización persistió incluso cuando la IA ya no estaba disponible.

**Relevancia para el piloto.** Este resultado es consistente con la decisión metodológica central del protocolo: la medida limpia de capacidad retenida no es el desempeño con IA presente, sino lo que el estudiante puede hacer cuando el andamiaje se retira. La Clase 5 (chatbot NEUTRO, sin andamiaje socrático) cumple estructuralmente la misma función que la condición de retiro del día 7 en Liu et al.: verificar qué queda. El hallazgo aporta evidencia experimental de que la mejora observada con IA disponible no informa, por sí sola, aprendizaje duradero.

**Alcance de la evidencia (tres límites declarados).** Primero, el estudio es un preprint (arXiv:2401.06816) sin publicación arbitrada conocida a la fecha de esta revisión; se cita declarando ese estatus. Segundo, su dominio es la creatividad divergente (Alternate Uses Task), no el razonamiento técnico de ingeniería que mide la rúbrica D1-D4; la generalización entre dominios es una hipótesis, no un hecho. Tercero — el límite más importante —, los participantes usaron ChatGPT como generador de respuestas, no en modo socrático: el estudio documenta el riesgo que el protocolo busca contrarrestar (reversión y homogeneización bajo uso directo), pero no demuestra que el uso socrático lo evite. Esa es precisamente la hipótesis que el piloto somete a prueba.

El hallazgo de homogeneización abre además una línea de medición complementaria: la similitud creciente entre producciones de distintos estudiantes es un fenómeno medible con los rastros que el protocolo ya captura. Su eventual incorporación como variable exploratoria se define en el Glosario y el Marco Metodológico, no en esta revisión.

---

## 4. Mapa de la literatura — aporte y limitación de cada corriente

La tabla siguiente sintetiza cómo cada corriente relevante contribuye al diseño del piloto y qué limitación específica el piloto supera.

| Corriente | Aporte al piloto | Limitación que el piloto supera |
|-----------|-----------------|--------------------------------|
| **Flipped classroom** (Bergmann & Sams, 2012; Bishop & Verleger, 2013) | Libera el tiempo presencial para aplicación activa. Redefine al docente como mediador. | Asume que el proceso cognitivo ocurrió fuera del aula, antes de llegar. Con IA disponible, esa suposición colapsa: el estudiante llega con el output de la IA, no con su propio pensamiento. |
| **Aprendizaje activo** (Freeman et al., 2014; Prince, 2004) | Evidencia robusta de que implicar activamente al estudiante mejora resultados frente a la clase magistral. | No diferencia entre activación cognitiva genuina y activación aparente mediada por IA. El producto activo puede ser del modelo, no del estudiante. |
| **Método socrático en educación** (Paul & Elder, 2006; Collins, 1988) | El cuestionamiento sistemático obliga al estudiante a justificar, revisar y defender. Activa metacognición. | En su forma original, el socrático es costoso en tiempo docente y no escala. Los chatbots socráticos ofrecen escala sin perder la función de presión cognitiva. |
| **Evaluación formativa y rastro de aprendizaje** (Black & Wiliam, 1998; Hattie & Timperley, 2007) | Evaluar el proceso —no solo el producto— produce mayor impacto en el aprendizaje que cualquier otra intervención. El feedback específico sobre razonamiento es superior al feedback sobre resultados. | Las evaluaciones formativas convencionales no tienen mecanismo para separar el razonamiento del estudiante del razonamiento de la IA. El rastro visible pre-chatbot es la respuesta técnica a ese problema. |
| **IA en educación — usos institucionales** (UNESCO, 2023; Holmes et al., 2022) | La IA puede personalizar trayectorias, anticipar dificultades, generar retroalimentación más rápida. | Se centra en IA como asistente del sistema educativo, no en cómo rediseñar la experiencia de aprendizaje para que la IA no destruya la evidencia de razonamiento. |
| **Transferencia del aprendizaje** (Bransford et al., 2000; Perkins & Salomon, 1992) | El aprendizaje profundo se demuestra cuando el estudiante aplica lo aprendido a situaciones nuevas sin andamiaje. La transferencia es la prueba más robusta de comprensión genuina. | Raramente medida en entornos universitarios convencionales. El piloto la incorpora como sesión diseñada (Clase 5) con la rúbrica D1-D4 aplicada longitudinalmente (complejidad causal, especificidad técnica, consciencia epistémica, decisión bajo incertidumbre). |
| **Análisis del discurso y pedagogía de géneros** (Halliday & Matthiessen, 2014; Rose & Martin, 2012) | El lenguaje construye —no solo refleja— el razonamiento. Las metafunciones ideacional, interpersonal y textual proporcionan el marco para operacionalizar D1-D4 como recursos lingüísticos observables. La pedagogía de géneros (Reading to Learn) estructura la enseñanza explícita del diagnóstico técnico como género disciplinar. | La literatura sobre IA en educación no ha integrado SFL como marco de análisis del discurso para medir razonamiento técnico. El piloto aporta esta operacionalización lingüística, permitiendo codificación replicable basada en criterios observables (nexos causales, nominalizaciones, marcadores evidenciales, cláusulas condicionales) en lugar de juicios holísticos. |
| **Deuda cognitiva y dependencia tecnológica** (Sweller, 1988; Kirsh & Maglio, 1994; Kaput, 2024) | La externalización de procesos cognitivos a herramientas puede reducir la carga inmediata pero debilita la construcción de estructuras cognitivas duraderas. | El concepto de deuda cognitiva específicamente vinculado a IA generativa en educación universitaria es aún emergente. El piloto aporta evidencia empírica a este marco teórico. |
| **Percepción docente sobre IA — evidencia empírica** (Ed3, 2026; UNESCO, 2023) | Docentes identifican al Cognitive Coach como rol irreemplazable; escenario de aprendizaje digital adaptativo es esperado pero indeseable. | No pregunta qué le ocurre al razonamiento del estudiante cuando la IA está disponible. Toda la encuesta es desde la perspectiva del docente. El piloto llena esa brecha. |
| **Evidencia neuro-cognitiva** (MIT Media Lab et al., 2025, arXiv:2506.08872) | EEG muestra descarga cognitiva con LLM genérico; el subgrupo Brain-to-LLM (esfuerzo propio antes de la herramienta) muestra mayor conectividad neuronal. | Estudio de escritura de ensayos, no de razonamiento técnico en ingeniería. El piloto aporta datos en dominio técnico con medición longitudinal. El resultado es consistente con el diseño del piloto, no una demostración de optimality. |
| **Reversión y homogeneización al retirar la IA** (Liu et al., 2024, arXiv:2401.06816 [preprint]) | Evidencia experimental pre-registrada (7 días + seguimiento a 30, grupo control) de que la mejora con ChatGPT revierte a línea base al retirar la herramienta y de que la homogeneización de contenidos persiste. Fundamenta que la capacidad retenida debe medirse sin IA presente (Clase 5, chatbot NEUTRO). | Dominio de creatividad divergente, no razonamiento técnico; uso de ChatGPT como generador de respuestas, no socrático. El piloto aporta datos en dominio ingenieril y somete a prueba si la secuencia rastro propio → contraste socrático evita la reversión. |

---

## 5. El gap analítico que el piloto llena

La revisión anterior permite identificar cinco preguntas que la literatura existente no responde y que el piloto aborda directamente.

| Lo que la literatura ya sabe | Lo que la literatura aún no responde | Lo que el piloto aporta |
|------------------------------|--------------------------------------|------------------------|
| El aula invertida mejora el aprendizaje activo frente a la clase magistral. | ¿Cómo se verifica que el proceso previo fue del estudiante y no delegado a la IA? | El rastro inicial pre-chatbot, capturado dentro del aula con el docente presente, es el mecanismo de verificación. |
| El feedback sobre el proceso de razonamiento tiene mayor impacto que el feedback sobre el resultado. | ¿Qué instrumentos capturan el proceso de razonamiento de manera que sea distinguible del output de la IA? | La cadena de evidencias del piloto (rastro → contraste socrático → revisión → decisión → transferencia) produce trayectoria trazable del propio estudiante. |
| Los chatbots pueden actuar como tutores socráticos y mejorar el pensamiento crítico. | ¿Qué ocurre con el razonamiento técnico del estudiante cuando el chatbot socrático se combina con un rastro inicial visible y una transferencia posterior? | La hipótesis pedagógica del piloto: el chatbot socrático fortalece el razonamiento en vez de sustituirlo, si y solo si viene después del pensamiento propio. |
| La transferencia es la medida más robusta del aprendizaje profundo. | ¿A qué nivel de transferencia llegan estudiantes universitarios de ingeniería después de cinco sesiones con andamiaje socrático? | Las cuatro dimensiones de la rúbrica (D1-D4: complejidad causal, especificidad técnica, consciencia epistémica, decisión bajo incertidumbre) aplicadas en transferencia cercana (Clase 5, chatbot NEUTRO), más Δ_inter (M1_C5 − M1_C4) como indicador de retención. |
| La IA genera dependencia cognitiva cuando reemplaza procesos que el estudiante debería construir. | ¿Cómo se detecta y mide la deuda cognitiva inducida por IA en el contexto universitario concreto? | Los tres patrones de respuesta adversarial de Clase 4 (apropiación real, colapso por presión, resistencia sin argumento) son un instrumento de detección operacional. |

---

## 6. Posicionamiento del paper en la literatura

El paper se posiciona en la intersección de tres campos:

**Diseño instruccional para entornos con IA disponible**
La literatura sobre flipped classroom y aprendizaje activo asume que el docente puede verificar el proceso previo o que el proceso previo ocurrió. El paper aporta un diseño instruccional que no hace esa suposición: captura el proceso dentro del aula, antes de la intervención tecnológica.

**Chatbots socráticos en educación técnica de ingeniería**
La evidencia existente sobre chatbots socráticos proviene principalmente de contextos de humanidades y ciencias sociales (Mollick & Mollick, 2023). El paper contribuye con evidencia de su efecto en razonamiento técnico en ingeniería, un dominio donde la distinción síntoma/causa y la decisión bajo incertidumbre tienen consecuencias prácticas específicas.

**Medición de deuda cognitiva como evidencia investigativa**
El paper propone y valida empíricamente un instrumento de detección de deuda cognitiva: la rúbrica de cuatro dimensiones aplicada longitudinalmente, con Δ_inter como indicador de transferencia cercana entre C1 y C5. Esa operacionalización, no un criterio paralelo de transferencia, es la contribución metodológica original al campo.

> **Título alternativo para posicionamiento fuerte en el campo:**
> Más allá del flipped classroom: rastro visible, chatbot socrático y transferencia como respuesta a la deuda cognitiva inducida por IA en educación superior de ingeniería

---

## 7. Referencias clave para el paper

Las siguientes referencias son las más directamente relevantes para construir el marco teórico del paper. Se organizan por función argumentativa.

### Marco histórico (motivación)

- David, P. A. (1990). The Dynamo and the Computer: An Historical Perspective on the Modern Productivity Paradox. *American Economic Review, Papers and Proceedings, 80*(2), 355–361. [Analogía histórica de motivación, no evidencia educativa; se cita con la cautela del propio autor.]

### Fundamento del diseño instruccional

- Bergmann, J. & Sams, A. (2012). *Flip your classroom: Reach every student in every class every day.* ISTE.
- Bishop, J. L. & Verleger, M. A. (2013). The flipped classroom: A survey of the research. *ASEE Annual Conference Proceedings.*
- Freeman, S. et al. (2014). Active learning increases student performance in science, engineering, and mathematics. *PNAS, 111*(23), 8410–8415.
- Prince, M. (2004). Does active learning work? A review of the research. *Journal of Engineering Education, 93*(3), 223–231.

### Evaluación formativa y trayectoria de razonamiento

- Black, P. & Wiliam, D. (1998). Assessment and classroom learning. *Assessment in Education, 5*(1), 7–74.
- Hattie, J. & Timperley, H. (2007). The power of feedback. *Review of Educational Research, 77*(1), 81–112.
- Bransford, J. D., Brown, A. L. & Cocking, R. R. (2000). *How people learn: Brain, mind, experience, and school.* National Academy Press.
- Perkins, D. N. & Salomon, G. (1992). Transfer of learning. *International Encyclopedia of Education* (2nd ed.).

### Método socrático y chatbots en educación

- Collins, A. (1988). Cognitive apprenticeship and instructional technology. *Educational Psychology, 68.*
- Paul, R. & Elder, L. (2006). *The art of Socratic questioning.* Foundation for Critical Thinking.
- Kasneci, E. et al. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. *Learning and Individual Differences, 103.*
- Mollick, E. R. & Mollick, L. (2023). Assigning AI: Seven approaches for students, with prompts. *SSRN Working Paper.*

### Análisis del discurso y pedagogía de géneros

- Halliday, M.A.K. & Matthiessen, C.M.I.M. (2014). *Halliday's Introduction to Functional Grammar* (4th ed.). Routledge.
- Rose, D. & Martin, J.R. (2012). *Learning to Write, Reading to Learn: Genre, Knowledge and Pedagogy in the Sydney School.* Equinox.

### 3.4 Deuda cognitiva — el concepto que el debate no ha formalizado

- Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. *Cognitive Science, 12*(2), 257–285.
- Kirsh, D. & Maglio, P. (1994). On distinguishing epistemic from pragmatic action. *Cognitive Science, 18*(4), 513–549.
- Denny, P. et al. (2024). Generative AI for education: Navigating opportunities and risks. *ACM SIGCSE.*

### 3.6 Evidencia neuro-cognitiva de la descarga cognitiva y el uso socrático

- MIT Media Lab, Wellesley College & MassArt (2025). *Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task.* arXiv:2506.08872. [Estudio EEG, tres condiciones experimentales: sin ayuda, buscador, LLM.]
- Palacio, R. (2026). Análisis del estudio MIT Media Lab sobre descarga cognitiva. [Entrevista académica, Colombia. Fuente secundaria; citado para contexto divulgativo, no como evidencia primaria.]

### 3.7 Evidencia experimental de reversión y homogeneización

- Liu, Q., Zhou, Y., Huang, J. & Li, G. (2024). *When ChatGPT is gone: Creativity reverts and homogeneity persists.* arXiv:2401.06816. [Preprint, no arbitrado a junio 2026; experimento pre-registrado de 7 días con seguimiento a 30 días, n = 61, grupo control.]

### Contexto internacional y percepción docente

- Ed3 (2026, marzo). *The Emerging Role of Teachers in the Age of AI: Insights from educators on what is changing, what remains human, and what comes next.* Research Brief #2, Portrait of a Teacher in the Age of AI. ed3global.org. [Encuesta a 1.147 educadores K-12, EE.UU., otoño 2025.]
- Moorhouse, B. L., Yeo, M. A. & Wan, Y. (2023). Generative AI tools and assessment: Guidelines of the world's top-ranking universities. *Computers and Education Open, 5*, 100151. https://doi.org/10.1016/j.caeo.2023.100151
- UNESCO (2023). *Guidance for generative AI in education and research.* UNESCO Publishing.
- UNESCO (2025). Observatorio de Inteligencia Artificial en Educación para América Latina y el Caribe. Inauguración en Santiago.

### Contexto chileno y latinoamericano

- Olguín Olate, J. (2026, 26 de abril). Violencia escolar: La Inteligencia Artificial como herramienta de apoyo. *El Desconcierto.*
- Iberti, C. (2026, 8 de mayo). ¿Qué es el aula invertida? *La Tercera.*

---

*Marco de Revisión de Literatura v1.7 · Paper: Deuda cognitiva en educación técnica · USACH · Junio 2026*