Hojas de reunión — Nicole Abricot Marchant

Material de apoyo para reunión académica · 3 hojas imprimibles · Junio 2026
Material de uso interno del IP. Esta página está marcada noindex, nofollow: no aparece en buscadores. Solo el IP la revisa antes de la reunión. Si la compartes con la persona objetivo (Nicole Abricot), hazlo mediante enlace directo, no mediante difusión pública.
Origen: instrumentos/doc_pro_Hojas_Reunion_Nicole_v1.0.md (fuente normativa). Esta página es derivada — el .md manda.

↓ Descargar PDF (3 páginas, LaTeX académico)


Hoja 1 — El problema: deuda cognitiva inducida por IA

La pregunta que mueve el proyecto

Si la IA generativa puede producir respuestas correctas sin razonamiento visible, ¿qué pasa con la evaluación que solo mira el producto final?

Por qué falla la evaluación actual

La evaluación universitaria estándar mide producto: examen, informe, control. La suposición implícita es que existe una relación razonablemente estable entre proceso cognitivo y producto entregado. Esa suposición era defendible cuando producir el producto requería tiempo, errores intermedios y articulación visible del razonamiento.

Qué cambia con IA generativa (2022–2026)

La suposición se rompe. Un estudiante puede obtener un producto final correcto sin ejercitar el proceso que lo haría defendible en contextos profesionales nuevos. El producto dejó de ser evidencia suficiente de razonamiento. Esto es lo que llamo deuda cognitiva inducida por IA: la diferencia entre el producto que la IA puede producir y el razonamiento que el estudiante efectivamente ejerció.

Qué intenta recuperar el diseño

El proyecto no busca prohibir la IA. Busca rediseñar la evaluación para capturar proceso, trayectoria, criterio y transferencia — dimensiones del razonamiento que el producto final no exhibe. El centro del proyecto no es el chatbot. Es la validez de la evidencia de aprendizaje en una época donde la IA puede producir respuestas sin razonamiento visible.

Hipótesis de trabajo

Una intervención pedagógica estructurada en cinco sesiones, basada en rastro inicial sin IA, mediación socrática controlada, evaluación crítica de errores deliberados y transferencia autónoma a un caso nuevo, produce señales observables de razonamiento técnico (medidas con una rúbrica 4D×4N con criterios lingüísticos) que la evaluación tradicional de producto final no captura.

Lo que el proyecto NO afirma

Una frase para abrir la conversación

"La respuesta correcta ya no basta como evidencia de aprendizaje. Si dos estudiantes pueden entregar el mismo texto — uno razonó y otro delegó — la evaluación que mira solo el texto no distingue."

Hoja 2 — El protocolo: cinco sesiones, cuatro momentos, dos transferencias

Arquitectura general

C1C2C3C4C5
Función Línea base Diagnóstico con hipótesis competidoras Datos SCADA ambiguos Automatización bajo presión Transferencia
Caso Piscina — filtro Piscina — cloro Piscina — SCADA Piscina — autonomía 38h Torre de enfriamiento (caso nuevo)
Modo chatbot PLAN (socrático) PLAN + BUILD PLAN + BUILD PLAN + BUILD NEUTRO (sin andamiaje)
Foco ¿Identifica síntomas o mecanismos? ¿Discrimina hipótesis competidoras? ¿Distingue correlación de causalidad? ¿Integra restricciones múltiples? ¿Reproduce la estructura sin guía?
Momento clave M1 → M4 intra M1 → M4 intra M1 → M4 intra M1 → M4 intra Comparación C1↔C5
Tiempo total 80 min 80 min 80 min 80 min 80 min

Los cuatro momentos (M1–M4)

MomentoQué esCuándoInstrumento de codificación
M1 Rastro inicial sin IA. El estudiante escribe a mano, sube foto. Antes del chatbot AI Vision → JSON. Texto plano a PostgreSQL.
M2 Interacción con chatbot PLAN (socrático, no genera). Durante la clase Log de chat a PostgreSQL.
M3 Interacción con chatbot BUILD (genera con errores deliberados, los defiende). Durante la clase Log de chat a PostgreSQL.
M4 Decisión final del estudiante, con riesgo explícito. Cierre de la clase Texto del estudiante, foto o chat.
Nota C1: M3 no existe en C1. La línea base mide solo intra-sesión sin error deliberado (Premisa DD_21).
Nota C5: M2 y M3 existen pero con chatbot NEUTRO — no socrático. La conversación es un insumo, no un andamiaje.

Las dos transferencias

TipoDefiniciónCómo se mide
Transferencia longitudinal (Δ_inter) Capacidad de reproducir la estructura del género entre clases consecutivas, con todo el andamiaje. M1_(N) − M1_(N−1) por dimensión. Si es 0 en dos sesiones consecutivas, alerta de estancamiento (Glosario v1.8).
Transferencia cercana (C1↔C5) Capacidad de aplicar la estructura a un dominio nuevo (piscina → torre) sin andamiaje. Comparación C5 vs C1 con chatbot NEUTRO. Si reproduce la estructura, internalizó. Si no, dependía del andamiaje.
Referencia teórica de "transferencia cercana": Perkins & Salomon (1992); Bransford et al. (2000). El aprendizaje profundo se demuestra cuando el estudiante aplica lo aprendido a situaciones nuevas sin andamiaje.

Las tres métricas

MétricaFórmulaLectura
Δ_intra M4 − M1 (por dimensión, dentro de una clase) Ganancia atribuible al chatbot en la sesión.
Δ_inter M1_N − M1_(N−1) (entre clases consecutivas) Trayectoria longitudinal. Sin chatbot.
Transferencia cercana Comparación C5 vs C1 (mismo género, dominio distinto) Internalización. Variable de respuesta principal.

Lo que el alumno NO sabe (DD_28)

Si lo supiera, dejaría de razonar y empezaría a evaluar al chatbot. El debriefing con consentimiento viene después del piloto, no durante.

La arquitectura técnica (sin entrar en vendor)

CapaImplementaciónLo que se controla
Frontend estudiante Interfaz web (chat + subida de foto) Captura M1, M2, M3, M4
Frontend profesor 7 controles (selector de clase, dashboard en vivo, chat bajo demanda, pausa, BUILD, cierre, fin de sesión) Modo de operación
Backend Orquestador de IA con dos agentes diferenciados (profesor, alumno) Modes, prompts, persistencia
LLM Intercambiable System prompt controla modos, no el modelo
Premisa P1: una sola IA. El chatbot es del proyecto. No es GPT, no es Gemini, no es Claude externo. El system prompt controla modos. El LLM es intercambiable; el diseño no.

Hoja 3 — La rúbrica: cuatro dimensiones, criterios lingüísticos, ejemplo Juan

Las cuatro dimensiones

Dim.NombrePregunta centralMetafunción SFL
D1 Complejidad causal ¿El estudiante identifica síntomas o mecanismos? Ideacional
D2 Especificidad técnica ¿Usa variables medibles o generalidades? Ideacional
D3 Consciencia epistémica ¿Sabe qué sabe, qué no sabe, qué evidencia necesita? Interpersonal
D4 Decisión bajo incertidumbre ¿Toma una decisión defendible con riesgo explícito? Interpersonal

La rejilla 4D × 4N (versión comprimida)

N1 — Descriptivo N2 — Simple N3 — Múltiple N4 — Contingente
D1 Causal Procesos relacionales, sin nexos ≥1 nexo causal simple ≥2 nexos + ≥1 nominalización ≥2 tipos lógico-semánticos (causal + elaboración/extensión)
D2 Específico Participantes sin modificación numérica ≥1 variable con valor, sin unidades ≥1 valor con unidad técnica ≥2 variables con unidades + umbrales
D3 Epistémico 0 modales, 0 evidenciales, 0 condicionales ≥1 modal epistémico sin fuente ≥1 evidencial + ≥1 declaración de vacío ≥1 condicional epistémico + evaluación de límites del propio análisis
D4 Decisión 0 verbos de decisión 1ª persona ≥1 verbo decisión 1ª persona, sin condicional Verbo decisión + ≥1 condicional con consecuencia Verbo decisión + condicional + criterio de escalamiento + referencia a autoridad
Operacionalización completa: Rúbrica Longitudinal v1.4, §2 y Anexo A. Criterios de codificación fundamentados en Halliday & Matthiessen (2014) y Rose & Martin (2012).

Ejemplo: Juan, M1 C1 (línea base)

Texto del estudiante (literal):

"El agua se ve turbia y el olor es raro. El operador dice que es el filtro. Hay que cambiarlo y listo."
DNivelJustificación (criterio lingüístico)
D1 N1 0 nexos causales explícitos. "Se ve" y "es" son procesos relacionales, no lógico-semánticos. No hay "porque", "lo que causa", "debido a".
D2 N1 "Turbia" y "raro" son adjetivos evaluativos, sin variable técnica, sin unidad, sin umbral. No menciona caudal, NTU, pH.
D3 N1 0 modales epistémicos, 0 marcadores evidenciales, 0 cláusulas condicionales. Atribución total al operador ("el operador dice") sin evaluación propia.
D4 N1 0 verbos de decisión en 1ª persona. "Hay que cambiarlo" es impersonal. El decisor es "uno", no "yo". Evasión deóntica.
Resultado M1 C1: (1, 1, 1, 1). Línea base baja. El estudiante no razonó — describió y delegó.

Ejemplo: Juan, M4 C4 (cierre con presión)

Texto del estudiante (literal):

"Yo recomendaría que el protocolo incluyera un chequeo cada 4 horas, no solo cuando la bomba falle. Si ORP no se normaliza en 2 horas, llamar a un técnico de turno. Si no, el riesgo es una sanción SEREMI. Y la responsabilidad sería del administrador si no documenta."
DNivelJustificación (criterio lingüístico)
D1 N3 3 condicionales causales encadenados ("Si el guardia no entiende, la responsabilidad es…", "Si ORP no se normaliza en 2h, llamar…", "Si no, el riesgo es una sanción…"). ≥2 nexos.
D2 N3 Variables con valores: "cada 4 horas", "ORP", "2 horas". Unidades temporales explícitas. Sin embargo, faltan umbrales numéricos de ORP (lo baja a N3, no a N4).
D3 N3 "Recomendaría" (modal epistémico + decisión) + condicional de consecuencia ("Si no, sanción"). Hay consciencia del riesgo, sin evidencial explícito.
D4 N4 "Recomendaría" (verbo decisión 1ª persona) + condicional con consecuencia negativa + criterio de escalamiento ("técnico de turno", "SEREMI") + referencia a autoridad externa ("administrador").
Resultado M4 C4: (3, 3, 3, 4). Δ_intra C4 = (3−1, 3−1, 3−1, 4−1) = +9 puntos (sobre un máximo posible de 12). Desplazamiento cognitivo alto.

Por qué los criterios son lingüísticos, no intuitivos

La rejilla no pregunta "¿el razonamiento es bueno?". Pregunta: ¿cuántos nexos causales explícitos encadenó el estudiante? ¿Cuántas nominalizaciones usó como participantes de procesos? ¿Cuántos marcadores evidenciales? ¿Cuántos verbos de decisión en primera persona con condicional?

Dos codificadores que cuentan nexos causales llegan al mismo número con más frecuencia que dos codificadores que interpretan "calidad del razonamiento" por intuición. La codificación es replicable, no subjetiva. La validez de contenido viene de SFL (Halliday, Rose & Martin); la confiabilidad inter-codificador se mide con κ ponderado ≥ 0.80 (Landis & Koch 1977; Cohen 1960).

Cinco huecos que ella puede ayudar a llenar

  1. Validez de contenido por panel de expertos disciplinares sin que impongan intuición sobre la rejilla lingüística.
  2. Validez de estructura interna con n ≈ 20 — qué diseño es honesto sin sobredimensionar.
  3. DD_38 — AI Vision como insumo de M1, no como variable de medición. Cómo evitar que la personalización rompa la estandarización.
  4. κ ponderado cuadrático vs. lineal — el costo de tratar N1↔N4 igual que N2↔N3.
  5. Construct map integrado vs. dimensiones separables — ¿BAS-style o rejilla independiente?