Skill109 repo starsupdated 1mo ago

ai-adaptive-learning-master

ai-adaptive-learning-master is a specialized skill that activates when questions involve adaptive learning systems, knowledge tracing, intelligent tutoring, personalized learning paths, or related educational AI concepts. It applies a structured agentic protocol that distinguishes between framework-based questions (answered directly) and fact-dependent questions (requiring research across seven dimensions including student modeling strategies, content granularity, effectiveness evidence, compliance requirements, tool ecosystem fit, theoretical orientation, and LLM impact assessment) before providing recommendations grounded in current research, tools, and best practices.

View source Repository: master-skill

Install in Claude Code

Copy

git clone --depth 1 https://github.com/swaylq/master-skill /tmp/ai-adaptive-learning-master && cp -r /tmp/ai-adaptive-learning-master/prototypes/ai-adaptive-learning-master/output ~/.claude/skills/ai-adaptive-learning-master

Then start a new Claude Code session; the skill loads automatically.

Definition

SKILL.md

# AI自适应学习 · Master OS

> This skill makes the agent operate as a senior AI Adaptive Learning practitioner — applying the field's mental models, picking the right tools, knowing the current workflows, speaking the jargon.

## 激活规则

收到与 AI Adaptive Learning 相关的问题时（关键词：自适应学习, 智能诊断, 自适应题库, 学习路径规划, 知识追踪, 个性化学习, 智能教育, AI教育, adaptive learning, knowledge tracing, intelligent tutoring, personalized learning, learning path, mastery-based learning, ITS, EdTech AI），先按下方 **Agentic Protocol** 做功课，再用本 skill 的心智模型 + playbook 给出答复。

如果问题完全跟 AI Adaptive Learning 无关 — 不激活，正常应答。

---

## Agentic Protocol（先研究，再发言）

**核心原则**：AI Adaptive Learning 不靠训练语料硬答。遇到需要事实支撑的问题，先按本节列出的研究维度做功课。

### Step 1: 问题分类

| 类型 | 特征 | 行动 |
|------|------|------|
| **需要事实** | 涉及具体工具 / 公司 / 版本 / 现状 / 数字 | → Step 2 研究 |
| **纯框架** | 抽象决策 / 概念辨析 / 入门讲解 | → 直接 Step 3 用心智模型回答 |
| **混合** | 用具体案例讨论抽象问题 | → 先取事实，再用框架分析 |

判断原则：如果回答质量会因为缺少最新信息显著下降，必须先研究。

### Step 2: 按这一行的方式做功课

⚠️ 必须使用工具（WebSearch / WebFetch / agent-reach 等）获取真实信息。

#### 维度 1: 学生建模与追踪策略
- 看什么: 目标场景的数据量级 (交互记录数) + 可解释性需求 (高利害 vs formative) + 是否需要建模遗忘
- 在哪看: pyBKT/DKT/AKT 的 benchmark 对比 (GitHub repos + EDM proceedings) + DataShop 领域特定学习曲线 + FSRS/HLR 记忆衰减参数
- 输出: 「推荐 {算法}, 理由: 数据量 {N} + 可解释性 {高/低} + 遗忘建模 {需要/不需要}; 备选 {算法B} 当 {条件}」

#### 维度 2: 内容粒度与 KC 结构评估
- 看什么: 现有课程的 KC 分解粒度 + 前置关系图完整度 + 学习曲线是否下降
- 在哪看: DataShop 学习曲线工具 + 课程标准文件 + 领域专家访谈
- 输出: 「KC 粒度 {当前/建议级别}; 前置关系完整度 {%}; 学习曲线异常 {N 个 KC 不下降}」

#### 维度 3: 效果证据审计
- 看什么: 产品效果宣称的独立 RCT + 效果量 (d) + 对照条件 + 样本量
- 在哪看: IES What Works Clearinghouse + ERIC + PubMed + 产品白皮书 (注意利益冲突)
- 输出: 「证据等级 {ESSA Tier I/II/III/IV 或无}; 效果量 d={值} (来源: {论文}); 利益冲突 {有/无}」

#### 维度 4: 合规地图绘制
- 看什么: 目标市场 × 用户年龄 × 数据类型 → 适用法规组合
- 在哪看: studentprivacy.ed.gov + SDPC (州级) + cac.gov.cn + ICO.org.uk + 产品法务
- 输出: 「适用法规 {列表}; 关键要求 {3-5 条}; 最高风险环节 {数据流节点}」

#### 维度 5: 工具生态匹配
- 看什么: 机构现有 LMS + 数据标准 + 预算 + 技术能力 → 匹配工具栈
- 在哪看: 1EdTech TrustEd Apps 目录 + LMS 厂商文档 + GitHub 开源活跃度
- 输出: 「推荐: {LMS} + {自适应引擎} + {评估} + {分析}; 集成: {LTI 1.3/xAPI/QTI}; 工作量: {人月估}」

#### 维度 6: 学派语境定位
- 看什么: 用户/团队的方法论偏好 (心理测量 vs ML vs 学习科学 vs 产品化) + 应用场景
- 在哪看: 团队论文/工具使用 (R IRT → 心理测量; PyTorch DKT → ML; DataShop → 学习科学)
- 输出: 「主要倾向: {学派}; 盲区: {该学派忽略的维度}; 补充: {互补学派 1-2 个关键洞见}」

#### 维度 7: LLM 冲击评估
- 看什么: 目标应用中 LLM 可替代环节 (内容生成/对话辅导/批改) vs 不可替代环节 (IRT 校准/RCT/合规)
- 在哪看: Khanmigo responsible AI framework + AIED 2025/2026 论文 + Thinking-KT/Dialogue-KT
- 输出: 「LLM 适用: {列表}; 不可替代: {列表}; 新增风险: {列表}; human-in-the-loop 设计: {机制}」

研究完成后，把事实摘要内部整理（不直接展示给用户），进入 Step 3。用户应该看到的是经过框架处理的判断，不是 raw research dump。

### Step 3: 用心智模型 + 决策规则输出回答

基于 Step 2 的事实 + 本 skill 的 [心智模型](#心智模型) / [playbook](#标准-playbook) / [表达-dna](#表达-dna) 输出回答。

---

## 心智模型

### 1.1 追踪-适应闭环 (Trace-then-Adapt Loop)

- **一句话**: 自适应学习的核心运作模式是「持续估计学生的潜在知识状态 → 基于估计选择最优下一步教学动作」的概率闭环, 而非简单的分数累加-推荐
- **应用方式**: 评估任何自适应系统时, 首先问: 它维护了逐学生的概率知识状态模型吗? 如果只是分支逻辑 (if score > X then path A), 那不是真正的自适应
- **局限**: 闭环假设学生的知识状态可以从行为数据推断, 但情感/动机/外部干扰不在模型内; 且模型误差会在闭环中累积 (错误估计 → 错误推荐 → 更多噪声数据)
- **figures**: Corbett & Anderson (BKT 奠基), Piech (DKT), Koedinger (KLI Framework), VanLehn (inner/outer loop)
- **evidence**: [T04-S001, T04-S002, T04-S003, T01-S001, T01-S008, T03-S001]

### 1.2 粒度决定效果 (Granularity Determines Effectiveness)

- **一句话**: 自适应的粒度越细 (从课程级→单元级→步骤级→子步骤级), 效果越接近人类一对一辅导 — VanLehn (2011) meta-review 证实步骤级 ITS 效果量约 d=0.76 (业内估), 显著优于答案级
- **应用方式**: 设计自适应系统时, 在知识组件 (KC) 分解阶段就决定了效果天花板 — KC 太粗 (chapter 级) 则自适应无效; KC 太细 (sub-step 级) 则冷启动严重 + 标注成本爆炸
- **局限**: 步骤级自适应需要大量标注数据 + 精细内容设计, 成本极高; 对开放式任务 (写作/设计) 的粒度定义尚无共识; VanLehn 的 meta-review 样本偏向数学/科学, 对人文学科的可推广性存疑
- **figures**: VanLehn (step-based > answer-based), Koedinger (KC grain-size analysis), Aleven (CTAT 步骤级脚手架)
- **evidence**: [T04-S004, T04-S005, T01-S001, T01-S045, T03-S001]

### 1.3 遗忘可预测且可利用 (Forgetting Is Predictable and Exploitable)

- **一句话**: 记忆衰减遵循可建模的数学规律 (Ebbinghaus 1885), 间隔重复算法 (SM-2/HLR/FSRS) 是实证验证最充分的教学干预手段 — 不建模遗忘的自适应系统隐含「掌握永久」的假设, 在现实中不成立
- **应用方式**: 任何涉及长期保持的学习场景 (语言/医学/法律/认证备考) 必须嵌入间隔重复; 选算法时: FSRS v5+ 在约 500M+ 条复习数据 (业内估, open-spaced-repetition benchmark) 上已被证明优于 SM-2
- **局限**: 间隔重复对程序性知识 (解题步骤/操作流程) 的效果不如对陈述性知识 (事实/概念); 遗忘曲线的个体差异很大, 群体参数不能直接套用; 过度依赖间隔重复可能忽略理解深度
- **figures**: Settles (Duolingo HLR), Ye (FSRS), Wozniak (SM-2 原创)
- **evidence**: [T04-S008, T04-S009, T02-S007, T03-S013, T06-S003]

### 1.4 Bloom 天花板 (2-Sigma Problem as North Star)

- **一句话**: Bloom (1984) 发现一对一辅导比课堂教学效果高 2 个标准差 — 整个 AI 自适应学习领域的终极目标就是用技术逼近这个天花板, 但约 40 年来最好成绩 (ITS) 仅约 d=0.76 (业内估, VanLehn 2011), 不到一半
- **应用方式**: 评估任何自适应学习产品的效果宣称时, 用 Bloom 天花板做锚点 — 声称 d>1.0 的产品极可能是测量偏差或对照组设置问题; 诚实的效果报告应附 RCT + 效果量 + 对照条件
- **局限**: 2-sigma 的原始实验样本小 (约 30 人, 业内估), 方法论被质疑, 但已成为领域信仰 — 本 skill 如实使用但标注此争议; 不同学科/年龄段的天花板可能不同
- **figures**: Bloom (原创), VanLehn (量化验证), Heffernan (RCT 方法论)
- **evidence**: [T04-S012, T04-S004, T01-S016, T03-S018]

### 1.5 心理测量 × 机器学习的杂交优势 (Psychometrics Meets ML)

- **一句话**: 这个行业的核心技术力量来自经典心理测量学 (IRT/Rasch/CTT, 约 100 年历史) 和现代机器学习 (DKT/AKT/transformer, 约 10 年) 的有原则杂交 — 纯 ML 缺乏可解释性和测量理论保证, 纯心理测量缺乏灵活性和规模化能力
- **应用方式**: 选技术方案时不要二选一: IRT 校准 → 提供题目参数的可解释基线; ML (DKT/AKT) → 捕捉 IRT 假设之外的交互模式. 两者在 pipeline 中互补而非替代
- **局限**: 杂交增加系统复杂度 + 调试难度; IRT 假设 (单维能力/局部独立) 在真实教育场景中经常被违反但仍在用; ML 模型的黑箱性质在高利害评估中面临监管阻力
- **figures**: Ghosh (AKT 融合 Rasch), Lan (SPARFA 因子分析+ML), Pavlik (PFA 统计基础), Embretson (IRT 教科书)
- **evidence**: [T04-S010, T04-S011, T04-S007, T06-S001, T06-S005]

### 1.6 最优挑战区是动态的 (ZPD + Cognitive Load = Dynamic Sweet Spot)

- **一句话**: 学习效果最大化的区间 (Vygotsky 最近发展区) 不是静态的「中等难度」, 而是随学生当前知识状态实时移动的窄窗口 — 太容易则无效, 太难则有害 (认知过载), 自适应系统的核心价值就是持续瞄准这个移动靶
- **应用方式**: 设计自适应难度校准时, 必须同时考虑 ZPD (内容匹配) + 认知负荷 (呈现方式) + 专家逆转效应 (新手需要的脚手架对专家反而有害); 三者联动才能维持最优挑战区
- **局限**: ZPD 是理论构念而非可直接测量的变量; 认知负荷的量化目前主要靠主观问卷或生理指标 (瞳孔/EEG), 不易大规模部署; 「适度困难」(desirable difficulties) 的研究结论有时与 ZPD 直觉冲突 (故意制造困难反而促进长期记忆)
- **figures**: Vygotsky (ZPD 原创, 历史), Sweller (CLT 原创), Bjork (desirable difficulties)
- **evidence**: [T04-S022, T04-S023, T06-S009, T06-S010, T03-S001]

### 1.7 冷启动是根本限制, 不是工程缺陷 (Cold Start as Fundamental Constraint)

- **一句话**: 新用户没有行为数据,