能工智人的传习录

知行合一,以 AI 炼器

记录 AI 实践、技术思考与生活点滴

水彩风格:笔记本电脑终端亮起一行金色AI回复,桌上有笔记本、token珠子、茶杯和打勾的便利贴

Day 1 练习:跑通你的第一段 API 代码

这是「AI 之路进阶升级指南」第一周 Day 1 的配套练习。你需要先读完 Part 1,再回来动手。 今天只做一件事:跑通 Part 1 里的 hello_api.py,在终端看到 AI 回复你一句话。 ...

2026-06-02 · 2 分钟 · Alex Wang
一张看似完美的实验报告被放大镜照出两处设计缺陷:rubric 偏向变量、场景覆盖不足

AI 设计的实验,你得自己审

系列:AI Agent 实验方法论(第三篇) 上一篇:实验设计没毛病,LLM 为什么还是翻车了 TL;DR: 双盲实验 B 赢了 4/4,数据漂亮。但审设计时发现 rubric 有 3/8 维度直接测试被测变量,超过 1/3 上限,差点变成自我验证;另一个验证里一个场景满分、另一个才暴露缺陷,只跑一个就宣布通过的话缺陷就上线了。两个坑都是审设计发现的,不是跑完实验才看见的。 ...

2026-06-01 · 6 分钟 · Alex Wang
水彩风格:聊天气泡化为 token 流,流入桌面上的笔记本和铜钥匙

AI 之路进阶升级指南(一):API 初体验——第一次用代码调用 AI

TL;DR: 这是「AI 之路进阶升级指南」系列的第一篇。整个系列共 4 篇,每篇对应一周练习。本篇带你从聊天窗口走到 API——让程序帮你自动化地调用 AI,为后续的批量处理和自主执行型 AI 打基础。 ...

2026-06-01 · 11 分钟 · Alex Wang
一条精心设计的实验流水线被两个节点的上下文泄漏污染,对比修复后干净的结果

实验设计没毛病,LLM 为什么还是翻车了

系列:AI Agent 实验方法论(第二篇) 上一篇:如何用双盲实验验证 skill 改动的有效性 TL;DR: 双盲实验跑完第一轮,B 赢了 3/4 但没过"幅度筛选",结论是"证据不足"。排查发现 S1-A 的输出被终端颜色代码污染,scorer 在 ANSI 乱码上认认真真打了 8 个维度的分。修复执行上下文后重跑,B 变成 4/4 全胜。翻车的原因不是实验设计,是子 agent 的上下文构造没约束异常行为。 ...

2026-05-31 · 5 分钟 · Alex Wang
水彩风格:一条蜿蜒小路通向山顶的小旗帜,远处是更广阔的山脉和云层

AI 之路初阶升级指南(五):毕业考核与下一步

📖 本文是「AI 之路初阶升级指南」系列的第 5 篇(共 5 篇)——系列导航 + 毕业考核。 系列导航 篇 主题 核心内容 第一篇 理解你手里的工具 LLM 本质(不是搜索引擎)、工作记忆 vs 长期记忆、主流平台与专用工具 第二篇 从模糊提问到精确指令 RBGO 提问框架、Chain-of-Thought 思维链、格式约束 第三篇 把 AI 变成协作伙伴 追问迭代、上下文管理(开新对话/进度总结/分段处理)、角色扮演 第四篇 建立个人体系 Prompt 库、场景-工具映射(国际/中国双方案)、知识管理分层策略 第五篇 毕业考核与下一步 L1 达成清单、L1→L2 双路径预告 ...

2026-05-30 · 3 分钟 · Alex Wang
两个评估面板被磨砂玻璃隔开,背后隐藏着 X/Y 到 A/B 的映射关系

如何用双盲实验验证 skill 改动的有效性

TL;DR: 改了 skill,怎么知道是真的变好了还是自我感觉良好?我跑了一个双盲实验:两个版本、四个场景、独立评审盲打分。评审看到 X=2.44、Y=2.41,说分不出来。揭盲后精简版 4/0 全胜。 ...

2026-05-29 · 5 分钟 · Alex Wang
水彩风格:整齐排列的文件夹和卡片,阳光透过窗户洒进来

我的 Prompt 库长什么样:一个真实模板

建 Prompt 库最大障碍不是工具,是不知道怎么组织。昨天让你整理 5 条,今天展示一个完整的真实模板。 目录结构 这个结构基于 Markdown 文件夹方案,你可以直接复制: prompt-library/ ├── 写作类/ │ ├── 邮件.md │ ├── 文章总结.md │ └── ... ├── 分析类/ │ ├── 数据解读.md │ ├── 案例拆解.md │ └── ... ├── 日常类/ │ ├── 会议纪要.md │ └── ... └── README.md (全局说明) 每条 Prompt 的记录格式: ...

2026-05-28 · 3 分钟 · Alex Wang
水彩风格:一本打开的笔记本,上面写着几条简洁的提示词,背景是淡蓝色的格子

今日实践:整理你的前 5 条 Prompt

今日实践 从你近期用 AI 写代码、写文档、做分析的经历里,挑出 5 条你觉得"确实好用"的 Prompt。按 Part 4 教的模板记录:原始提问 + 效果评价 + 迭代版本。记录在哪里都可以——备忘录、Notion、纯文本文件,先别纠结工具。 ...

2026-05-27 · 2 分钟 · Alex Wang
水彩风格:木工台上整齐摆放的玻璃罐、皮革笔记本和精选工具,一个两层抽屉柜子象征知识管理分区,一切井井有条

AI 之路初阶升级指南(四):建立个人体系

📖 本文是「AI 之路初阶升级指南」系列的第 4 篇(共 5 篇)。 第一篇:理解你手里的工具 · 第二篇:从模糊提问到精确指令 · 第三篇:把 AI 变成协作伙伴 · 第四篇:建立个人体系 · 第五篇:毕业考核与下一步 前三周学了追问、上下文管理、角色扮演……技巧越积越多,问题来了:这些零散的能力怎么统一管理?第四周就干这件事——建 Prompt 库、选对工具、做知识管理,把你学到的东西固化成一套个人体系。 ...

2026-05-26 · 7 分钟 · Alex Wang
一排暗淡的审查维度插槽只有一格亮起,加入新模块后全部亮起——但右边加了数学符号的版本反而变暗

维度实验:30多年前的奇书能搞定审查维度?

系列:用经典理论指导 Agent 实践(第三篇) 第一篇:双轮审查:召回和精确为什么不能兼得 · 第二篇:策略基因:借遗传算法思路精简审查 prompt TL;DR: 两组对照实验。代码审查维度从 8 个加到 11 个,已知问题的发现率从 1/6 升到 6/6。设计审查引入公理化设计维度,发现率同样从 1/6 升到 6/6。但加了数学公式的版本证明维度不是越多越好——计算过程挤掉了审查注意力,发现数掉 35%。做对照实验,用已知问题做参照,才知道哪个维度有效。 ...

2026-05-25 · 8 分钟 · Alex Wang