知行合一,以 AI 炼器
记录 AI 实践、技术思考与生活点滴
知行合一,以 AI 炼器
记录 AI 实践、技术思考与生活点滴

这是「AI 之路进阶升级指南」第一周 Day 1 的配套练习。你需要先读完 Part 1,再回来动手。 今天只做一件事:跑通 Part 1 里的 hello_api.py,在终端看到 AI 回复你一句话。 ...

系列:AI Agent 实验方法论(第三篇) 上一篇:实验设计没毛病,LLM 为什么还是翻车了 TL;DR: 双盲实验 B 赢了 4/4,数据漂亮。但审设计时发现 rubric 有 3/8 维度直接测试被测变量,超过 1/3 上限,差点变成自我验证;另一个验证里一个场景满分、另一个才暴露缺陷,只跑一个就宣布通过的话缺陷就上线了。两个坑都是审设计发现的,不是跑完实验才看见的。 ...

TL;DR: 这是「AI 之路进阶升级指南」系列的第一篇。整个系列共 4 篇,每篇对应一周练习。本篇带你从聊天窗口走到 API——让程序帮你自动化地调用 AI,为后续的批量处理和自主执行型 AI 打基础。 ...

系列:AI Agent 实验方法论(第二篇) 上一篇:如何用双盲实验验证 skill 改动的有效性 TL;DR: 双盲实验跑完第一轮,B 赢了 3/4 但没过"幅度筛选",结论是"证据不足"。排查发现 S1-A 的输出被终端颜色代码污染,scorer 在 ANSI 乱码上认认真真打了 8 个维度的分。修复执行上下文后重跑,B 变成 4/4 全胜。翻车的原因不是实验设计,是子 agent 的上下文构造没约束异常行为。 ...

📖 本文是「AI 之路初阶升级指南」系列的第 5 篇(共 5 篇)——系列导航 + 毕业考核。 系列导航 篇 主题 核心内容 第一篇 理解你手里的工具 LLM 本质(不是搜索引擎)、工作记忆 vs 长期记忆、主流平台与专用工具 第二篇 从模糊提问到精确指令 RBGO 提问框架、Chain-of-Thought 思维链、格式约束 第三篇 把 AI 变成协作伙伴 追问迭代、上下文管理(开新对话/进度总结/分段处理)、角色扮演 第四篇 建立个人体系 Prompt 库、场景-工具映射(国际/中国双方案)、知识管理分层策略 第五篇 毕业考核与下一步 L1 达成清单、L1→L2 双路径预告 ...

TL;DR: 改了 skill,怎么知道是真的变好了还是自我感觉良好?我跑了一个双盲实验:两个版本、四个场景、独立评审盲打分。评审看到 X=2.44、Y=2.41,说分不出来。揭盲后精简版 4/0 全胜。 ...

建 Prompt 库最大障碍不是工具,是不知道怎么组织。昨天让你整理 5 条,今天展示一个完整的真实模板。 目录结构 这个结构基于 Markdown 文件夹方案,你可以直接复制: prompt-library/ ├── 写作类/ │ ├── 邮件.md │ ├── 文章总结.md │ └── ... ├── 分析类/ │ ├── 数据解读.md │ ├── 案例拆解.md │ └── ... ├── 日常类/ │ ├── 会议纪要.md │ └── ... └── README.md (全局说明) 每条 Prompt 的记录格式: ...

今日实践 从你近期用 AI 写代码、写文档、做分析的经历里,挑出 5 条你觉得"确实好用"的 Prompt。按 Part 4 教的模板记录:原始提问 + 效果评价 + 迭代版本。记录在哪里都可以——备忘录、Notion、纯文本文件,先别纠结工具。 ...

📖 本文是「AI 之路初阶升级指南」系列的第 4 篇(共 5 篇)。 第一篇:理解你手里的工具 · 第二篇:从模糊提问到精确指令 · 第三篇:把 AI 变成协作伙伴 · 第四篇:建立个人体系 · 第五篇:毕业考核与下一步 前三周学了追问、上下文管理、角色扮演……技巧越积越多,问题来了:这些零散的能力怎么统一管理?第四周就干这件事——建 Prompt 库、选对工具、做知识管理,把你学到的东西固化成一套个人体系。 ...

系列:用经典理论指导 Agent 实践(第三篇) 第一篇:双轮审查:召回和精确为什么不能兼得 · 第二篇:策略基因:借遗传算法思路精简审查 prompt TL;DR: 两组对照实验。代码审查维度从 8 个加到 11 个,已知问题的发现率从 1/6 升到 6/6。设计审查引入公理化设计维度,发现率同样从 1/6 升到 6/6。但加了数学公式的版本证明维度不是越多越好——计算过程挤掉了审查注意力,发现数掉 35%。做对照实验,用已知问题做参照,才知道哪个维度有效。 ...