技术笔记整理

随着 Codex 从“会写代码的聊天框”演变为可管理的开发代理，高效用法的核心已转向构建“看得见、说得清、验得过、沉淀得下”的四步工作流：先通过 Appshots、浏览器标注或 Computer Use 让 Codex 看见现场上下文，再以包含目标、边界和验收标准的任务契约替代模糊提示，然后强制要求测试、lint、typecheck 和 diff 作为交付证据，最后将反复使用的规则和流程沉淀为 AGENTS.md、config.toml 或 Skill。文章详细区分了 Plan mode、Goal mode 的适用场景，给出了普通任务、前端调整、长任务 `/goal` 三套可直接复用的提示词模板，并强调团队不应只看代码行数，而应关注重复排查流程的减少和规则的可复用性。对于已熟悉 Codex 但期望突破玩具感、进入生产环境的后端、前端或全栈开发者，本文提供了从单次对话框到可控协作工作流的完整升级路径。

记忆拼接

微信公众号

2026年4月27日8 分钟

【转载】Harness不是目的，知识才是护城河

这篇转载摘录讨论的是 Harness Engineering 与 Agent 工作流建设中的长期价值判断：Agent、Harness、工作流编排和具体框架都只是驾驭模型的手段，真正可积累的资产是团队在业务交付中形成的领域知识。内容将 Harness Engineering 概括为上下文工程、架构约束和持续治理三支柱，强调通过记忆管理、检索注入、Agent 编排、状态机或 DAG 流程、安全边界、质量门禁等方式，让模型在复杂任务中稳定执行。文章进一步指出，工作流形态、调度模式和模型能力都会快速变化，但领域模型、架构决策、业务规则、已知陷阱和最佳实践不会因工具换代而失效。为避免知识库沦为平台依赖，文中倾向采用 Git + Markdown 管理团队知识，并给出 team-knowledge.git 目录和个人偏好、团队约定、技术知识、业务知识、项目知识五层存储划分。它特别强调知识闭环：工作流启动时消费已有知识，结束后沉淀新经验，同时通过引用追踪、成熟度提升、自动衰减和 Lint 治理防止知识只进不出。适合关注 AI 工程化、Agent 编排、团队知识库建设和软件研发治理的读者，用来重新判断工具投入与知识资产沉淀之间的优先级。

服务器与部署

2026年4月22日28 分钟

网络代理工具与 VPS 入门：线路、协议、测试工具与两种搭建思路

这是一篇面向新手的网络代理工具与 VPS 入门导读，核心不是比较“哪个协议最强”，而是建立从线路质量、入口/出口职责到部署与排障的完整判断框架。文章先解释 VPS、线路机、落地机、家宽机、NAT 机、IDC 机房机和 DNS 解锁等常见概念，强调入口节点负责稳定接入，出口节点负责最终出网，两者不应混为一谈。随后梳理 BGP.Tools、ITDog、Ping.pe 等工具的用途，说明如何从 ASN、ping、tcping、traceroute、MTR、丢包和端口可达性中判断链路状态，而不是只看一次测速截图。选购 VPS 时，文章建议优先评估地区与用途、独立 IPv4、带宽和流量规则、后台重装与控制台能力，并通过一到两周高峰期观察确认是否匹配。协议和工具部分对 sing-box、Shadowsocks 2022、VLESS REALITY、3x-ui 做了边界说明，修正了 REALITY 不等同传统 TLS 证书部署、sing-box Docker 不强制 host 网络、Shadowsocks 起步应优先理解 AEAD 2022 等常见误区。最后给出一跳与两跳结构的演进思路、安全基线、日志备份和最小排障命令，适合需要在授权环境中做远程访问、跨地域链路测试或个人实验室中继转发的开发者与运维学习者。

AI 大模型开发

2026年4月13日20 分钟

LLM 应用评估体系-1

这是一份面向 LLM 应用质量工程的评估体系笔记，核心关注如何把模型输出从上线后的偶发检查，转为可监控、可比较、可归因的持续改进闭环。正文先建立多维指标框架，将准确性、相关性、完整性、格式合规和语气适配按权重拆分，并补充 RAGAS 中 Context Precision、Context Recall、Faithfulness、Answer Relevance 等检索与生成指标的目标值和评估方法。随后围绕提示词优化给出 A/B 测试流程、样本量计算思路、多臂老虎机分流策略，以及 Dev、Canary、Prod 的版本管理方式。评估器部分重点说明 LLM-as-a-Judge 的结构化提示词、与人工标注的一致性校验、常见偏差规避，以及评估延迟、成本、覆盖率等运行监控。文章还覆盖人工标注工作流、Kappa 等一致性指标、分歧处理、数据集版本与训练/验证/测试集划分，并用失败分类和归因模板连接到后续优化。最后以 Langfuse 为例串起 Trace 记录、评分、Annotation Queue、数据集管理、Dashboard 监控和提示词版本对比，适合正在搭建 RAG、智能客服或其他生产级 LLM 应用评估闭环的开发与平台团队参考。

AI 大模型开发

2026年4月13日20 分钟

LangGraph-概览

这是一份面向复杂 AI Agent 设计与面试准备的 LangGraph 导读，核心对象是其状态驱动的有向图工作流模型，以及它相对 LangChain 线性 Chain 在动态分支、并行执行和显式状态管理上的差异。内容围绕 State、Reducer、Node、Edge、Conditional Edge 等关键概念展开，说明 State 如何承担节点通信和多会话隔离，Reducer 如何处理并发写入时的消息追加、列表合并或覆盖策略。文章还梳理了条件路由、thread_id 与 Checkpointer、Fan-out/Fan-in、Early Exit、Fallback 等常见设计模式，用客服 Agent 场景串联商品查询、订单查询、投诉处理、多用户并发和 SLA 保证的系统设计思路。可靠性部分强调 Node 应保持单一职责、幂等、异步优先并具备错误处理，路由函数也应只依赖 State，避免随机数、时间或全局变量造成重试和回放不一致。可观测性则以 Langfuse 为例，覆盖 Trace、Token 成本、延迟、提示词版本和 A/B 测试等运维视角。适合正在从简单 LLM 调用转向可生产化 Agent 编排的后端开发、AI 应用开发者和准备相关系统设计面试的读者。

AI 大模型开发

2026年4月13日36 分钟

Agent Harness 是什么？

Agent Harness 被界定为大模型之外的运行时系统，用来把原本不可控的 LLM 能力纳入可编排、可审计、可上线的 Agent 工程框架中。文章围绕 Agent = Model + Harness 的基本公式，拆解接入、编排、工具、记忆、安全防护、观测评测六层架构，说明长时多轮任务需要稳定的会话容器、受控的 TAO/ReAct 循环、最大迭代次数、错误处理和 fallback，而不是让模型无限自由发挥。工具层强调注册、schema、权限、超时、重试和熔断，建议从 3 到 5 个核心工具起步，避免工具膨胀造成模型选择混乱。记忆层区分短期状态与长期事实，重点不在“存得多”，而在上下文预算、滚动摘要、按需召回和防止记忆污染当前任务。安全部分覆盖 prompt injection、敏感工具拦截、高风险操作确认、沙盒、审计日志，并补充 Skills 执行中的提示词约束、命令白名单、隔离和结果过滤。文章还把 Harness 与 Skills、MCP 的关系放在同一框架下理解：Skills 偏本地工作流，MCP 偏远程能力接入，Harness 负责整体编排；其中 Hermes Agents 部分明确属于基于趋势的推测。适合正在把 Agent 从 Demo 推向企业级应用的 AI 应用开发者、后端工程师和平台工程团队，用来建立可靠性、安全性和可观测性的工程检查清单。

AI 大模型开发

2026年4月13日6 分钟

Skills 在 Shell 环境中的安全执行

这篇笔记聚焦 Skills 挂载到 Shell 环境后的执行安全，核心判断是不能只依赖模型自觉遵守规则，而要由后端对命令生成、执行环境和输出结果形成闭环控制。内容按四层防护展开：先在 SKILL.md 中声明允许读取、创建或修改的范围，并明确禁止删除系统文件、访问敏感目录、执行网络命令等高风险行为；随后通过命令白名单和正则黑名单，在执行前拦截 rm -rf、sudo、chmod 777、写入 /etc 等危险模式。执行阶段建议放入 Docker 沙盒，限制镜像、内存、CPU、超时时间，关闭网络，并将 /data 以只读方式挂载，降低命令越权和资源滥用的影响面。最后一层是结果过滤与审计，记录执行命令和输出长度，同时对 password、token、api_key 等敏感字段脱敏，并截断过长输出，避免把风险从执行环节转移到返回内容。它适合正在把 AI Skills、Agent 工具调用或自动化脚本接入后端的开发者，用来建立一套可落地的最小安全框架。需要注意的是，提示词约束只是第一道软边界，真正的安全性来自白名单校验、隔离运行和输出治理的组合，而不是让模型“更聪明”。

AI 大模型开发

2026年4月13日32 分钟

MCP 开发

这是一篇面向 AI 应用开发者的 MCP 开发入门与实践笔记，围绕 Model Context Protocol 如何把 Claude、IDE、ChatGPT 等 AI 客户端与外部系统标准化连接起来展开。内容先说明 MCP 的分层架构：Host、Client、JSON-RPC 2.0 协议、STDIO 或 HTTP 传输以及 Server 侧能力提供，并将 Tool、Skill、MCP 放在执行方式和适用场景上对比，帮助读者判断何时需要协议化接入而不是单个工具或本地技能。实践部分给出 Python 环境准备、uv 依赖安装、FastMCP 服务器开发示例，包括天气查询、SQLite 数据库查询，以及 STDIO 模式下日志必须写入 stderr、避免破坏 JSON-RPC 消息的注意事项。客户端部分展示了通过 ClientSession、stdio_client 连接服务器、列出工具、结合 Anthropic API 处理 tool_use 循环并回传工具结果的完整流程，同时补充 OpenAI Responses API 中以 mcp 工具类型接入远程服务器、使用 allowed_tools 控制暴露范围的写法。后续章节梳理 Tools、Resources、Prompts 三类核心能力、工具列表变化通知机制，以及开发工具、数据分析、业务自动化和旅行规划等应用场景，适合想从概念、协议结构到最小可运行代码建立 MCP 开发框架的读者。

AI 大模型开发

2026年4月13日16 分钟

AI Skills 开发-1

这篇指南把 AI Skills 定位为挂载在执行环境上的任务知识包，而不是单纯的 shell 工具，核心由 SKILL.md、执行步骤、策略约束和可选辅助脚本组成。正文先区分 Tool、Skill 与 MCP：Tool 是具体能力，Skill 是能力的使用手册和执行 SOP，MCP 则负责把模型连接到外部工具和数据源。文章给出官方目录结构、SKILL.md frontmatter 中 name 与 description 的必需字段，并用 CSV 汇总报告示例展示如何声明触发条件、编排执行步骤和返回结果。随后扩展到 OpenAI Responses API 的多 Skills 配置、Claude Code 中通过 slash commands 暴露预置或自定义 Skills，以及代码格式化 Skill 的目录创建、说明文件和 Python 辅助脚本实现。实践部分强调单一职责、清晰命名、准确 description、脚本可复用，并列出数据处理、文档生成、测试辅助、代码质量检查等模板方向。文章也覆盖常见排查与优化：未触发通常来自描述不清，执行失败可能是依赖缺失，性能问题可通过缓存、异步、增量处理和资源限制缓解，适合正在设计可复用 AI 任务能力包的开发者和 AI 工程实践者。

AI 大模型开发

2026年4月6日11 分钟

[转]LangGraph完整指南

这是一篇围绕 LangGraph 的转载型技术导读，聚焦它如何在 LangChain 生态中承担复杂 Agent 工作流编排角色：LangChain 更像模型、提示词和工具等“零件库”，LangGraph 则通过图结构把这些组件组织成可循环、可分支、可维护的执行流程。正文以图、节点、边、状态四个核心概念展开，说明状态用于在节点间保存对话历史、中间结果和决策记录，节点负责单一计算职责，普通边与条件边决定流程流转，而 StateGraph 则用于定义、连接、编译并运行完整工作流。示例部分给出基于 TypedDict、ChatOpenAI、StateGraph、入口节点和 END 的最小代码骨架，帮助读者理解从状态定义到图编译、调用执行的基本路径。文章还归纳了链式、路由、循环和协作四类常见工作流，分别对应顺序任务、动态分流、迭代优化和多 Agent 分工协作等场景。进阶部分进一步覆盖 checkpointer 持久化、检查点回溯与 Time Travel、人机协作中断恢复、多 Agent 通信协调，以及 stream/astream 支持的流式输出。适合已了解 LangChain 基础、希望把 LLM 调用升级为可控 Agent 系统的 AI 应用开发者，用来建立 LangGraph 的概念框架和工程切入点。