技术笔记整理

技术体系化整理、工程实践与开发笔记。

专题分组

二级专题与三级分类

7 个下级
当前页继续展示这个根分类下的全部文章;上面的二级专题和三级分类用于快速定位更细的主题入口。
Codex 现在该怎么用:从“让 AI 写代码”到“搭一个可验证的开发工作流”
AI 大模型开发
25 分钟

Codex 现在该怎么用:从“让 AI 写代码”到“搭一个可验证的开发工作流”

随着 Codex 从“会写代码的聊天框”演变为可管理的开发代理,高效用法的核心已转向构建“看得见、说得清、验得过、沉淀得下”的四步工作流:先通过 Appshots、浏览器标注或 Computer Use 让 Codex 看见现场上下文,再以包含目标、边界和验收标准的任务契约替代模糊提示,然后强制要求测试、lint、typecheck 和 diff 作为交付证据,最后将反复使用的规则和流程沉淀为 AGENTS.md、config.toml 或 Skill。文章详细区分了 Plan mode、Goal mode 的适用场景,给出了普通任务、前端调整、长任务 `/goal` 三套可直接复用的提示词模板,并强调团队不应只看代码行数,而应关注重复排查流程的减少和规则的可复用性。对于已熟悉 Codex 但期望突破玩具感、进入生产环境的后端、前端或全栈开发者,本文提供了从单次对话框到可控协作工作流的完整升级路径。

记忆拼接
微信公众号
8 分钟

【转载】Harness不是目的,知识才是护城河

这篇转载摘录讨论的是 Harness Engineering 与 Agent 工作流建设中的长期价值判断:Agent、Harness、工作流编排和具体框架都只是驾驭模型的手段,真正可积累的资产是团队在业务交付中形成的领域知识。内容将 Harness Engineering 概括为上下文工程、架构约束和持续治理三支柱,强调通过记忆管理、检索注入、Agent 编排、状态机或 DAG 流程、安全边界、质量门禁等方式,让模型在复杂任务中稳定执行。文章进一步指出,工作流形态、调度模式和模型能力都会快速变化,但领域模型、架构决策、业务规则、已知陷阱和最佳实践不会因工具换代而失效。为避免知识库沦为平台依赖,文中倾向采用 Git + Markdown 管理团队知识,并给出 team-knowledge.git 目录和个人偏好、团队约定、技术知识、业务知识、项目知识五层存储划分。它特别强调知识闭环:工作流启动时消费已有知识,结束后沉淀新经验,同时通过引用追踪、成熟度提升、自动衰减和 Lint 治理防止知识只进不出。适合关注 AI 工程化、Agent 编排、团队知识库建设和软件研发治理的读者,用来重新判断工具投入与知识资产沉淀之间的优先级。

网络代理工具与 VPS 入门:线路、协议、测试工具与两种搭建思路
服务器与部署
28 分钟

网络代理工具与 VPS 入门:线路、协议、测试工具与两种搭建思路

这是一篇面向新手的网络代理工具与 VPS 入门导读,核心不是比较“哪个协议最强”,而是建立从线路质量、入口/出口职责到部署与排障的完整判断框架。文章先解释 VPS、线路机、落地机、家宽机、NAT 机、IDC 机房机和 DNS 解锁等常见概念,强调入口节点负责稳定接入,出口节点负责最终出网,两者不应混为一谈。随后梳理 BGP.Tools、ITDog、Ping.pe 等工具的用途,说明如何从 ASN、ping、tcping、traceroute、MTR、丢包和端口可达性中判断链路状态,而不是只看一次测速截图。选购 VPS 时,文章建议优先评估地区与用途、独立 IPv4、带宽和流量规则、后台重装与控制台能力,并通过一到两周高峰期观察确认是否匹配。协议和工具部分对 sing-box、Shadowsocks 2022、VLESS REALITY、3x-ui 做了边界说明,修正了 REALITY 不等同传统 TLS 证书部署、sing-box Docker 不强制 host 网络、Shadowsocks 起步应优先理解 AEAD 2022 等常见误区。最后给出一跳与两跳结构的演进思路、安全基线、日志备份和最小排障命令,适合需要在授权环境中做远程访问、跨地域链路测试或个人实验室中继转发的开发者与运维学习者。

LLM 应用评估体系-1
AI 大模型开发
20 分钟

LLM 应用评估体系-1

这是一份面向 LLM 应用质量工程的评估体系笔记,核心关注如何把模型输出从上线后的偶发检查,转为可监控、可比较、可归因的持续改进闭环。正文先建立多维指标框架,将准确性、相关性、完整性、格式合规和语气适配按权重拆分,并补充 RAGAS 中 Context Precision、Context Recall、Faithfulness、Answer Relevance 等检索与生成指标的目标值和评估方法。随后围绕提示词优化给出 A/B 测试流程、样本量计算思路、多臂老虎机分流策略,以及 Dev、Canary、Prod 的版本管理方式。评估器部分重点说明 LLM-as-a-Judge 的结构化提示词、与人工标注的一致性校验、常见偏差规避,以及评估延迟、成本、覆盖率等运行监控。文章还覆盖人工标注工作流、Kappa 等一致性指标、分歧处理、数据集版本与训练/验证/测试集划分,并用失败分类和归因模板连接到后续优化。最后以 Langfuse 为例串起 Trace 记录、评分、Annotation Queue、数据集管理、Dashboard 监控和提示词版本对比,适合正在搭建 RAG、智能客服或其他生产级 LLM 应用评估闭环的开发与平台团队参考。

LangGraph-概览
AI 大模型开发
20 分钟

LangGraph-概览

这是一份面向复杂 AI Agent 设计与面试准备的 LangGraph 导读,核心对象是其状态驱动的有向图工作流模型,以及它相对 LangChain 线性 Chain 在动态分支、并行执行和显式状态管理上的差异。内容围绕 State、Reducer、Node、Edge、Conditional Edge 等关键概念展开,说明 State 如何承担节点通信和多会话隔离,Reducer 如何处理并发写入时的消息追加、列表合并或覆盖策略。文章还梳理了条件路由、thread_id 与 Checkpointer、Fan-out/Fan-in、Early Exit、Fallback 等常见设计模式,用客服 Agent 场景串联商品查询、订单查询、投诉处理、多用户并发和 SLA 保证的系统设计思路。可靠性部分强调 Node 应保持单一职责、幂等、异步优先并具备错误处理,路由函数也应只依赖 State,避免随机数、时间或全局变量造成重试和回放不一致。可观测性则以 Langfuse 为例,覆盖 Trace、Token 成本、延迟、提示词版本和 A/B 测试等运维视角。适合正在从简单 LLM 调用转向可生产化 Agent 编排的后端开发、AI 应用开发者和准备相关系统设计面试的读者。

Agent Harness 是什么?
AI 大模型开发
36 分钟

Agent Harness 是什么?

Agent Harness 被界定为大模型之外的运行时系统,用来把原本不可控的 LLM 能力纳入可编排、可审计、可上线的 Agent 工程框架中。文章围绕 Agent = Model + Harness 的基本公式,拆解接入、编排、工具、记忆、安全防护、观测评测六层架构,说明长时多轮任务需要稳定的会话容器、受控的 TAO/ReAct 循环、最大迭代次数、错误处理和 fallback,而不是让模型无限自由发挥。工具层强调注册、schema、权限、超时、重试和熔断,建议从 3 到 5 个核心工具起步,避免工具膨胀造成模型选择混乱。记忆层区分短期状态与长期事实,重点不在“存得多”,而在上下文预算、滚动摘要、按需召回和防止记忆污染当前任务。安全部分覆盖 prompt injection、敏感工具拦截、高风险操作确认、沙盒、审计日志,并补充 Skills 执行中的提示词约束、命令白名单、隔离和结果过滤。文章还把 Harness 与 Skills、MCP 的关系放在同一框架下理解:Skills 偏本地工作流,MCP 偏远程能力接入,Harness 负责整体编排;其中 Hermes Agents 部分明确属于基于趋势的推测。适合正在把 Agent 从 Demo 推向企业级应用的 AI 应用开发者、后端工程师和平台工程团队,用来建立可靠性、安全性和可观测性的工程检查清单。

Skills 在 Shell 环境中的安全执行
AI 大模型开发
6 分钟

Skills 在 Shell 环境中的安全执行

这篇笔记聚焦 Skills 挂载到 Shell 环境后的执行安全,核心判断是不能只依赖模型自觉遵守规则,而要由后端对命令生成、执行环境和输出结果形成闭环控制。内容按四层防护展开:先在 SKILL.md 中声明允许读取、创建或修改的范围,并明确禁止删除系统文件、访问敏感目录、执行网络命令等高风险行为;随后通过命令白名单和正则黑名单,在执行前拦截 rm -rf、sudo、chmod 777、写入 /etc 等危险模式。执行阶段建议放入 Docker 沙盒,限制镜像、内存、CPU、超时时间,关闭网络,并将 /data 以只读方式挂载,降低命令越权和资源滥用的影响面。最后一层是结果过滤与审计,记录执行命令和输出长度,同时对 password、token、api_key 等敏感字段脱敏,并截断过长输出,避免把风险从执行环节转移到返回内容。它适合正在把 AI Skills、Agent 工具调用或自动化脚本接入后端的开发者,用来建立一套可落地的最小安全框架。需要注意的是,提示词约束只是第一道软边界,真正的安全性来自白名单校验、隔离运行和输出治理的组合,而不是让模型“更聪明”。

MCP 开发
AI 大模型开发
32 分钟

MCP 开发

这是一篇面向 AI 应用开发者的 MCP 开发入门与实践笔记,围绕 Model Context Protocol 如何把 Claude、IDE、ChatGPT 等 AI 客户端与外部系统标准化连接起来展开。内容先说明 MCP 的分层架构:Host、Client、JSON-RPC 2.0 协议、STDIO 或 HTTP 传输以及 Server 侧能力提供,并将 Tool、Skill、MCP 放在执行方式和适用场景上对比,帮助读者判断何时需要协议化接入而不是单个工具或本地技能。实践部分给出 Python 环境准备、uv 依赖安装、FastMCP 服务器开发示例,包括天气查询、SQLite 数据库查询,以及 STDIO 模式下日志必须写入 stderr、避免破坏 JSON-RPC 消息的注意事项。客户端部分展示了通过 ClientSession、stdio_client 连接服务器、列出工具、结合 Anthropic API 处理 tool_use 循环并回传工具结果的完整流程,同时补充 OpenAI Responses API 中以 mcp 工具类型接入远程服务器、使用 allowed_tools 控制暴露范围的写法。后续章节梳理 Tools、Resources、Prompts 三类核心能力、工具列表变化通知机制,以及开发工具、数据分析、业务自动化和旅行规划等应用场景,适合想从概念、协议结构到最小可运行代码建立 MCP 开发框架的读者。

AI Skills 开发-1
AI 大模型开发
16 分钟

AI Skills 开发-1

这篇指南把 AI Skills 定位为挂载在执行环境上的任务知识包,而不是单纯的 shell 工具,核心由 SKILL.md、执行步骤、策略约束和可选辅助脚本组成。正文先区分 Tool、Skill 与 MCP:Tool 是具体能力,Skill 是能力的使用手册和执行 SOP,MCP 则负责把模型连接到外部工具和数据源。文章给出官方目录结构、SKILL.md frontmatter 中 name 与 description 的必需字段,并用 CSV 汇总报告示例展示如何声明触发条件、编排执行步骤和返回结果。随后扩展到 OpenAI Responses API 的多 Skills 配置、Claude Code 中通过 slash commands 暴露预置或自定义 Skills,以及代码格式化 Skill 的目录创建、说明文件和 Python 辅助脚本实现。实践部分强调单一职责、清晰命名、准确 description、脚本可复用,并列出数据处理、文档生成、测试辅助、代码质量检查等模板方向。文章也覆盖常见排查与优化:未触发通常来自描述不清,执行失败可能是依赖缺失,性能问题可通过缓存、异步、增量处理和资源限制缓解,适合正在设计可复用 AI 任务能力包的开发者和 AI 工程实践者。

[转]LangGraph完整指南
AI 大模型开发
11 分钟

[转]LangGraph完整指南

这是一篇围绕 LangGraph 的转载型技术导读,聚焦它如何在 LangChain 生态中承担复杂 Agent 工作流编排角色:LangChain 更像模型、提示词和工具等“零件库”,LangGraph 则通过图结构把这些组件组织成可循环、可分支、可维护的执行流程。正文以图、节点、边、状态四个核心概念展开,说明状态用于在节点间保存对话历史、中间结果和决策记录,节点负责单一计算职责,普通边与条件边决定流程流转,而 StateGraph 则用于定义、连接、编译并运行完整工作流。示例部分给出基于 TypedDict、ChatOpenAI、StateGraph、入口节点和 END 的最小代码骨架,帮助读者理解从状态定义到图编译、调用执行的基本路径。文章还归纳了链式、路由、循环和协作四类常见工作流,分别对应顺序任务、动态分流、迭代优化和多 Agent 分工协作等场景。进阶部分进一步覆盖 checkpointer 持久化、检查点回溯与 Time Travel、人机协作中断恢复、多 Agent 通信协调,以及 stream/astream 支持的流式输出。适合已了解 LangChain 基础、希望把 LLM 调用升级为可控 Agent 系统的 AI 应用开发者,用来建立 LangGraph 的概念框架和工程切入点。