使用 Instruments 调试和分析智能体 App 体验

探索 Xcode 中增强的 Foundation Models Instrument，以便检查相关行为表现，并优化智能体流程的性能。了解如何在涉及多个 LanguageModelSession 和配置的高级用例中，检查提示词、分析延迟并追踪控制流。

章节

0:00 - Introduction
1:57 - LLM app development mindset
3:59 - Inspect and diagnose an agentic experience
5:02 - Recording a trace with Instruments
6:04 - Navigating the Instruments UI
12:07 - Performance metrics
13:04 - Next steps

资源

相关视频

WWDC26

你好我是Erik 一名AI工具工程师在本节中我将向你展示如何使用Instruments调试并开发基于 Foundation Models框架构建的功能

Foundation Models API 让你的App直接访问设备端和基于服务器的生成式AI 借助这些API 你可以构建能够理解自然语言的功能生成内容并响应用户正在进行的操作

能带来最佳体验的功能并非一成不变它们会根据上下文进行自适应调整这正是Foundation Models API 的设计初衷 DynamicInstructions允许你精确指定模型可以访问哪些指令和工具它会在每次请求前重新评估确保模型始终拥有当前任务所需的正确上下文这种灵活性正是这些功能响应迅速的原因也使它们的调试更具挑战性使用大型语言模型即LLM进行构建与传统开发方式不同传统代码具有可预测性 LLM是非确定性的—— 相同的输入可以产生不同的输出当功能丢失上下文或响应过慢时追溯问题根源并不直接好的工具能带来显著差异完成本节内容后你将学会如何使用 Instruments来识别并解决这些问题从而自信地发布快速、可靠的体验首先我们将比较传统与LLM App 开发的概念让我们建立正确的思维框架然后我们将使用Instruments 检查并调试一个智能体体验这是我在Craft App中正在开发的功能在开始之前我们建议你查看 "Foundation Models框架的新功能" 以及"使用Foundation Models框架构建智能体App体验" 以深入了解最新功能使用LLM构建App 会带来三个挑战这些挑战在传统软件开发中并不存在

第一个是概率性输出给传统函数相同的输入两次你会得到相同的输出 LLM的工作方式并非如此相同的提示可以产生两种完全不同的响应这意味着标准的单元测试方式会失效你无法断言输出与硬编码字符串匹配你必须评估响应的质量和意图第二个是模型间通信强大的功能通常依赖多个模型协同工作例如在一个食谱App中一个模型可能识别照片中的食材而第二个模型则根据该结果生成食谱使数据在这些模型之间可靠流转并在出现问题时优雅地恢复这才是真正复杂性所在第三个是可观测性当多模型管道出现问题时很难确定问题出在哪里你需要了解每个步骤的详情：模型收到了什么它做了什么决定以及原因这正是本节的主题从核心来说一个LLM应用做三件事：用户发送提示模型对其进行推理用户收到响应简单、快速适用于许多功能（摘要工具写作助手问答界面）正是你所需要的许多实用功能需要的不仅仅是文本生成有时模型需要它没有的信息：当前时间数据库记录或搜索结果这正是工具调用的用武之地循环的工作方式如下：用户发送提示模型对其推理并调用工具工具执行操作模型获取结果并生成最终响应这可以再次触发循环每个额外步骤都会增加延迟每个步骤都是新的故障点理解这个循环是理解一切的基础 Foundation Models Instrument向你展示的内容现在我已经介绍了 LLM App开发所需的思维方式我将使用Instruments调试并检查头脑风暴功能这是我为Craft App开发的功能我正在开发一个手工创作伴侣App 你可以在其中记录手工项目的日志

该App可以记录手工进度提问关于特定手工的问题并生成教程最近我有了一个交互式头脑风暴功能的想法为用户提供手工创作的建议用户可以与模型对话来精炼其想法当他们准备好确定方向时 App会为该手工生成详细教程此功能使用两组指令：一组用于头脑风暴想法另一组用于教程生成头脑风暴指令包含两个工具： GenerateCraftIdeaTool 和SwitchToTutorialModeTool 两组指令都使用 Private Cloud Compute上的服务器模型一个用于快速想法生成另一个用于生成更详细的教程让我们通过Instruments 来实际操作一下

项目已经在Xcode中打开开始性能分析我将打开 Product菜单并选择Profile Xcode将在本地构建App 在模板选择器中我将选择Foundation Models模板并点击Record 此Instrument会捕获来自设备的提示和响应数据其中可能包含敏感信息日志记录在生产环境中关闭但在跟踪期间会开启请将跟踪文件保存在安全的地方选择"Record Anyway"以开始

App已启动让我们来试一试我们一打开这里模型就建议了几个项目创意：毛线绒球布艺小袋和纸蝴蝶纸蝴蝶听起来很有趣—— 就选这个吧

嗯这不对模型本应开始一个教程但它却提供了更多创意有些地方不对劲让我们结束录制并深入研究跟踪数据找出发生了什么 Instruments一次展示很多内容让我们一起逐步了解顶部区域是轨道轨道在时间轴上显示活动每个轨道可以包含多个通道包含显示级别或区域的图表时间轴下方是详细视图它显示当前正在检查的范围的摘要信息

如果你点击时间轴中的条形或详细视图中的行检查器会在右侧打开让你更详细地查看所选内容

Foundation Models Instrument 在时间轴中有6个通道这些通道让你快速了解会话结构和延迟在时间轴旁边有一个树形详细视图在那里你可以真正深入了解模型的推理链

Instructions通道显示给定一组指令和工具活跃的时间一组指令可以覆盖多个请求查看此通道很明显整个会话期间只有一组指令处于活跃状态但该功能本应使用两组指令说明切换过程中出现了问题

Model Inference通道有两种类型的条形：黄色和橙色黄色条形表示系统花费的时间用于处理输入提示橙色条形表示生成响应所花费的时间

时间轴给你一个快速概览但真正的强大之处在于树形视图它获取这次录制期间记录的所有内容并将其整理成层级结构：会话、请求、模型推理、指令、提示和响应让我们用它来追踪为何指令集从未改变

会话1有两个请求第一个请求由以下提示触发 "请生成3个手工创意"

该请求由两次模型推理和几次工具调用组成每次模型推理都应该有指令提示以及响应或错误点击树中的任意节点可在检查器中查看它

模型推理详情显示了指令摘要构成此次调用的提示和响应

向下滚动可以找到时长可视化和Token用量指标我们稍后会回到这些当我们谈到针对可靠性和性能进行优化时

回到这个失败问题时间轴已经告诉我们指令集从未改变在这个模型推理节点的检查器中我可以看到绑定到这些指令的提示让我们选择Instructions节点来查看它们的设置方式

检查器显示此指令只关联了一个工具提示引用了 switchToTutorialMode工具

但该工具实际上并未在此指令中配置

没有它 App无法从头脑风暴模式切换到教程模式导致用户陷入循环

查看树中的后续节点这是一个静默失败模型持续接受输入并进行工具调用但从未抛出错误没有任何明确的信号表明出了问题这使它成为一个难以发现的Bug 现在根本原因已经明确我将进入Xcode来修复它基于我在Instruments中发现的内容我将查看 BrainstormDynamicInstructions 的定义在Instructions块中 SwitchToTutorialMode工具在提示中被提及但工具集中只列出了 GenerateCraftIdeasTool

所以让我们添加它

现在我将重新编译并用Instruments重新运行确认修复实际有效

回到App中我将前往Ideas标签与之前一样模型建议了一些新的手工创意我来选择…… 项链

就是这样 UI已切换到教程模式模型完成了切换并为这个手工生成了完整的教程现在让我们跳回Instruments 来看看这次新的录制确保一切运行高效

Instructions通道现在显示两组不同的指令在此体验中处于活跃状态

第一组是头脑风暴指令第二组是教程生成指令

这与我们之前介绍的头脑风暴体验设计完全吻合让我们深入树形视图了解该切换是如何实际发生的

第一组指令现在同时包含generateCraftIdea 和switchToTutorialMode工具这确认了模型拥有完成切换所需的一切修复成功了指令变更发生在请求2的第二次模型推理之后

该推理导致对 switchToTutorialMode的工具调用将所选手工作为参数传递

在后续请求中指令正确切换到教程生成器所选手工作为上下文一并传递

信息栏是快速标记值得仔细查看的节点的好方法：包括错误、较长的持续时间和大量的Token数请求1的第一次模型推理比我预期的花费时间稍长让我们来看看

指标和持续时间部分详细列出了此次推理的Token用量这些数字是你了解和提升体验效率的起点

你可以使用三个关键指标来衡量性能首Token时间衡量模型在收到提示后开始生成响应所需的时间首Token时间过长意味着用户面对空白屏幕等待缩短提示可以减少这个时间每秒Token数衡量响应的整体生成速度用它来对比不同提示配置的性能并在更改后发现性能回退

总延迟是从发送请求开始到收到最终响应的完整时间这是用户感受最直接的数字要降低感知总延迟可以使用流式传输更早呈现部分结果

运行跟踪是优化的起点这些指标准确告诉你时间和资源流向哪里并指引你找到正确的修复方法使用模型推理节点清晰了解你的Token用量在本节中我向你展示了如何使用Instruments 调试使用Foundation Models框架开发的智能体体验一旦解决了Bug 接下来要探索的是评估观看"了解Evaluations框架" 了解如何衡量并提升提示的质量通过使用结构化评估

要开始使用改进后的 Foundation Models Instrument 请安装Xcode 27 然后在你想要运行和分析App的设备上更新到最新的OS版本值得注意的是此Instrument支持你在Foundation Models框架中使用的任何模型 Foundation Models API 是你的起点实验、构建看看什么是可能的当某些功能未按预期工作时 Foundation Models Instrument 可以帮助你调试让你直接了解框架在上下文中的行为深入探索相关节关于智能体App体验和Evaluations框架的内容并探索完整文档释放框架的全部能力感谢你的参与！我们期待看到你开发并调试你的智能体体验借助改进后的 Foundation Models Instrument

0:00 - Introduction
Overview of how the Foundation Models Instruments template helps debug and profile agentic app experiences built with the Foundation Models framework, including Dynamic Instructions and tool call loops.
1:57 - LLM app development mindset
The three challenges unique to LLM app development: probabilistic output (non-deterministic responses that break standard unit testing), model-to-model communication (coordinating data flow across multiple models), and observability (knowing where things went wrong in a multi-model pipeline).
3:59 - Inspect and diagnose an agentic experience
Introduction to the craft companion demo app — a journaling app with an interactive brainstorming feature that uses two sets of Dynamic Instructions: one for idea generation and one for tutorial creation, both backed by the server model on Private Cloud Compute.
5:02 - Recording a trace with Instruments
How to start profiling with the Foundation Models template in Instruments — selecting the template, recording a session, and an important note about sensitive prompt data in trace files.
6:04 - Navigating the Instruments UI
A walkthrough of the Foundation Models instrument layout: tracks and lanes on the timeline (including the instructions lane and model inference lane with yellow/orange bars), the detail view, and the inspector — and how to use the tree view to inspect sessions, requests, inferences, and tool calls.
12:07 - Performance metrics
How to measure and optimize LLM experience performance using three key metrics: time-to-first-token (reduce by shortening prompts), tokens-per-second (benchmark across configurations), and total latency (reduce perceived wait with streaming).
13:04 - Next steps
Summary of what was covered, requirements to get started (Xcode 27 and latest OS), and pointers to related sessions on the Evaluations Framework and Agentic App Experiences.

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

使用 Instruments 调试和分析智能体 App 体验

章节

资源

相关视频

WWDC26