エージェント型アプリに対する信頼性の高い評価プロセスの確立

エージェント型アプリに対する信頼性の高い評価プロセスの確立

Evaluationsフレームワークの高度な機能を活用して、アプリに対する信頼性の高い評価プロセスを確立する方法を学びましょう。ツール呼び出しや動的条件によるフローの評価方法と、自身のユースケースにおいてどのような動作が正しいのかを定義する方法を紹介します。信頼性の高い結果を得る上で役立つ、合成データの生成、判定の効果的な使用、データセットの検証の方法も説明します。

関連する章
- 0:00 - Introduction
- 2:21 - The dataset problem in BookTracker
- 3:46 - Generating synthetic data with makeSamples
- 6:27 - Customizing generation with SampleGenerator
- 8:38 - Sampling strategies
- 10:11 - Validating synthetic samples
- 13:04 - Comparing evaluation results
- 15:09 - Tool calling and tool evaluations
- 18:54 - Trajectory expectations
- 21:26 - Building a tool call evaluation
- 22:02 - Synthetic data for tool evaluations
- 23:49 - Next steps
リソース
こんにちは、Adaです！ Kyleです！私たちはEvaluationチームのエンジニアです！本日は皆さんに Evaluationフレームワークの高度な機能をご紹介します！ Evaluationフレームワークは Swiftアプリのインテリジェンス機能を評価する方法を提供します改善を継続的に追跡し本番環境での品質を確保しますこのフレームワークはXcode 27の新機能で macOS、iOS、watchOS、visionOSに対応していますまだご覧になっていない方は "Meet the Evaluations framework"をご覧ください Evaluationフレームワークの基礎について学べますまたこちらのビデオ "Improve your prompts by hill climbing with Evaluations"ではインテリジェンス機能を改善するためのさまざまな戦略を紹介しています
このビデオでは複雑さへの対処法と evaluationのスケーラビリティについて説明しますまずevaluationデータセットを拡張する方法を探ります合成データの生成と検証によって次にエージェントワークフロー向けの堅牢なevaluationの構築方法を取り上げますツールコーリングと呼ばれる特殊なモデルの動作が含まれます
"Meet the Evaluations framework"ではヒルクライミングプロセスを紹介しましたこれはインテリジェント機能の構築テスト、リリースプロセスを表していますこのビデオではDevelopとEvaluateのステップに重点を置きます Developステップでは少数のサンプルから evaluationを始めることが多いですが機能はデータセットがカバーできる以上に複雑なことがほぼ常にあります構築に時間がかかりスケールも困難で必要な多様性をとらえることも難しく実世界での機能の動作を真に理解することができません evaluationの結果の品質はデータの品質に依存します良いevaluationデータの作成は難しいものですそこで合成データの出番です EvaluationフレームワークはAPIを提供しサンプル生成をすべてコードで定義できます独自の生成パイプラインを構築しコマンドラインから実行したり既存のワークフローに直接組み込むことができますテキストベースのデータをサポートしており generable macroを活用して構造化された合成データを生成します同僚とともにBookTrackerに取り組んできましたこれはインテリジェンス機能を使った個人ライブラリアプリです書かれたレビューに基づいて本のタグを自動付けします各本の定義方法を見ていきましょう BookというクラスにはTitleが含まれ author、review、tags、ratingも含みますカバーデザインをサポートする変数も定義しますまたsampleBooksも定義します 13個のBookサンプルの配列でこちらはPride and Prejudiceですこの13サンプルは妥当な出発点に思えますがこの小さなデータセットでは限られた視点しか得られず機能のパフォーマンスを十分に把握できません evaluation結果が良好に見えても完全に誤解を招く可能性がありますタグ生成機能の評価に使用するデータの多様性を考えてみてください！
本は無数にあります何百ものジャンル
読んだものをレビューする方法も多様ですこれは実世界の話でもありますまとめが曖昧だったり不完全だったりします 13サンプルではそのすべてをとらえられませんより広いカバレッジが必要です手動でサンプルを書く日々を費やさずに済む必要があります！そのような多様性をとらえるためのデータセット拡張方法を説明しますシンプルに始めましょう makeSamples APIには 3つのコンポーネントが必要です prompt、dataset、target countですこれは生成したいサンプル数で提供するデータセットを含む合成生成の数ですここではpromptを定義しましたモデルにより多様なブックレビューサンプルを提案させますよく定義されたpromptを書くにはモデルがタスクを最もよく理解するために必要な情報を考慮してくださいユーザーが提供する可能性のある入力の範囲も含めて datasetにはsampleBooksを渡しています 13の初期サンプルが含まれます
新しいModelSamples APIを活用し本のreviewを promptとして、本のtagsを期待される出力として含めます target countは100サンプルに設定して始めます！ targetCountは最終的なデータセット全体のサイズです最初のサンプルも含みますつまりモデルは実際に 87個の新しいサンプルを生成しますどれくらいのデータが十分か気になるかもしれません答えはケースバイケースです BookTrackerアプリでは100という target countは出発点に過ぎません！合成データ生成は反復的なプロセスです初期データセットの定義から始まり合成データを生成しサンプルを検証します次にデータが十分に代表的かどうかを分析し確信が持てるまでこのサイクルを続けます！ evaluationデータセットに適した target countは機能によって完全に異なります機能内容、使用者、利用方法の多様性すべてによります量よりもはるかに重要なのはカバレッジです！
何サンプル必要かを問う代わりに次のことを自問してくださいこの機能が実際に使われる意味ある多様性をカバーしているか？必要な変数を定義したので makeSamplesメソッドを使います新しく生成されたサンプルの async streamを返しますイテレートしながら新しいサンプルはそれぞれ expandedDatasetに追加されますこれは最初のデータセットで初期化されていますフレームワークはデフォルトでオンデバイスモデルを使用しますオンデバイスモデルはほとんどの場合に適していますが独自のモデルを使いたい場合やモデルへの指示をカスタマイズしたい場合もありますフレームワークは柔軟性を提供しておりサンプル生成の独自設定を定義できますその方法を説明します！
prompt、dataset、target countを超えたより複雑な設定にはフレームワークはSampleGeneratorを提供します生成プロセスを完全に制御できます設定の一部を見ていきましょう！
sessionProviderはLanguageModelSessionを返すクロージャですここで生成を担当するモデルを制御しますまたシステムレベルの指示でタスクを定義します合成データ生成では PrivateCloudComputeLanguageModelを使用しますコンテキストサイズが大きいためで次のような指示を追加します特定の本、ジャンル、ムードに絞り込むカスタム指示です
生成サンプルへの期待としてルールリストも指定しますこれについては後ほど説明しますセッションの使用方法について説明しますフレームワークはバッチサイズを自動的に処理しますこれは生成時に処理されるサンプル数ですジェネレータは実行開始時に sessionProviderを1回呼び出しますその後バッチをまたいでセッションを再利用します生成が進むにつれてモデルがコンテキストを維持できます
ただしセッションには上限があります多数のリクエストを行う場合や大きなプロンプトを与えたり大きな出力を得る場合実行中にセッションのコンテキストウィンドウが枯渇してエラーが発生しますその場合ジェネレータは sessionProviderを再度呼び出し新しいセッションで生成を続けますただし前のセッションのコンテキストは引き継がれません sessionProvider内の指示が自己完結していることを確認してください 1回だけ呼ばれると仮定しないようにしてくださいコンテキストサイズ制限の対処法については "Build agentic app experiences with Foundation Models"をご覧くださいカスタムのsession providerを使えば SampleGeneratorも活用できます samplingStrategyのカスタマイズも可能です
これはジェネレータが例を選択する方法を制御します初期データセットからモデルへの in-context例を表示します指定できるサンプリング戦略は 2種類あります 1つ目はランダムサンプリングです
この戦略は初期サンプルからランダムなサブセットを選択しますモデルに見せる例として重複なく使用します出力を多様に保ちながら初期サンプルの順序を慎重に考える必要がありません 2つ目のサンプリング戦略はスライディングウィンドウです
この戦略は初期サンプルを順番に処理します重複はスキップしながらデータセットに意味のある順序がある場合このスライディングウィンドウ戦略の使用を検討してください
私たちのジェネレータではランダム戦略を使用します初期サンプルには意味のある順序がないためですこれはデフォルト戦略なので明示的に定義する必要はありません
カスタムsessionProviderでジェネレータを設定したので .run関数を呼び出せます新しく合成されたサンプルの streamを返します各サンプルをイテレートすると先に定義したexpandeDatasetに追加されます
設定が完了したので合成データが期待通りかを確認する方法を見ていきましょうここでvalidatorクロージャが活躍します validatorを使えば独自のロジックで生成された各サンプルを受け入れるか拒否するかを定義できますすでにルールセットを定義しました先ほどsession providerの指示に含めましたただし出力が実際にルールに従うことは保証されません確認しましょう最初のルールはレビューが100文字以上であることです各レビューはジャンル、ムードトーンを幅広くカバーする必要がありますレビューの長さも変化が必要ですモデルは3から8個のブックタグを生成する必要がありますタグは小文字でなければなりませんサンプルの検証内容を把握するにはこれらのルールに基づいて体系的に確認できる内容を考えます validationクロージャは各サンプルを個別に検証します他のサンプルのコンテキストは持ちませんこれらのルールを見るとレビューの多様性はより多くの判断を必要としシンプルな検証チェックを超えていますレビューの長さはすべてのサンプルにわたる評価が必要です
その他のルールは体系的に評価できます validationクロージャを使って最初のルールにはレビューの長さ検証を定義できます誰もが知るクラシックな本として Mary Shelleyの"Frankenstein"を例にしましょう生成されたサンプルのレビューが 100文字以上あるかを確認できますモデルは各レビューにタグも生成しますつまり3から8個のタグがあるかを検証できます
最後にタグがすべて小文字かを確認できます
SampleGeneratorでこれら3つの検証メトリクスを定義しましたサンプルが期待する構造を満たしているかを確認します結果はどこに格納されるのでしょうか？生成が進むにつれて有効なサンプルはSyntheticGeneratorの samplesプロパティに収集されますこれらのvalidatorに失敗したサンプルは invalidSamplesとして自動的に除外されますどちらも実行中にリアルタイムで更新されますいつでもアクセスできますイテレーション中に進捗を確認したりループ完了後に参照できます結果をアプリで直接使用したりデータセットをローカルに保存できます 13の初期サンプルでの evaluationを確認しましょう Xcode 27では新しい Evaluations Reportを導入しました結果を可視化できますこれは13の初期サンプルを使った BookTaggingEvaluationですタグ品質のスコアが非常に高いことがわかります関連性と有用性の両方を評価しています 100サンプルの新しいデータセットで evaluationを実行しましたボタンを使って 2つのevaluationを比較できますスコアが下がると予想しています！
予想通りでした！品質スコアが低下しましたタグ生成機能は以前は良好に見えていましたが包括的なデータセットでテストしていなかったためですより大きなデータセットで evaluationを実行することでスコアの低下はさまざまなことを示しますこのシグナルが示す可能性を考えてみましょうスコアの変化はpromptや指示の問題かもしれませんどちらかまたは両方を改善して対応できますインテリジェンス機能のギャップも考慮できますまたはevaluationを調整して実際に何を評価しているのかを理解することも検討できます最後に、データセットがまだ十分に代表的でない場合より多くの変動をとらえる必要がありますデータセットをさらに増やしたりエッジケースを追加できます合成データAPIを使ってこれらが結果をさらに改善する主要な方法です
堅牢なevaluationデータセットを構築する確かなアプローチが整いました合成データを使ってさらに一歩進めたいと思いますこれまでブックタグ機能を評価してきましたがアプリがより複雑になって検索などのタスクに複数のアクションが必要になったらどうなるでしょうか？そこでツールコーリングの出番です Kyleにバトンタッチして説明してもらいます！ありがとう、Ada！
evaluation driven developmentを続けていきましょう tool evaluationを取り上げますこれまではモデルが生成するものを評価してきました私たちの機能では本のタグですインテリジェンス機能は多くの裏側の処理を経て出力を生成しますアプリ内で複数のアクションを実行しそれぞれが結果に貢献しますツールはモデルのワークフローに構造を追加しますアプリのユーザーがタスクを完了する際に
日常的に使用する実際のデータに対して操作を行います
定義したカスタムビジネスロジックで動作できます
ユーザーが直接呼び出せる機能やインテリジェンス機能のための全く新しいロジックまたはその組み合わせも使えます重要なことがありますモデルはもっともらしい回答を返すかもしれません正しいツールを一切呼び出さずに最終出力が正しく見えてもそこに至る過程が正しくない場合がありますそれらの課題について tool evaluationがどのように対処に役立つかを説明します
まず、指示の遵守について：各ツールの使い方をモデルに伝える必要があります細部への注意が重要です
自分で指示を一言一句実行してみてくださいステップを見落とすかを確認するために
次にツールの複雑さがありますシンプルな指示を受け入れたりパラメータ範囲の調整が必要なものもあります
そしてエッジケースがありますツールは一般的な入力では正常に動作しているように見えてもまれなケースでは予期しない動作をすることがあります
だからtool evaluationが必要なのです「何を」だけでなく「どのように」を検証できます
モデルは正しいツールを呼び出し正しい引数を期待する順序で使用する必要がありますまたその過程で途中に予期しないツールコールがないことを確認します
実際に見ていき最初のtool evaluationを構築します BookTrackerアプリにライブラリアシスタントを追加しましたユーザーは本を検索できタイトルや文字列だけでフィルタリングする代わりにモデルはアプリのカスタムツールを使って関連する本を見つけます
searchBooksツールは類似タグの本を検索します getBookDetailsツールは本のメタデータを抽出します検索結果から出版日などを取得します
findSimilarBooksツールは類似する本のセマンティック検索を実行します複数のステップをチェーンしそれぞれがツールコールです SearchBooksToolです
Toolプロトコルに準拠しモデルが見る名前がありますこのツールが有用なタイミングを説明するdescriptionがあります
argumentsはGenerableのstructですこれらはすべてoptionalですモデルはユーザーの要求に基づいて使用するフィルタを決定します
"find gothic books"と promptすると tag引数に値が入ることを期待します "show me something cheerful"と promptするとムード検索が生成されることを期待しますまさにこのような決定を評価したいのですツールについての復習でしたでは最初のtool evaluationを書きパフォーマンスを確認しましょう tool evaluationの主要コンポーネントは trajectory expectationですセッションのトランスクリプトには promptとレスポンスの中にツールコールが含まれます
trajectory expectationは順序を確認します言語モデルセッションの各ツールコールの種類も確認します trajectory expectationチェックはルートを計画する際の決定リストを確認するようなものです車、自転車、バスはすべてツールですそれぞれ移動に適した時と場所があります特定の旅程の各区間での有用性を評価できます
expectationはすべてのツールコーろを確認しますそれぞれについて evaluationsに書いた expectationsと照合しますコードでシンプルな例を見てみましょう promptは"Find books tagged gothic"です "searchBooks"への1つのツールコールを期待しますこれはTrajectoryExpectationですモデルのトランスクリプトで期待するツールコールを記述します unorderedはこのツールコールがいつ発生するかを問わないことを意味します発生することだけが重要です expectationに引数を追加してさらに絞り込めます "gothic"というタグを期待する引数を追加しています完全一致が常に必要とは限りません promptが"Find something cheerful"の場合 uplifting、happy、cheerfulなどどれでも問題ありません
.naturalLanguageマッチャーは値が意図に合うかを確認します完全一致の文字列ではなくさまざまな状況に対応するマッチャーが揃っています contains、oneOf、pattern range などがあります詳細についてはデベロッパドキュメントをご確認くださいマルチステップタスクでは順序が重要です
モデルはまず "searchBooks"を呼び出す必要があります次に"getBookDetails"を呼び出しますエージェントが最初に詳細を取得しようとすると bookIdがまだありませんこれはバグです Trajectory expectationsはこれをとらえます旅程を確認しているからです目的地だけでなく
エージェントがすべきでないことも同様に重要な場合があります
promptに類似本を検索しないといった指示が含まれる場合モデルは指示に従う必要があります disallowedパラメータはトランスクリプトに表示されないツールを指定しますエージェントが"findSimilarBooks"を呼び出した場合はfailureですすべてのtrajectory expectationsがまとまります完全なevaluationの中でサンプルのデータセットを定義しますそれぞれにpromptと trajectory expectationがあります ToolCallEvaluatorを使ってスコアをつけます ToolCallEvaluatorはLanguageModelSessionとツールを組み合わせますレスポンスを取得し構造化されたトランスクリプトをキャプチャします
tool call evaluationの結果は Xcodeアシスタントに表示されます他の結果と並んでインテリジェンス機能の動作の全体像が把握できますしかし待ってください！ Evaluations APIも使えます tool evaluationの合成データを生成するために！
ぜひやりましょう！ Trajectory expectationsも generableです tool evaluationのデータセット拡張は非常に複雑になりえます Evaluationフレームワークでそれがはるかに簡単になりました！ Tool Call evaluationは ModelSampleを活用していますまたgenerableな TrajectoryExpectationも活用しています以前と同様にSample generatorを使ってサンプルを合成生成できます promptを定義しました sessionProvider用のカスタム指示も含めて tool evaluationの合成データを作成する際に注意すべき点がありますモデルは定義したツールを知りませんまたツールを呼び出す順序も知りません利用可能なツールとその目的を指定しました順序の期待値などモデルが必要とするコンテキストも次にsampleGeneratorを定義します既存のデータセットを初期サンプルとして使用します targetCountは100ですここで検証メトリクスも指定できます！常にexpectationがあることを確認しました合成サンプルに少なくとも 1つのツールが含まれることも確認しました最後に呼び出されたツールが定義済みのツールであることを確認しますこれがtool evaluationの合成サンプルを生成・検証する方法です！合成データAPIは強力な方法で既存のデータセットを大幅に拡張できます！データが代表的であるほどスコアが実態を反映します Kyleさん、お願いします！すべてがまとまります先ほどbook tagging evaluationを構築しモデルの生成内容を確認しましたタグ数、ジャンルカバレッジ品質スコアです tool evaluationではモデルがそこに至る方法を確認します正しいツール、正しい引数そして正しい順序です同じevaluationスイートで両方を実行すれば機能のエンドツーエンドの信頼性が確保されます evaluationをより堅牢にする方法をいくつかご紹介しましたご自身のアプリと evaluationデータセットに適用できますまず独自の合成データを作成してみてくださいアプリのカスタムツールを評価しデベロッパドキュメントのサンプルアプリと記事もご確認ください
Ada、今日はたくさんカバーしましたね！そうですね、確かに！でも本当の見どころは皆さんが構築するものですネタバレはなしで！ Evaluationフレームワークについて楽しく学んでいただければ幸いです！

5:16 - Generate synthetic data with makeSamples

// Synthetic data
  let prompt = Prompt("""
      Generate diverse range of book reviews and corresponding tags.
      Cover a wide range of genres, time periods, cultures, and
      reader personas. Do not repeat books already in the dataset.
      """)
  
  let dataset = Book.sampleBooks.map { book in
      ModelSample(prompt: book.review, expected: BookTags(tags: book.tags))
  }
  
  let targetCount = 100
  var expandedDataset = dataset

  for try await sample in dataset.makeSamples(prompt, targetCount: targetCount) {
      expandedDataset.append(sample)
      print("Generated \(expandedDataset.count) samples so far.")
  }

  2. Configure a custom SampleGenerator — slides 30–43
  
  // Define your own configuration
  let generator = SampleGenerator<ModelSample<BookTags>>(
      prompt,
      samples: dataset,
      targetCount: targetCount,
      sessionProvider: {
          LanguageModelSession( 
              model: PrivateCloudComputeLanguageModel(),
              instructions: """
                  You are a synthetic data generator for a book-tracking app's evaluation suite.
                  Your job is to produce realistic, diverse book entries that will stress-test
                  a tagging system.

                  Rules:
                  - Review must be at least 100 characters long.
                  - Review should cover a mix of genre, mood/tone, and themes.
                  - Reviews should vary in length.
                  - Create between 3 and 8 tags.
                  - Tags must be lowercase.
                  """ 
          )
      }
  )

5:53 - Configure a custom SampleGenerator

// Define your own configuration
  let generator = SampleGenerator<ModelSample<BookTags>>(
      prompt,
      samples: dataset,
      targetCount: targetCount,
      sessionProvider: {
          LanguageModelSession( 
              model: PrivateCloudComputeLanguageModel(),
              instructions: """
                  You are a synthetic data generator for a book-tracking app's evaluation suite.
                  Your job is to produce realistic, diverse book entries that will stress-test
                  a tagging system.

                  Rules:
                  - Review must be at least 100 characters long.
                  - Review should cover a mix of genre, mood/tone, and themes.
                  - Reviews should vary in length.
                  - Create between 3 and 8 tags.
                  - Tags must be lowercase.
                  """ 
          )
      }
  )

10:37 - Validate generated samples

// Define validation metrics
  validator: { sample in
      guard let book = sample.expected else { return false }

      // Review must be at least 100 characters
      guard sample.promptDescription.count >= 100 else { return false }

      // Must have between 3 and 8 tags
      guard (3...8).contains(book.tags.count) else { return false }

      // All tags must be lowercase
      guard book.tags.allSatisfy({ $0 == $0.lowercased() }) else { return false }

      return true
  }

10:58 - Access valid and invalid results

// Accessing results
  for try await sample in generator.run() {
      // During iteration
      expandedDataset.append(sample)
  }

  // After iteration
  let allSamples = await generator.samples
  let invalidSamples = await generator.invalidSamples
  
  print("Generated \(allSamples.count) new samples. Total: \(expandedDataset.count)")

15:30 - Define a tool's Generable argument

@Generable
  struct SearchBooksArguments {
      @Guide(description: "A freeform search term to match against titles, reviews, or tags")
      var query: String?
  
      @Guide(description: "Filter results to books with this specific tag")
      var tag: String?

      @Guide(description: "Filter results by mood")
      var mood: String?

      @Guide(description: "Filter results by genre")
      var genre: String?

      @Guide(description: "Maximum number of results to return. Defaults to 5.")
      var limit: Int? 
  }

16:37 - A basic trajectory expectation

// "Find books tagged gothic"
  TrajectoryExpectation(
      unordered: [
          ToolExpectation(
              "searchBooks",
              arguments: [
                  .exact(argumentName: "tag", value: .string("gothic"))
              ]
          )
      ]
  )

17:07 - Match arguments by intent (naturalLanguage)

// "Find something cheerful"
  TrajectoryExpectation(
      "searchBooks",
      arguments: [
          .naturalLanguage(
              argumentName: "mood",
              criteria: "Should relate to uplifting, hopeful, or positive feelings"
          )
      ]
  )
  Other matchers available: .contains, .oneOf, .pattern, .range, and more.

17:34 - Expect tool calls in order

// "Find gothic books and show details on the first"
  TrajectoryExpectation(
      ordered: [
          ToolExpectation(
              "searchBooks",
              arguments: [
                  .exact(argumentName: "tag", value: .string("gothic"))
              ]
          ),
          ToolExpectation(
              "getBookDetails",
              arguments: [
                  .keyOnly(argumentName: "bookId")
              ]
          )
      ]
  )

17:55 - Disallow specific tool calls

// "Show only sci-fi books. Don't look for similar ones."
  TrajectoryExpectation(
      unordered: [
          ToolExpectation(
              "searchBooks",
              arguments: [
                  .naturalLanguage(
                      argumentName: "genre",
                      criteria: "Should refer to science fiction")
              ]
          )
      ],
      disallowed: [
          ToolExpectation("findSimilarBooks")
      ]
  )

18:14 - Build a tool call evaluation

// Tool call evaluations
  let samples = SampleArrayLoader(samples: [
      ModelSample(
          prompt: "Find all the books tagged with 'gothic'.",
          instructions: "Help the user explore their book collection.",
          expectations: TrajectoryExpectation(  )
      )
  ])

  struct BookLibraryToolCallEval: Evaluation {
      var dataset = samples

      let pass = Metric("All Passed")
      let percent = Metric("Percentage Passed")

      var evaluators: Evaluators { 
          ToolCallEvaluator(allPass: pass, percentagePass: percent)
      }
  }

19:20 - Synthesize tool-evaluation samples

// Tool call evaluations
  let prompt = Prompt("""
      Generate diverse user queries for a personal book library assistant.
      Each sample needs a prompt (what the user says), and a trajectory
      expectation describing which tools should be called and in what order.
      """)

  let instructions = """
      AVAILABLE TOOLS:
      - searchBooks(query?, tag?, mood?, genre?, limit?): search the library
      - getBookDetails(bookId): full details for one book
      - findSimilarBooks(bookId, maxResults?): find books sharing tags
      ORDER REQUIREMENTS:
      - searchBooks must comes before getBookDetails or findSimilarBooks
      - Use TrajectoryExpectation(ordered:) when sequence matters, else (unordered:)
      USE THESE ARGUMENT MATCHERS:
      - .exact for precise values, .naturalLanguage for fuzzy matching
      - .keyOnly when any value is acceptable, .range for numeric constraints
      - .contains/.hasPrefix/.hasSuffix for partial string matching
      """

19:51 - Validate tool-evaluation samples

// Tool call evaluations
  validator: { sample in
      // Must have expectations defined
      guard sample.output.expectations != nil else { return false }

      let expectations = sample.output.expectations!

      // Must reference at least one tool
      let totalExpectations = expectations.ordered.count + expectations.unordered.count
      guard totalExpectations > 0 else { return false }

      // All tool names must be from the valid set
      let validTools: Set<String> = ["searchBooks", "getBookDetails", "findSimilarBooks"]
      let allExpectations = expectations.ordered + expectations.unordered + expectations.disallowed
      for expectation in allExpectations {
          guard validTools.contains(expectation.name) else { return false }
      }
  
      return true
  }

  ---

- 0:00 - Introduction
- Ada Wong and Kyle Murray introduce advanced features of the Evaluations framework (new in Xcode 27). Outlines the agenda: growing your dataset with synthetic data, then building robust evaluations for agentic, tool-calling workflows, focused on the develop-and-evaluate step of hill-climbing.
- 2:21 - The dataset problem in BookTracker
- The BookTracker app auto-tags books from reviews, but its 13 hand-written sampleBooks give only a narrow view. Real-world reviews span countless books, genres, lengths, and styles, too much variety to capture by hand.
- 3:46 - Generating synthetic data with makeSamples
- The makeSamples API takes a prompt, a dataset (ModelSample with review to tags), and a target count (the full resulting size, including your seeds). It returns an async stream of new samples; coverage of real usage matters more than raw quantity.
- 6:27 - Customizing generation with SampleGenerator
- For more control, SampleGenerator exposes a sessionProvider closure to pick the model (such as Private Cloud Compute) and instructions. The session is reused across batches but can exhaust its context window mid-run, so make instructions self-contained since the provider may be called again.
- 8:38 - Sampling strategies
- The samplingStrategy controls which seed samples are shown to the model as in-context examples: random (a varied subset, the default) or slidingWindow (sequential, for datasets with meaningful order).
- 10:11 - Validating synthetic samples
- A validator closure accepts or rejects each generated sample in isolation against systematic rules: review length at least 100 characters, 3 to 8 tags, lowercase tags. Valid samples collect in samples, rejects in invalidSamples, both updated in real time.
- 13:04 - Comparing evaluation results
- Using the Xcode 27 Evaluations Report, compare the 13-sample run against the 100-sample run. The quality scores drop, the feature only looked good on the small dataset, and a drop can signal issues in the prompt, the feature, the evaluation, or the dataset.
- 15:09 - Tool calling and tool evaluations
- Tool evaluations: features often take multiple behind-the-scenes tool calls, and a plausible answer can come from the wrong path. Tool evaluations verify the how: correct tools, correct arguments, correct order, no surprises, illustrated with searchBooks, getBookDetails, and findSimilarBooks.
- 18:54 - Trajectory expectations
- A TrajectoryExpectation checks the kind and order of tool calls in a session transcript. Refine with argument matchers (exact, naturalLanguage, contains, oneOf, pattern, range), plus ordered expectations and a disallowed set for tools that must not be called.
- 21:26 - Building a tool call evaluation
- Bring the trajectory expectations together: a dataset of samples (each a prompt plus expectation) scored by ToolCallEvaluator, which combines a LanguageModelSession with the tools, captures the structured transcript, and reports alongside your other results in Xcode.
- 22:02 - Synthetic data for tool evaluations
- Because ModelSample and TrajectoryExpectation are Generable, you can synthesize tool-evaluation samples too, describing the available tools, order expectations, and context in the prompt, then validating that each sample has an expectation, at least one tool, and only real tools.
- 23:49 - Next steps
- Run BookTaggingEvaluation (what the model produces) and tool evaluations (how it gets there) in one suite for end-to-end confidence. Next steps: create your own synthetic data, evaluate your app's custom tools, and explore the sample app and documentation.

「今すぐ始める」を詳しく見る

最新情報

プラットフォームを詳しく見る

特集

テクノロジーを詳しく見る

特集

コミュニティを詳しく見る

特集

ドキュメントを詳しく見る

リリースノート

ダウンロードを詳しく見る

特集

サポートを詳しく見る

特集

クイックリンク

関連する章

リソース