LLM Observability / LLMOps

LLM アプリケーション・エージェントの挙動(プロンプト、トークン、tool 呼び出し、レイテンシ、コスト)を計測・追跡する分野。MLOps の LLM 版という位置づけ。

トレーシングの選択肢

  • OpenTelemetry (OTel) 統一路線: opentelemetry-observability の Span 属性 / Event に GenAI 用の semantic conventions を設定し、Cloud Trace 等に生成 AI 情報を表示する。ただし semantic conventions は策定途上で、span 属性として送るか Event として送るか議論の最中。ADK・OSS 実装でもこれらの定義はまだほとんど使われていない。
  • 独自トレース: OpenAI Agents SDK は OTel ではない独自のトレース機能を持つ。

主要ツール

  • langfuse: LLM observability プラットフォーム。OTel 経由のトレース取り込みと、OpenAI Agents SDK 連携の両方をサポート(2026/2 に対応)。Dataset 機能で入力と期待出力の集合を持ち性能評価に使う。
  • traceloop/openllmetry (MCPInstrumentor): OTel instrumentation ライブラリ。patch_mcp_server() / patch_mcp_client()model-context-protocol の通信を計測する PR が進行。

MCP への OTel 導入

MCP エコシステムでは OTel trace support 導入が複数の issue/discussion で並行議論されている(modelcontextprotocol #269、python-sdk #421、open-telemetry/semantic-conventions #2043、openllmetry #2662)。エージェントが server/client をまたいで tool を連鎖実行するため、分散トレースの意義が大きい。

評価との関係

実行トレースの観測だけでなく、promptfoo のようなプロンプト/モデルの評価ツールと組み合わせて品質を回す。

関連