LLM Observability / LLMOps

LLM アプリケーション・エージェントの挙動（プロンプト、トークン、tool 呼び出し、レイテンシ、コスト）を計測・追跡する分野。MLOps の LLM 版という位置づけ。

トレーシングの選択肢

OpenTelemetry (OTel) 統一路線: opentelemetry-observability の Span 属性 / Event に GenAI 用の semantic conventions を設定し、Cloud Trace 等に生成 AI 情報を表示する。ただし semantic conventions は策定途上で、span 属性として送るか Event として送るか議論の最中。ADK・OSS 実装でもこれらの定義はまだほとんど使われていない。
独自トレース: OpenAI Agents SDK は OTel ではない独自のトレース機能を持つ。

主要ツール

langfuse: LLM observability プラットフォーム。OTel 経由のトレース取り込みと、OpenAI Agents SDK 連携の両方をサポート（2026/2 に対応）。Dataset 機能で入力と期待出力の集合を持ち性能評価に使う。
traceloop/openllmetry (MCPInstrumentor): OTel instrumentation ライブラリ。patch_mcp_server() / patch_mcp_client() で model-context-protocol の通信を計測する PR が進行。

MCP への OTel 導入

MCP エコシステムでは OTel trace support 導入が複数の issue/discussion で並行議論されている（modelcontextprotocol #269、python-sdk #421、open-telemetry/semantic-conventions #2043、openllmetry #2662）。エージェントが server/client をまたいで tool を連鎖実行するため、分散トレースの意義が大きい。

評価との関係

実行トレースの観測だけでなく、promptfoo のようなプロンプト/モデルの評価ツールと組み合わせて品質を回す。

Quartz 5

Explorer

LLM Observability / LLMOps

LLM Observability / LLMOps

トレーシングの選択肢

主要ツール

MCP への OTel 導入

評価との関係

関連

Graph View

Table of Contents

Backlinks