メインコンテンツへスキップ

LLM-as-a-Judge

Langfuse の Observation レベル評価:「どのステップが悪いのか」をスコアで特定できるようになった

こんにちは。ガオ株式会社の黒澤です。 Langfuse v3.153.0 で [PR #11861 ](https://github.com/langfuse/langfuse/pull/11861 ) がマージされ、LLM-as-a-Judge を Observation 単位で実行できるようになりました。本記事ではその背景と使い方をまとめます。