Langfuse の Observation レベル評価：「どのステップが悪いのか」をスコアで特定できるようになった

Thu, 26 Feb 2026 00:00:00 +0000

こんにちは。ガオ株式会社の黒澤です。

Langfuse v3.153.0 で [PR #11861 ](https://github.com/langfuse/langfuse/pull/11861 ) がマージされ、LLM-as-a-Judge を Observation 単位で実行できるようになりました。本記事ではその背景と使い方をまとめます。

LLM-as-a-Judge on GAO AI Blog

Langfuse の Observation レベル評価：「どのステップが悪いのか」をスコアで特定できるようになった