LLM-as-a-Judge

Langfuse の Observation レベル評価：「どのステップが悪いのか」をスコアで特定できるようになった

2026年2月26日·4 分

Langfuse LLM評価 RAG LLM-as-a-Judge オブザーバビリティ

こんにちは。ガオ株式会社の黒澤です。 Langfuse v3.153.0 で [PR #11861 ](https://github.com/langfuse/langfuse/pull/11861 ) がマージされ、LLM-as-a-Judge を Observation 単位で実行できるようになりました。本記事ではその背景と使い方をまとめます。

↑