LLM評価

LLMアプリの評価データをバージョン管理する - Langfuseのデータセットバージョニングで実験の再現性を確保する

2026年2月27日·7 分

Langfuse LLM評価データセットバージョン管理 LLMOps

LLMアプリケーションの開発で、こんな経験はないでしょうか。「先週と同じ条件で実験したいのに、データセットを更新したから再現できない…」「評価データを改善したいけど、過去の結果と比較できなくなるのが怖い…」

Langfuse の Observation レベル評価：「どのステップが悪いのか」をスコアで特定できるようになった

2026年2月26日·4 分

Langfuse LLM評価 RAG LLM-as-a-Judge オブザーバビリティ

こんにちは。ガオ株式会社の黒澤です。 Langfuse v3.153.0 で [PR #11861 ](https://github.com/langfuse/langfuse/pull/11861 ) がマージされ、LLM-as-a-Judge を Observation 単位で実行できるようになりました。本記事ではその背景と使い方をまとめます。

【入門編】Langfuseで画像OCRの精度検証をシンプルに始める方法

2026年1月26日·7 分

Langfuse OCR LLM評価 Vertex AI Gemini Python

Geminiの性能向上によりOCRは実用的になりましたが、高精度を目指すならプロンプト調整は必須です。しかし、調整のたびに画像と結果を目視で見比べるのは、手間がかかりミスも誘発します。

LangfuseのExperiments Compare ViewのBaseline機能を解説

2026年1月9日·14 分

Langfuse Experiments LLM評価プロンプト管理 Python

はじめに # LLMアプリケーションの開発において、プロンプトの改善は避けて通れない作業です。しかし、プロンプトを変更するたびに、こんな不安を感じたことはありませんか？

Agent Development Kit (ADK) のエージェント評価を試してみた！

2025年4月11日·7 分

LLMOps Agent Development Kit GenAIOps LLM評価

最近話題の Google 製 AI エージェントフレームワーク「Agent Development Kit (ADK)」を触ってみました！ Gemini モデルとの連携がしやすく、柔軟なエージェント開発が可能とのことで、期待が高まります。エージェントが自律的にツールを使うのは凄いですが、ちゃんと意図通り動くか、修正で壊れないかを確認する「評価」も重要ですよね。

LLMOpsとは? MLOpsとの違いや生成AIの評価について解説

2025年3月27日·10 分

LLMOps MLOps 生成AI LLM評価

更新日：2025年4月25日 LLMOps とは？ # LLMOps（Large Language Model Operations）とは、大規模言語モデル（LLM）を利用した生成AIアプリケーションの開発から運用、改善までを一貫して管理するための考え方や仕組み（フレームワーク）です。多くの企業では、自社でモデルをゼロから構築するのではなく、OpenAI、Google、Anthropic などが提供する基盤モデルを活用し、プロンプト設計やファインチューニング（微調整）を通じて目的に合った生成AIアプリケーションを開発しています。LLMOpsは、こうした開発・運用プロセスを効率化し、品質管理やガバナンスを実現する上で重要な役割を果たします。

Langfuse で LLM 評価を効率化！活用方法徹底解説

2025年2月5日·7 分

Langfuse LLM評価 LLMOps

更新日：2025年4月10日 1.初めに # 近年、AI 技術、特に大規模言語モデル（LLM）の進化は目覚ましく、様々な分野での活用が進んでいます。しかし、LLM をビジネスに適用する上で、その品質をどのように評価するかが大きな課題となっています。

↑