핵심 요약
- AI 옵저버빌리티는 단순한 “LLM 트레이싱”이 아닙니다. 완성된 스택은 네 개 레이어 — 트레이싱, 평가(eval), 대시보드, 알림 — 를 모두 덮어야 합니다. 대부분의 소규모 팀은 첫 레이어에 과투자하고 마지막 두 레이어를 건너뜁니다.
- 빠른 프로토타입이라면 2026년 현재 가장 저렴한 신뢰성 있는 경로는 Braintrust 무료 등급(월 100만 스팬·1만 평가 실행·사용자 무제한) 또는 셀프 호스팅 Langfuse입니다. 두 가지 모두 조달 절차 없이 출시할 수 있게 해줍니다.
- 자체 인프라에서 운영해야 하는 프로덕션이라면 현실적인 오픈 소스 선택지는 MLflow와 Arize Phoenix입니다. MLflow는 Apache 2.0 전부 공개, Phoenix는 Elastic License 2.0의 소스 공개형이며 고급 기능은 유료 Arize AX에 있습니다.
- 프록시 기반 도구(Helicone)는 몇 분이면 붙고 비용 최적화에 탁월하지만, 에이전트 추론에 대한 가시성은 SDK 기반 도구보다 얕습니다. 1번 레이어 솔루션이지 전체 스택이 아닙니다.
- 실제로 발목을 잡는 벤더 락인은 대시보드가 아니라 데이터 모델입니다. 트레이스 스키마를 내보낼 수 있는 도구를 고르세요. OpenTelemetry 호환 익스포터(MLflow, Phoenix, Langfuse)는 다음 마이그레이션을 싸게 만들어 주고, 독자 스키마는 비싸게 만듭니다.
왜 2026년에 이 결정이 성숙하는가
2년 전만 해도 “LLM 옵저버빌리티”라는 말은 프롬프트와 응답을 로그로 찍고 사고 후에 grep으로 뒤지는 것을 의미했습니다. 2026년에는 도구가 실제 카테고리로 갈라졌습니다 — SDK 기반 트레이싱 플랫폼, 평가 중심 워크플로우 도구, 프록시 게이트웨이, 그리고 LLM 뷰를 덧붙인 전통 APM 벤더들. 지금 내리는 선택은 트레이스 스키마와 평가 데이터셋, 대시보드가 모두 “당신이 이 AI 기능을 어떻게 생각하는가”에 대한 가정을 인코딩하기 때문에 다년에 걸친 결정입니다.
다행스러운 점은 카테고리가 충분히 안정되어 소규모 팀이 옳은 질문 두 개만 던지면 오후 한나절에 결정할 수 있다는 것입니다. 가장 중요한 두 질문은 이것입니다 — 셀프 호스팅이 필수인가? 그리고 평가 중심인가, 트레이스 중심인가? 첫 질문이 후보 명단을 좁히고, 두 번째 질문이 그 안에서 어떤 도구가 자연스럽고 어떤 도구가 억지인지를 결정합니다.
AI 옵저버빌리티 스택이 실제로 해야 하는 일
벤더 마케팅을 걷어내면 일은 네 개 레이어를 덮는 것입니다.
- 트레이싱. 모든 LLM 호출, 도구 호출, 검색 단계를 스팬으로 캡처합니다 — 프롬프트, 응답, 토큰 사용량, 지연 시간, 호출 체인 포함. SDK 기반 캡처는 의사 결정 수준의 가시성을 줍니다 — 에이전트가 실제로 본 것과 선택한 것. 프록시 기반 캡처는 와이어 페이로드를 줍니다 — 비용·지연 대시보드에는 충분하지만 에이전트 동작 디버깅에는 얇습니다.
- 평가(Evals). 프롬프트 변경이 정확도를 떨어뜨리면 CI를 실패시키는 오프라인 회귀 스위트, 그리고 라이브 트래픽을 채점하는 온라인 LLM-as-judge 스코어러. 이 레이어가 “코드가 배포됐다”와 “기능이 여전히 동작한다”를 분리시킵니다.
- 대시보드. 제품 매니저와 QA가 OpenTelemetry를 배우지 않고도 실제로 쓸 수 있는 읽기 전용 뷰. 라우트별 비용, p95 지연 시간, 평가 점수, 환각 비율.
- 알림. 평가 점수가 떨어질 때, 요청당 비용이 튈 때, 환각 비율이 오를 때 호출합니다. HTTP 레이어의 5xx만이 아닙니다.
1번 레이어만 잘하는 도구는 옵저버빌리티 스택이 아니라 그 한 컴포넌트입니다. “우리 옵저버빌리티는 있어”라는 주장이 소규모 팀을 계속 데이는 이유는 비용과 품질 회귀가 2번과 4번 레이어에서 드러나는데, 트레이스 캡처 도구만으로는 그것을 탐지할 수 없기 때문입니다.
2026년 벤더 매트릭스
- 도구 — 배포 방식 — 무료 등급(소규모 팀 기준) — 유료 진입가 — 소규모 팀의 적합 시나리오
- Braintrust — SaaS 전용 — 월 100만 스팬, 1만 평가 실행, 사용자 무제한 — Pro 플랜 월 $249 수준 — 첫 날부터 프롬프트 변경에 CI 게이트를 두려는 평가 중심 팀
- Langfuse — SaaS 또는 셀프 호스팅(MIT) — 셀프 호스팅은 사용량 제한 없음. 클라우드 Hobby는 보존 기간이 짧은 넉넉한 무료 쿼터 — 클라우드 Pro 월 $249 수준부터. 셀프 호스팅은 라이선스 비용 없음 — 데이터 거주성이 필요하거나 트레이스 저장소를 직접 소유하려는 팀
- LangSmith — SaaS(엔터프라이즈 외 셀프 호스팅 없음) — 월 5,000 트레이스, 14일 보존 — Plus 플랜 좌석당 월 $39 — 이미 LangChain 또는 LangGraph로 표준화한 팀
- MLflow — 셀프 호스팅(Apache 2.0) — 완전 오픈 소스 — 사용량 페이월 없음 — Databricks 관리형 옵션. OSS는 라이선스 비용 없음 — 트레이싱·평가·프롬프트 최적화·거버넌스를 한 플랫폼으로 묶고 싶고 서버를 스스로 운영할 수 있는 팀
- Arize Phoenix — 셀프 호스팅(Elastic License 2.0) 또는 관리형 Arize AX — 단일 노드 셀프 호스팅 무료 — 관리형 Arize AX는 단계별 가격 — 연구급 평가 지표를 기본 제공받고 싶은 팀
- Helicone — SaaS 또는 셀프 호스팅(프록시) — 월 10,000 요청 무료 — 무료 초과분은 사용량 기반 — 당장 문제가 에이전트 디버깅이 아니라 멀티 프로바이더 비용 라우팅인 팀
명확하게 짚어둘 두 가지가 있습니다. Langfuse의 셀프 호스팅 경로는 라이선스 비용이 정말로 0이지만, 운영 발자국이 실재합니다 — ClickHouse와 몇 개의 서비스를 같이 돌려야 하므로 2인 팀에게는 가볍지 않은 약속입니다. Phoenix의 “무료 단일 노드”는 트레이싱과 다수의 평가 지표를 주지만, 알림과 다중 테넌트 대시보드처럼 레버리지가 큰 워크플로우는 유료 Arize AX에 있습니다. 진영을 정하기 전에 라이선스와 기능 게이트를 직접 읽어 보세요.
한 페이지짜리 결정 체크리스트
- 상황 — 먼저 시도할 것 — 이유
- 프로토타입, 엔지니어 2명, 아직 예산 없음 — Braintrust 무료 등급 또는 Langfuse 클라우드 Hobby — 둘 다 오후 한 나절에 붙습니다. Braintrust의 100만 스팬 무료가 대부분의 프로토타입보다 오래 갑니다. Langfuse 클라우드는 나중에 셀프 호스팅으로 재작성 없이 이전할 수 있습니다.
- LangChain·LangGraph로 엔드 투 엔드 구축 중 — LangSmith — 네이티브 통합이 일주일 분량의 글루 코드를 아껴 줍니다. SaaS 전용이라는 제약을 수용하세요.
- 셀프 호스팅 필수(규제 데이터, 온프레미스 고객) — MLflow를 우선, Phoenix를 두 번째로 검토 — MLflow는 Apache 2.0 아래에서 가장 폭넓은 범위(트레이싱 + 평가 + 프롬프트 최적화 + AI 게이트웨이)를 가집니다. Phoenix는 평가 우선 OSS 중 가장 강력하지만 레버리지 큰 워크플로우는 유료에 있습니다.
- 즉각적인 통증이 품질이 아니라 비용 — Helicone — 프록시 기반 캡처는 비용 대시보드와 프로바이더 라우팅을 오후 한 나절에 줍니다. 품질 회귀가 중요해지기 시작하면 실제 평가 도구와 페어링하세요.
- 이미 Datadog 또는 Grafana 계약이 있음 — OpenTelemetry 기반 캡처(MLflow, Phoenix, Langfuse) + 기존 APM — OTel 트레이스를 기존 대시보드로 흘려보내세요. LLM 뷰만을 위해 두 번째 옵저버빌리티 좌석을 사지 마세요.
가는 길에 피해야 할 실수
- 트레이싱은 샀는데 평가는 건너뜀. 트레이싱은 무엇이 일어났는지를 알려 주고, 평가는 그것이 옳았는지를 알려 줍니다. 풍부한 트레이스에 평가 스위트가 없는 팀은 지난주 프롬프트 조정이 더 좋아졌는지 더 나빠졌는지 구별할 수 없습니다 — 무언가가 바뀌었다는 것만 봅니다.
- 에이전트 워크플로우에 프록시 캡처를 끼우기. 프록시는 한 번에 LLM 호출 한 건만 봅니다. 에이전트가 왜 지금 이 도구를 호출했는지, 어떤 컨텍스트를 가졌는지를 보지 못합니다. 에이전트라면 부모 스팬과 의사 결정 체인을 캡처하는 SDK가 필요합니다.
- 트레이스 스키마를 단일 벤더에 잠그기. OpenTelemetry 호환 도구나 깔끔한 익스포트가 있는 도구를 고르세요. 6개월치 트레이스 데이터를 나중에 옮기는 비용은 지금 신중한 비용보다 훨씬 큽니다.
- HTTP 5xx에만 알림 거기. 현대 LLM 실패 모드는 조용합니다 — 호출은 200을 돌려주지만 콘텐츠가 나쁩니다. API 레이어의 가용성 알림만이 아니라 평가 레이어의 점수 기반 알림이 필요합니다.
- “누가 이걸 보는가” 질문을 건너뛰기. 제품 매니저와 QA가 엔지니어링의 도움 없이 대시보드를 쓰지 못한다면, 옵저버빌리티 효익을 실제로 전달하지 못한 것입니다 — 온콜 엔지니어만 로그인하는 또 다른 도구를 만든 것입니다.
출처
- MLflow — 2026년 LLM·에이전트 옵저버빌리티 도구 톱 5 — 비교 대상 플랫폼 구성(MLflow·Langfuse·LangSmith·Phoenix·Braintrust), 무료·유료 등급 수치(LangSmith 월 5,000 트레이스·14일 보존·좌석당 월 $39, Langfuse Pro 월 $249 수준), Langfuse 셀프 호스팅 운영 발자국(ClickHouse + 5개 이상 서비스), 라이선스·거버넌스 사실(MLflow Apache 2.0, Phoenix Elastic License 2.0)의 근거.
- Arize — 2026년 자율 에이전트를 위한 최고의 AI 옵저버빌리티 도구 — SDK vs 프록시 구분(SDK 기반 도구의 “의사 결정 수준 가시성” 대 프록시의 와이어 페이로드 캡처), 평가 우선 프레이밍, 그리고 프로토타입 단계의 Langfuse 추천과 인수 이후 대안 평가 권고의 근거.
- Braintrust — 2026년 에이전트 신뢰성을 위한 옵저버빌리티 도구 5선 — 4개 레이어 모델(트레이싱·로그·메트릭·평가), Braintrust 무료 등급 수치(100만 스팬·1만 평가 실행·사용자 무제한), Helicone 무료 등급 수치(월 10,000 요청)의 근거.
- Latitude — 2026년 AI 에이전트 옵저버빌리티 도구 비교 — 벤더 횡단 가격 요약(Braintrust Pro 월 $249, LangSmith 좌석당 월 $39, Latitude 단계별 가격)과 배포 모델 구분(클라우드 전용 / 클라우드+셀프 호스팅 / 오픈 소스)의 근거.
관련 글
- 2026년 프로덕션 LLM 앱을 위한 프롬프트 캐싱 — 솔직한 비용 절감 플레이북
- 2026년 소규모 팀을 위한 AI 코딩 도우미 선택 가이드 — Copilot · Cursor · Claude Code
- 2026년 소규모 팀을 위한 스펙 기반 개발(SDD) — 언제 빛나고, 언제 과한가