클라우드네트웍스, 샌프란시스코 'Arize Observe 2026' 참관기 - 스스로 개선하는 AI 에이전트 시대
AI 에이전트를 만드는 것보다 운영하는 것이 더 어렵다는 걸, 실제로 배포해본 팀이라면 누구나 압니다. 사전 테스트를 아무리 꼼꼼히 해도, 실제 트래픽이 들어오기 시작하면 예상치 못한 곳에서 균열이 생깁니다. 잘못된 컨텍스트를 검색하거나, 필요한 단계를 건너뛰거나, 그럴듯해 보이지만 잘못된 추론 위에 답변을 쌓는 에이전트를 마주하게 됩니다. 이걸 어떻게 감지하고, 어떻게 고치고, 어떻게 반복 가능한 개선 프로세스로 만들 것인가. 지금 전 세계 AI 팀들이 씨름하고 있는 이 질문에 대해, 올해 업계의 대답이 한 방향으로 모이고 있다는 걸 현장에서 확인했습니다.지난 6월 4일, 클라우드네트웍스 전략사업본부와 AI이노베이션팀이 샌프란시스코 페리 빌딩의 Shack15에서 열린 Arize Observe 2026에 직접 참가했습니다. Arize AI 공식 파트너사로서, 이 행사가 다루는 질문들이 우리 고객들이 마주하고 있는 것과 정확히 같다는 걸 알고 있었기에 더 집중해서 들었습니다. 그리고 하루를 모두 보낸 뒤 내린 결론은 의외로 단순했습니다. 에이전트는 스스로 개선되는 시대로 가고 있고, 사람의 역할은 그 방향이 옳은지를 측정하고 지키는 것이라는 점입니다. 이 글은 그 결론에 이르기까지 현장에서 보고 들은 하루의 기록입니다.🏛️ Arize Observe 2026, 어떤 행사인가Arize Observe는 Arize AI가 매년 샌프란시스코에서 개최하는 AI Observability 및 에이전트 평가 분야의 연례 컨퍼런스입니다. 올해로 5회째를 맞이했으며, "The AI Agent Evals Conference"라는 이름으로 열렸습니다. 2026년 스폰서로는 AWS, Microsoft, Swift Ventures, CrewAI, Quality Kiosk, Band가 함께했고, Anthropic, Cursor, OpenAI, PromptQL, WorkOS, Factory, Daytona 등의 기술 리더들이 발표자로 나섰습니다.행사장인 Shack15은 샌프란시스코 페리 빌딩 안에 자리한 공간으로, 들어서는 순간부터 분위기가 남달랐습니다. 아치형 유리 천장 아래 참가자들이 노트북을 펴고 대화를 이어가는 풍경이 자연스러웠고, 로비 한쪽에는 "THE AGENT FEEDBACK LOOP"라는 문구가 새겨진 대형 큐브 조형물이 놓여 있었습니다. 바닥에는 "Trace it. Evaluate it. Fix it. | Arize AI" 슬로건이 새겨진 원형 스티커가 깔려 있었습니다. 이 행사가 무엇을 말하려는지를 공간 전체로 표현한 방식이었습니다.The Arena, Cerebral Valley, SoMa 세 개 트랙이 병렬로 운영되는 구조라 동선을 미리 짜두는 것이 중요했고, 실제로 그게 하루를 알차게 쓰는 데 결정적이었습니다. 행사 전날 밤 작년 Observe 세션 내용을 복기하며 올해 어떤 흐름이 이어질지 미리 정리해둔 것도 도움이 됐습니다.🎤 키노트: 자기개선 에이전트(Self-Improving Agent)라는 방향키노트는 Arize AI 공동창업자 겸 CEO Jason Lopatecki, 공동창업자 겸 CPO Aparna Dhinakaran을 시작으로 Product 담당 SallyAnn, Open Source/Phoenix 담당 Roger가 차례로 무대에 올랐습니다. 핵심 선언은 하나였습니다. "2025년은 에이전트의 해."Claude Code, Cursor, Codex로 대표되는 AI 코딩 에이전트, Arize가 'Harness'라고 부르는 이 카테고리가 처음으로 실질적인 업무 도구로 자리잡으면서, 에이전트가 실험실 밖으로 나와 실제 운영 환경 안으로 들어왔다는 선언이었습니다. 1년 전만 해도 존재하지 않던 단어가 이제 가장 중요한 제품 카테고리가 됐다는 말이 인상적이었습니다.키노트가 제시한 비전은 자기개선(self-improving) 에이전트였습니다. 지금은 사람이 트레이스를 직접 보고 수동으로 평가하고 개선하지만, Arize의 자동화 기능, 즉 Alyx 코파일럿, 자동 평가, Skills를 통해 사람이 직접 돌려야 하는 루프를 점차 줄여간다는 것입니다. 궁극적으로는 에이전트 Fleet이 클라우드에서 이슈 발견, 수정, 리뷰까지 스스로 돌리는 구조를 지향합니다. 이 그림에서 사람의 역할은 에이전트가 옳은 일을 하는지 확인하고, 시스템이 계속 좋아지도록 컨트롤하는 것으로 재정의됩니다.여기서 한 가지 관점이 분명해졌습니다. 자동화가 늘어난다는 것은 사람이 손에서 놓는 것과 더 꽉 붙잡는 것이 나뉜다는 의미입니다. 놓아야 할 것은 '실행'이고, 붙잡아야 할 것은 '판단'입니다. 이날 이후 들은 거의 모든 세션이 결국 이 한 축으로 모였습니다.🚀 Observe 2026에서 공개된 Arize AX 신규 기능키노트 비전을 뒷받침하듯, Arize AI는 이번 행사에서 Arize AX의 대규모 기능 업데이트를 함께 공개했습니다. 실패 감지부터 근본 원인 조사, 수정 검증, 지속적 개선까지 에이전트 피드백 루프 전 과정을 하나의 엔지니어링 워크플로우로 통합하는 것이 핵심 방향입니다. 발표된 기능들을 따라가다 보면, 이것들이 모두 같은 곳을 가리키고 있다는 게 보입니다. 사람이 직접 하던 실행 단계를 하나씩 에이전트에게 넘기는 흐름입니다.· Signal은 프로덕션 트레이스를 상시 검토하며 반복되는 실패 패턴을 자동으로 탐지하고, 근본 원인 분석과 권장 조치를 담은 조사 리포트를 제공합니다. 문제가 터진 뒤 트레이스를 뒤지는 것이 아니라, 쌓이기 전에 먼저 알 수 있는 구조입니다. 이슈를 찾는 일이 자동화되는 셈입니다.· Agent Orchestration은 레포지터리에 접근 가능한 관리형 에이전트를 실행해 실패 조사, 코드 분석, Eval 생성, 수정 제안, 보안 이슈 검토 등의 작업을 위임할 수 있게 합니다. Claude Code Managed Agents, Vercel, Daytona를 지원하며, 에이전트가 제안한 변경 사항은 엔지니어가 검토하고 승인한 후 적용됩니다. 이슈 발견에서 수정안과 PR 생성까지 에이전트가 이어가되, 최종 판단과 승인은 사람이 쥐고 있는 구조입니다.· Harness-as-a-Judge는 사전에 정의된 평가 기준에만 의존하지 않고, 프로덕션에서 새롭게 등장하는 실패 패턴에 맞춰 평가 신호를 자동으로 생성합니다. 평가라는, 그동안 가장 사람의 손을 타던 영역마저 에이전트가 거들기 시작했다는 의미입니다. 예상하지 못한 실패가 나타났을 때도 평가 체계가 함께 따라갈 수 있습니다.· Full-Agent Experimentation은 프롬프트 단위 테스트를 넘어 툴 사용 패턴, 검색 품질, 레이턴시, 트레이스, 평가 결과 등 에이전트 시스템 전체의 동작을 실행 단위로 비교합니다. 변경이 한 곳을 고치면서 다른 곳을 망가뜨리지 않았는지를 실제 실행을 통해 확인할 수 있습니다.· Voice Agent 지원은 텍스트 에이전트에 적용해온 Observability 워크플로우를 음성 대화 시스템으로 확장합니다. 오디오 세션, 전사본, 멀티모달 트레이스를 함께 확인하고 음성 대화를 재생하거나 직접 평가할 수 있습니다.🗣️ 현장에서 들은 주요 세션들세 트랙이 동시에 돌아가는 구조였기 때문에 처음부터 동선을 계획해 움직였습니다.Anthropic의 Marius Buleandra는 프론티어 모델 위에서 신뢰할 수 있는 에이전트를 구축하는 방법을 발표했습니다. 자동화가 빨라지는 흐름 속에서도 사람의 캘리브레이션은 대체 불가능하다는 메시지가 인상적이었습니다. 모델이 더 똑똑해질수록, 그 판단이 옳은 방향인지를 사람이 보정하는 일이 오히려 더 중요해진다는 것입니다. OpenAI의 Stuart Sy는 노이즈 많은 고객 피드백을 구조화된 신뢰 신호로 전환하는 접근법을 다뤘고, Cursor의 John Gilhuly는 에이전틱 코딩 SDLC와 원격 에이전트 운영 방식을 공유했습니다. Uber의 Aayush Agrawal은 "The Hardest Part of Evals Isn't the Tooling"이라는 주제로 평가 체계를 조직에 정착시키는 일의 현실적 어려움을 짚었습니다. Salesforce는 judge·critic·simulator 에이전트로 대규모 멀티에이전트 시스템의 동작을 지속적으로 검증하는 방법론을, CVS Health는 데모에서 지속 가능한 프로덕션 ROI로 연결하는 운영 프레임워크를 소개했습니다.금융·규제 산업 세션은 별도로 챙겨 들었습니다. Wells Fargo는 규제 환경에서 거버넌스를 갖춘 에이전틱 AI 구축 경험을 공유했습니다. BlackRock의 Abhigya Jain이 발표한 Responsible AI 세션은 특히 인상적이었습니다. 핵심 메시지는 "Responsible AI는 기능이 아니라 제품"이라는 것이었습니다. 안전장치를 사후에 덧붙이는 옵션이 아니라, 처음부터 제품의 일부로 설계해야 한다는 관점입니다. 발표에서는 PII 유출, 프롬프트 인젝션, 할루시네이션, 미인가 투자자문, 편향 차단 등을 포괄하는 가드레일 아키텍처가 소개됐고, 이 체계가 모델 개발부터 AI 도구, 채팅, 플랫폼 전반에 일관되게 적용된다는 점이 강조됐습니다. AI를 규제 환경에서 운영해야 하는 조직이라면 그대로 참고할 수 있을 만큼 구체적인 내용이었습니다.🤖 Arize다운 디테일행사장을 돌아다니다 보면, 이 회사가 무엇을 만드는 곳인지가 부대 프로그램에도 그대로 묻어났습니다.가장 눈길을 끈 것은 AI가 실시간으로 참가자의 얼굴을 그려주는 캐리커처 부스였습니다. 로봇 암이 직접 펜을 들고 스케치를 완성한 뒤 Arize 로고와 함께 인쇄해 주는 방식으로, 줄이 끊이지 않을 만큼 인기였습니다. AI Observability 컨퍼런스에서 AI가 직접 그림을 그려주는 장면은 그 자체로 꽤 상징적이었습니다."Human-in-the-loop"라는 이름의 부스도 인상적이었습니다. AI 테마의 커스텀 패치를 직접 골라 스웨터에 붙일 수 있는 공간이었는데, 사람이 마지막 마무리를 더한다는 행사의 메시지를 굿즈 체험으로 풀어낸 방식이 재미있었습니다. 행사 콘셉트를 단순히 배너로 거는 데 그치지 않고, 참가자가 직접 손으로 경험하게 만든 점이 Arize다웠습니다.🇰🇷 한국 기업 사례가 글로벌 무대에: LG U+의 AICC 발표이번 행사에서 가장 집중해서 들은 세션은 LG유플러스의 발표였습니다. "from Callbot to AI Agent: How LG U+ Reinvented Customer Service for 30M Subscribers"라는 제목으로, 콜봇 기반 운영에서 AI 에이전트로 전환한 여정을 담은 세션이었습니다.발표에서 공유된 구조는 AI가 실시간으로 통화를 전사하고 지식베이스에서 정답을 검색해 상담원 화면에 제시하고, 통화 품질 모니터링을 자동화하며, 도메인별 전문 모델을 멀티에이전트 구조로 라우팅하는 방식이었습니다. 범용 벤치마크는 자사 도메인의 품질을 보장하지 않으며, 고객·도메인 특화 평가 체계가 반드시 필요하다는 점도 강조됐습니다.발표를 관통한 메시지는 명확했습니다. "측정할 수 있으면 개선할 수 있다(If you can measure, you can develop)." 측정 가능한 평가 체계를 먼저 갖춰야 개선의 방향을 잡을 수 있고, 그래야 단순한 유스케이스에서 시작해(start simple) 점차 확장(scale)하는 길이 열린다는 것입니다. AI 도입을 검토하는 조직이라면 어디에나 적용되는 이야기였습니다. 측정 기준을 세운다는 것은 결국, 자동화가 빨라지는 가운데 사람이 무엇을 보고 개선 여부를 판단할지를 분명히 한다는 뜻이기도 합니다.Arize AI의 글로벌 컨퍼런스 무대에서 한국 기업이 직접 AI 에이전트 운영 사례를 발표했다는 사실 자체가, 국내 엔터프라이즈 AI 운영 수준이 이미 글로벌 논의의 한 자리를 차지하고 있음을 보여주는 장면이었습니다.🌉 페리 빌딩 앞 야외 애프터 파티모든 세션이 끝난 뒤에는 인근 호텔의 야외 공간에서 Observe After Hours가 이어졌습니다. 베이 브리지를 배경으로 참가자들이 삼삼오오 모여 대화를 나누는 그 시간이, 어쩌면 하루 중 가장 솔직한 이야기들이 오간 자리였습니다. 하루 종일 세션에서 나온 이야기들이 좀 더 편한 분위기에서 이어졌고, 처음 인사를 나눈 사람과 다음 대화를 약속하는 장면도 자주 눈에 띄었습니다. 컨퍼런스 출장에서 해피아워는 선택이 아니라는 것을 다시 한번 실감했습니다.🧭 Arize Observe 2026이 남긴 것Observe 2026을 관통하는 한 문장은 이것이었습니다."에이전트는 스스로 개선되는 시대로 간다. 사람의 역할은 그 방향이 옳은지 측정하고 지키는 것이다."키노트의 Signal과 Agent Orchestration이 이슈 발견부터 수정과 PR 생성까지 자동화하고, Harness-as-a-Judge가 평가마저 에이전트에게 맡기는 흐름은 모두 한 곳을 가리켰습니다. 에이전트가 점점 더 많은 일을 스스로 하게 될수록, 사람이 놓아야 할 것은 '실행'이고 붙잡아야 할 것은 '판단'입니다. BlackRock이 "Responsible AI는 기능이 아니라 제품"이라고 말한 것도, Anthropic이 "사람의 캘리브레이션은 대체 불가능하다"고 강조한 것도 결국 같은 이야기였습니다. 자동화가 빨라질수록, 그 자동화가 옳은 방향으로 가는지를 측정하고 지키는 일이 더 중요해집니다.이 질문은 국내 고객 환경에서도 동일하게 제기되고 있습니다. 어떻게 평가할 것인가, 어디서 실패하는지를 어떻게 빠르게 찾을 것인가, 개선 루프를 반복 가능한 프로세스로 만들면서도 사람의 판단을 어디에 둘 것인가. 클라우드네트웍스는 Arize AI 공식 파트너사로서, 이번 행사에서 확인한 방향성과 신규 기능들을 고객 환경에 맞는 도입 검토로 이어갈 수 있도록 지원하겠습니다. LLM 기반 서비스, RAG 파이프라인, AI 에이전트를 실운영하면서 품질 관리와 평가 체계 구축이 필요하신 경우 편하게 문의해 주시기 바랍니다.▶ 어라이즈 AI(Arize AI) 자세히보기
June 16, 2026