AI 비서에게 10억 예산 결재를 맡긴다면? — 위험한 AI 행동을 막는 ‘휴먼 인 더 루프’ 미들웨어

방금 AI 비서가 중요한 파트너에게 메일을 보냈다는 알림을 받았습니다. 하지만 메일 내용이 내가 의도했던 것과 완전히 다르다면 어떨까요?

특히 AI 에이전트가 ‘실행력’을 갖게 될 때, 사용자의 불안감은 커질 수밖에 없습니다. 메일 발송이나 대규모 예산 승인처럼 한 번 실행되면 되돌릴 수 없는 행동을 AI가 하기 직전, 인간이 멈춰 세우고 확인해야 합니다.

이러한 AI의 위험하거나 비싼 행동을 사전에 방지하는 것이 바로 ‘휴먼 인 더 루프(Human-in-the-Loop, HIL)’ 미들웨어의 핵심입니다. HIL은 AI의 효율성과 인간의 최종 통제력을 결합하는 필수적인 안전장치입니다.

쉬운 목차

Toggle

AI 에이전트의 기본적인 ‘실행 루프’

AI 에이전트는 기본적으로 모델이 외부 도구를 호출하는 반복적인 작업을 수행합니다. 모델은 최종적인 응답을 사용자에게 전달하기 전까지 필요한 도구를 연쇄적으로 계속 실행합니다.
예를 들어, 메일을 보내야 한다면 ‘메일 발송 도구(Send Email Tool)’를 호출하는 식입니다. HIL 미들웨어는 이 실행 루프의 중간에 인간의 개입 단계를 추가하여 안전성을 높입니다.

비싸거나 위험한 도구 실행을 막는 방패

HIL 미들웨어는 도구 실행이 실제 돈이 들거나(Expensive) 큰 비즈니스 리스크를 수반할 때 특히 유용합니다. 실제 결제가 일어나는 금융 API를 호출하거나, 대량의 고객 데이터를 삭제하는 등의 행위가 여기에 해당합니다. 미들웨어는 모델이 도구 호출을 결정하는 순간 그 실행을 잠시 멈춥니다. 그 후 인간 사용자의 최종적인 피드백을 받고 나서야 실제 도구 실행을 조건부로 재개합니다.

HIL 미들웨어가 제공하는 세 가지 의사결정 방식

HIL은 단순한 ‘실행 또는 중지’를 넘어 세밀한 인간의 통제를 지원합니다. 사용자가 AI의 잠재적 행동에 대해 내릴 수 있는 가장 일반적인 세 가지 의사결정 방식이 있습니다.

첫째, 승인(Approval)은 AI가 작성한 내용(예: 메일 초안)을 검토한 후 이상이 없다고 판단할 때 사용합니다. 초안은 작성된 그대로 최종 발송이 진행됩니다.
둘째, 수정(Edit)은 AI의 초안에 수신자 변경이나 문구 수정과 같은 부분적인 편집이 필요할 때 사용합니다. 수정된 내용을 바탕으로 도구 실행이 즉시 재개됩니다.
셋째, 거부(Rejection)는 AI의 초안을 완전히 거부하고 모델에게 왜 다시 작성해야 하는지 피드백 메시지를 제공할 때 선택합니다.