AI 엔지니어링 101: 성공적인 AI 제품 개발, 최신 기술보다 중요한 것은?

오늘날 우리는 인공지능(AI) 기술이 폭발적으로 발전하는 시대에 살고 있습니다. 엔비디아(Nvidia), 스탠퍼드, 넷플릭스 등 유수의 기관에서 AI 제품과 플랫폼 개발을 주도했으며, 베스트셀러 ‘AI 엔지니어링’의 저자인 **칩 후옌(Chip Huyen)**은 이 분야의 최전선에서 활동하는 전문가입니다. 그녀는 AI 제품을 성공적으로 구축하고 AI 전략을 수립하는 기업들을 컨설팅하며, 현장에서 실제로 효과를 발휘하는 것과 그렇지 않은 것을 명확히 구분합니다. 그녀의 통찰력은 AI 혁신의 본질이 화려한 최신 기술이 아닌, 사용자에게 집중하는 기본적인 공학적 원리에 있음을 강조합니다.

쉬운 목차

성공적인 AI 앱 개발의 진짜 핵심

많은 사람이 AI 앱 성능 향상을 위해 최신 AI 뉴스 파악이나 새로운 에이전트 프레임워크 도입, 또는 벡터 데이터베이스 선정에 과도하게 몰두합니다. 그러나 칩 후옌은 이러한 활동이 실제로는 앱 성능 개선에 미치는 영향이 미미하다고 지적합니다. 성공적인 AI 앱 개발은 기술적 화려함보다 사용자 경험과 플랫폼의 신뢰성에 달려 있습니다.

실제로 AI 앱을 개선하는 핵심 요소는 다음과 같습니다.

사용자와 대화하기: 사용자의 피드백을 깊이 있게 이해하고, 그들이 진정으로 원하는 것과 원하지 않는 것을 파악합니다.
더 나은 데이터 준비: 모델에 투입되는 데이터의 품질을 향상하고 체계적으로 준비하는 작업에 집중합니다.
안정적인 플랫폼 구축: AI 모델이 안정적으로 작동할 수 있는 플랫폼을 구축하여 사용자에게 끊김 없는 서비스를 제공합니다.
전체 워크플로 최적화: AI 앱의 모든 종단 간(end-to-end) 프로세스를 최적화하여 효율성을 높입니다.
프롬프트 작성 능력 강화: 모델을 최대한 활용할 수 있도록 더 효과적인 프롬프트를 작성하는 데 공을 들입니다.

AI 모델 학습, ‘사전’보다 ‘사후’에 집중해야 하는 이유

AI 모델 학습 과정은 크게 **사전 학습(Pre-training)**과 **사후 학습(Post-training, 미세 조정)**으로 나뉩니다. 사전 학습은 방대한 인터넷 데이터로 통계적 정보를 인코딩하여 다음 단어를 예측하는 모델의 기본 능력을 키웁니다. 모델의 일반적인 역량을 높이는 이 과정은 대규모 프론티어 연구소에서 주로 진행합니다.

반면, 사후 학습은 모델의 행동을 특정 목표에 맞게 조정하는 과정으로, 실제 응용 제품의 성능을 좌우합니다. 사후 학습은 전문가의 정답 데이터로 모델을 훈련시키는 지도 학습 기반 미세 조정 방식을 포함합니다. 또한, 사람의 선호도를 반영한 인간 피드백 기반 강화 학습(RLHF) 방식도 중요합니다. 이는 사람이 두 모델의 응답 중 더 나은 것을 비교하여 ‘보상 모델(Reward Model)’을 훈련시키고, 모델이 원하는 방향의 응답을 생성하도록 유도합니다.

최근 몇 년간 기반 모델 자체의 성능 향상 속도는 과거처럼 비약적이지 않을 수 있습니다. 따라서 AI 연구 및 개발의 주요 가치는 사후 학습 단계에서 나옵니다. 모델의 잠재력을 최대한 끌어내어 실제 사용 환경에서 의미 있는 결과를 만드는 데 집중해야 합니다.

검색 증강 생성(RAG): 데이터 준비가 성능을 좌우한다

AI 모델이 질문에 정확히 답하기 위해 관련 문서를 검색하여 컨텍스트를 제공하는 기술을 **검색 증강 생성(RAG)**이라고 부릅니다. 이는 대규모 언어 모델(LLM)에 외부 지식을 주입하는 핵심적인 방법론입니다.

칩 후옌은 RAG 솔루션의 성능에서 가장 큰 영향을 미치는 것은 데이터베이스를 선택하는 고민이 아니라 데이터를 준비하는 방식이라고 강조합니다. 데이터 접근 속도를 결정하는 레이턴시나 접근 패턴에 따라 벡터 데이터베이스가 중요해지기는 하지만, 답변의 순수한 품질 측면에서는 데이터 준비가 압도적으로 중요합니다.

효과적인 데이터 준비는 여러 방식을 포함합니다. 예를 들어, 문서를 최적의 크기로 나누어 청크(Chunk)하고, 각 청크에 요약이나 메타데이터, 심지어 가상의 질문 등 맥락 정보를 추가합니다. 또한, 기존 문서를 질문과 답변 형식으로 다시 작성하여 모델이 정보를 쉽게 검색하고 활용하도록 돕는 방법도 있습니다.

AI 성과 측정의 딜레마와 실용적인 평가(Eval) 활용법

AI 제품 개발 과정에서 **평가(Evals)**의 필요성에 대한 논쟁이 있습니다. 일부 기업은 엄격한 평가 대신 ‘감(Vibe)’으로 제품을 출시하기도 합니다. 칩 후옌은 평가의 중요성을 인정하면서도, 상황에 따른 실용적인 접근을 제안합니다.

평가는 규모가 큰 서비스나 실패 시 치명적인 결과를 초래하는 제품, 그리고 경쟁 우위를 확보해야 하는 핵심 기능에 반드시 필요합니다. 하지만 모든 기능에 완벽한 평가를 적용하는 것은 막대한 비용을 소모하며, 때로는 그 작은 성능 향상을 위해 엔지니어를 투입하는 것보다 새로운 기능을 빠르게 출시하는 것이 더 큰 사업적 가치를 가져옵니다.

궁극적으로 평가는 단순히 최종 결과만 측정하는 것이 아닙니다. 복잡한 AI 워크플로의 모든 단계에서 모델이 제대로 작동하는지 확인하는 작업입니다. 이는 제품 개발 방향을 제시하고, 모델이 특정 사용자 세그먼트에서 제대로 작동하지 않는 **실패 지점(Failure Mode)**을 찾아 개선 기회를 발견하는 데 결정적인 역할을 합니다.

미래 조직의 변화: 시스템 사고력의 중요성

AI 도구가 엔지니어의 일상에 깊숙이 들어오면서, 조직 구조와 엔지니어링 역할도 변화하고 있습니다. AI 코딩 도구는 코드를 빠르게 생성하여 주니어 엔지니어의 생산성을 높일 수 있습니다. 실제로 한 회사에서는 성과가 가장 높은 시니어 엔지니어가 AI 도구를 통해 가장 큰 생산성 향상을 경험했다는 실험 결과도 나왔습니다. 반면, 어떤 회사에서는 코딩 스타일에 대한 기준이 높은 시니어 엔지니어가 AI 생성 코드에 저항감을 보이기도 했습니다.

이러한 변화에 따라 일부 기업은 시니어 엔지니어에게 PR 검토와 엔지니어링 프로세스 설계를 맡기고, 주니어 엔지니어나 AI가 코드를 생성하도록 역할을 재분배합니다. 이는 앞으로 AI가 코딩 자동화를 가속화할 미래에 대비하는 전략입니다.

AI가 단순 코딩 업무를 자동화할수록, **시스템 사고력(System Thinking)**은 더욱 중요한 역량이 됩니다. 컴퓨터 공학은 단순히 코딩 언어를 배우는 것이 아니라, 전체 시스템이 어떻게 작동하는지를 이해하고 복잡한 문제를 단계별로 해결하는 방법을 배우는 것입니다. AI는 명확히 정의된 작업을 잘 수행하지만, 여러 구성 요소가 얽힌 복잡한 환경에서의 디버깅이나 전체론적 문제 해결에는 여전히 어려움을 겪습니다.

AI 시대, ‘무엇을 만들까’ 아이디어 고갈 시대 극복법

놀라운 AI 도구가 많아졌음에도 불구하고, 많은 개발자가 **”무엇을 만들어야 할지”**에 대한 아이디어 고갈을 겪습니다. AI가 코드를 짜주고 디자인까지 도와주는 시대에, 오히려 새로운 아이디어를 구상하는 것이 더 큰 문제로 떠오른 것입니다.

칩 후옌은 이 ‘아이디어 위기’를 극복하기 위한 실용적인 조언을 제공합니다. 바로 일상의 불편함에 주목하는 것입니다. 지난 한 주 동안 자신이 했던 일 중 가장 좌절감을 느꼈던 순간을 찾아보세요. 그리고 ‘이 일을 다른 방식으로 할 수 없을까?’라고 질문을 던집니다.

AI는 개인의 니즈를 충족하는 **마이크로 도구(Micro Tools)**를 만드는 데 매우 강력한 힘을 발휘합니다. 일상의 작은 문제점, 예를 들어 구글 문서에서 이미지를 일괄 다운로드하는 것과 같은 틈새 문제를 해결하는 작은 앱을 만드는 것부터 시작하면 됩니다. 자신의 좌절감을 해소하기 위해 무언가를 구축하는 과정에서, AI를 활용하고 채택하는 능력 또한 자연스럽게 성장합니다.

AI 엔지니어링의 본질은 최첨단 기술 자체에 매몰되는 것이 아니라, 사용자와의 연결을 통해 현실 문제를 해결하는 견고한 공학적 토대를 구축하는 데 있습니다. 모델의 사후 학습에 집중하고, 데이터 준비를 최적화하며, 시스템 전체를 이해하는 시스템 사고력을 키우는 것이 성공의 열쇠입니다. 화려한 AI 뉴스 속에서도 변치 않는 기본에 충실할 때, 우리는 AI 시대를 선도하는 가치 있는 제품을 만들어낼 수 있을 것입니다.