AI는 이제 “잘 대답하는 것”보다 “믿을 수 있는가”가 중요해졌다

『에이전트 시대의 AI 시스템 설계』를 읽고 가장 인상 깊었던 3가지 패턴
생성형 AI가 등장한 이후 정말 많은 변화가 일어났다.
몇 년 전만 해도:
- “AI가 글을 쓴다”
- “코드를 만든다”
- “사람처럼 대화한다”
는 것 자체가 충격이었다.
그런데 이제는 어느 정도 익숙해졌다.
오히려 사람들의 관심은 조금 다른 방향으로 이동하고 있다.
이제 중요한 건:
- 얼마나 자연스럽게 말하느냐보다
- 얼마나 정확한가
- 얼마나 안전한가
- 얼마나 믿을 수 있는가
에 가까워지고 있다.
나 역시 최근 AI 관련 책들을 꽤 읽어보면서 느낀 점이 하나 있었다.
초기 생성형 AI 담론은 대부분:
- 프롬프트를 어떻게 잘 쓰는가
- 어떤 모델이 더 똑똑한가
- 어떤 기능이 더 놀라운가
에 집중되어 있었다면,
이제는:
“AI를 실제 서비스 수준으로 운영하려면 어떻게 해야 하는가”
라는 질문이 훨씬 중요해지고 있다는 점이다.
그런 의미에서 『에이전트 시대의 AI 시스템 설계』는 꽤 인상적인 책이었다.
이 책은 단순히:
- ChatGPT 사용법
- 프롬프트 팁
- 최신 모델 비교
같은 이야기에 머물지 않는다.
오히려:
- AI 신뢰성
- 검증 구조
- 안전장치
- 에이전트 설계
- 운영 아키텍처
같은 훨씬 현실적인 문제들을 깊게 다룬다.
읽으면서 계속 들었던 생각은:
“이제 AI는 단순한 생성기가 아니라 시스템이 되어가는구나”
였다.
그중에서도 특히 인상 깊었던 세 가지 패턴이 있었다.
1. 패턴 4: 기본 RAG
“모든 걸 기억하는 AI”보다 “잘 찾아오는 AI”가 중요해진다
처음 생성형 AI가 등장했을 때 사람들이 가장 놀랐던 건:
“이 AI는 왜 이렇게 많이 알고 있지?”
라는 부분이었다.
하지만 조금만 사용해 보면 금방 한계를 느끼게 된다.
LLM은:
- 최신 정보를 모르기도 하고
- 특정 회사 내부 데이터는 당연히 모르며
- 틀린 정보를 사실처럼 말하기도 한다.
특히 업무에서 AI를 쓰기 시작하면 문제가 더 커진다.
예를 들어:
- 사내 정책 문서
- 프로젝트 위키
- 고객 데이터
- 기술 문서
- 최신 법률 정보
같은 건 모델 내부에 존재하지 않는다.
결국 현실적인 AI 시스템은:
“모델의 기억력”만으로 동작할 수 없다.
그래서 등장한 구조가 바로 RAG(Retrieval-Augmented Generation)다.
쉽게 말하면:
- 먼저 필요한 정보를 검색하고
- 그 검색 결과를 AI에게 전달한 뒤
- 그 내용을 바탕으로 답변하게 만드는 구조다.
처음엔 나도:
“그냥 검색 붙인 챗봇 아닌가?”
정도로 생각했다.
그런데 책을 읽으면서 생각이 꽤 바뀌었다.
RAG는 단순 기능이 아니라:
생성형 AI를 실제 서비스 수준으로 끌어올리는 핵심 구조
에 가까웠다.
왜냐하면 현실의 대부분 업무는:
- 기억력 문제가 아니라
- 정보 접근 문제
이기 때문이다.
예를 들어 개발자에게 중요한 건:
- 쿠버네티스 전체를 암기하는 능력보다
- 필요한 문서를 빠르게 찾아 이해하는 능력
에 가깝다.
AI도 비슷해지고 있다는 느낌을 받았다.
RAG가 중요한 진짜 이유
책에서 특히 좋았던 부분은:
단순히 “벡터 DB를 사용한다” 수준에서 끝나지 않았다는 점이다.
보통 RAG를 이야기하면:
- 임베딩
- 벡터 검색
- Chunking
- Similarity Search
같은 기술 용어 위주로 설명하는 경우가 많다.
하지만 이 책은:
“왜 검색 품질이 중요한가”
를 더 중요하게 다룬다.
생각해 보면 당연하다.
AI가 아무리 뛰어나도:
- 잘못된 문서를 가져오면
- 잘못된 컨텍스트를 참고하게 되고
- 결국 그럴듯한 오답을 만든다.
즉:
Garbage In, Garbage Out
이다.

특히 인상 깊었던 건:
RAG도 결국 “환각을 줄이는 도구”이지,
환각을 완전히 제거하는 기술은 아니라는 설명이었다.
이 부분이 꽤 현실적으로 느껴졌다.
많은 사람들이:
- RAG 붙이면 정확해진다
고 생각하지만,
실제로는:
- 검색 품질
- 컨텍스트 길이
- 문서 정제
- 검색 전략
같은 요소들이 모두 중요하다.
읽으면서:
“AI 시스템은 결국 정보 흐름을 설계하는 일이다”
라는 생각이 강하게 들었다.
2. 패턴 17: 심판형 LLM
AI가 만든 답을 또 다른 AI가 검증한다
두 번째로 인상 깊었던 건 “심판형 LLM” 패턴이었다.
이 부분은 개인적으로 정말 흥미로웠다.
왜냐하면 지금 생성형 AI 시대에서 가장 큰 문제 중 하나가 결국:
“AI는 너무 자연스럽게 틀린다”
는 점이기 때문이다.
사람이 틀린 말을 하면:
- 머뭇거리거나
- 확신이 없거나
- 설명이 어색해지는 경우가 많다.
그런데 AI는 다르다.
틀린 정보도:
- 굉장히 유창하게
- 논리적으로
- 자신감 있게 말한다.
그래서 더 위험하다.
특히 업무에서 AI를 쓰기 시작하면:
- 보고서
- 요약
- 분석
- 코드
- 문서 생성
같은 작업 결과를 무조건 신뢰하기 어려워진다.
결국 필요한 건:
“생성 능력”보다 “검증 능력”
이다.
그리고 이 책은 그 문제를 굉장히 현실적으로 다룬다.
AI의 답을 AI가 평가한다는 발상
심판형 LLM은 쉽게 말하면:
AI가 만든 결과를 또 다른 AI가 평가하는 구조
다.
예를 들어:
- 사실성
- 핵심 요약 완성도
- 명확성
- 간결성
같은 기준으로 점수를 매긴다.
처음에는 조금 이상하게 느껴졌다.
“AI를 못 믿어서 검증하려는데
그 검증도 AI가 한다고?”
그런데 곰곰이 생각해 보면 오히려 현실적인 접근이었다.
왜냐하면 실제 서비스에서는:
- 사람이 모든 결과를 검수할 수 없고
- 자동화 지표(BLEU, ROUGE)만으로는 부족하기 때문이다.
책에서도 이 부분을 굉장히 잘 설명한다.
예를 들어:
- BLEU는 문장 유사도는 볼 수 있지만
- 실제 의미를 정확히 이해하는 건 어렵다.
반면 LLM은:
- 문맥
- 의미
- 논리 흐름
같은 더 복합적인 요소를 평가할 수 있다.
즉:
“언어를 가장 잘 이해하는 건 결국 또 다른 언어 모델”
이라는 접근이다.

가장 인상 깊었던 부분: 평가 루브릭
개인적으로 정말 좋았던 부분은:
심판형 LLM을 “막연한 감성 평가”로 설명하지 않았다는 점이다.
책에서는:
- 사실성
- 완전성
- 간결성
- 명확성
같은 평가 기준을 아주 구체적으로 나눈다.
예를 들어:
- 1점은 어떤 상태인지
- 3점은 어떤 상태인지
- 5점은 어떤 상태인지
를 세밀하게 정의한다.

이걸 읽으면서:
“결국 AI 운영은 평가 체계를 만드는 일이다”
라는 생각이 들었다.
사람 조직도:
- 좋은 기준
- 좋은 리뷰 시스템
- 좋은 피드백 구조
가 중요하듯,
AI 시스템도 결국:
- 어떻게 평가하는가
가 핵심이라는 느낌이었다.
프롬프트 → ML → 미세조정으로 발전하는 흐름
또 하나 흥미로웠던 건:
심판형 LLM이 점점 진화하는 구조였다.
책에서는:
- 프롬프트 기반 평가
- ML 기반 평가
- 미세조정 기반 평가
로 발전하는 흐름을 설명한다.
처음엔 단순 프롬프트로 시작하지만,
데이터가 쌓이면:
- ML 모델로 패턴을 학습하고
- 더 나아가 평가 모델 자체를 미세조정한다.
이 부분을 읽으면서:
“앞으로 AI 시스템은 스스로 품질을 관리하게 되겠구나”
라는 생각이 들었다.
단순 생성 AI가 아니라:
- 생성
- 평가
- 수정
- 검증
이 반복되는 구조 말이다.
3. 패턴 32: 가드레일
AI 시대에 가장 중요한 건 어쩌면 “보안”이다
세 번째로 가장 인상 깊었던 건 “가드레일(Guardrails)” 패턴이었다.
사실 AI 이야기를 하면 대부분:
- 얼마나 똑똑한가
- 얼마나 자연스러운가
- 얼마나 창의적인가
에 집중한다.
그런데 현실 세계에서 더 중요한 건:
“AI가 하면 안 되는 행동을 막는 것”
이다.
AI가 강력해질수록:
- 악성 입력
- 프롬프트 인젝션
- 개인정보 유출
- 유해 콘텐츠 생성
- 정책 위반
같은 문제들도 훨씬 심각해진다.
책은 이 부분을 굉장히 현실적으로 설명한다.
AI 보안은 생각보다 훨씬 복잡하다
특히 좋았던 건:
보안을 단순 “필터링” 수준으로 설명하지 않았다는 점이다.
보통 사람들은:
“금칙어 막으면 되는 거 아닌가?”
라고 생각하기 쉽다.
하지만 실제 AI 시스템은 훨씬 복잡하다.
예를 들어:
- 입력 단계
- 검색 단계
- 실행 단계
- 출력 단계
모든 곳에서 문제가 발생할 수 있다.
책에서는 이를:
- 입력 가드레일
- 검색 가드레일
- 실행 가드레일
- 출력 가드레일
구조로 설명한다.

이 부분을 보면서:
“AI 보안은 결국 시스템 전체 설계 문제구나”
라는 생각이 들었다.
가장 흥미로웠던 부분: Prompt Injection
특히 흥미로웠던 건 Prompt Injection 이야기였다.
LLM은 기본적으로:
- 시스템 프롬프트
- 사용자 입력
을 모두 텍스트로 본다.
즉 공격자가 교묘하게 입력하면:
- 원래 정책을 무시하게 만들 수도 있고
- 시스템 규칙을 우회할 수도 있다.
책에서는:
- Toxicity Scanner
- Prompt Injection Scanner
- Regex 기반 탐지
- 개인정보 제거
같은 실제 예시 코드까지 보여준다.

이 부분이 특히 좋았던 이유는:
“AI 보안도 결국 엔지니어링이다”
라는 현실감이 느껴졌기 때문이다.
단순 철학 이야기가 아니라:
실제로 운영 환경에서 어떻게 막는지를 보여준다.
가장 현실적이었던 문장
책에서 특히 공감됐던 건:
“가드레일이 강할수록 성능과 사용성은 떨어질 수 있다”
는 부분이었다.
이건 보안의 영원한 딜레마다.
- 보안을 강화하면 불편해지고
- 자유도를 높이면 위험해진다.
AI도 똑같다.
그리고 결국 중요한 건:
“어디까지 허용할 것인가”
를 설계하는 일이다.
읽으면서:
AI 시대의 핵심 역량 중 하나는
“좋은 답을 만드는 능력”이 아니라,
“위험한 결과를 막는 능력”
이 될 수도 있겠다는 생각이 들었다.
이 책이 좋았던 진짜 이유
이 책이 인상 깊었던 이유는:
최신 AI 모델을 소개해서가 아니다.
오히려:
“AI를 실제 시스템으로 운영할 때 생기는 문제”
를 굉장히 현실적으로 다룬다는 점이 좋았다.
특히 내가 인상 깊게 본 세 가지 패턴은 서로 연결된다.
- RAG는 외부 지식을 연결하고
- 심판형 LLM은 결과를 검증하며
- 가드레일은 시스템을 보호한다
즉:
AI를 “실제로 믿고 사용할 수 있는 상태”로 만드는 구조들이다.
초기 생성형 AI 시대에는:
- 얼마나 놀라운 결과를 만드느냐가 중요했다면,
이제는:
- 얼마나 정확한가
- 얼마나 안전한가
- 얼마나 일관적인가
- 얼마나 신뢰할 수 있는가
가 훨씬 중요해지고 있다.
그리고 『에이전트 시대의 AI 시스템 설계』는
그 방향성을 굉장히 잘 보여주는 책이었다.
단순히:
- AI를 “써보는 수준”을 넘어,
- 실제 서비스와 운영 관점에서 이해하고 싶은 사람이라면
정말 한 번쯤 읽어볼 만한 책이라고 느꼈다.
"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."