AI는 이제 “잘 대답하는 것”보다 “믿을 수 있는가”가 중요해졌다

리스토리의 리뷰&스크랩

AI는 이제 “잘 대답하는 것”보다 “믿을 수 있는가”가 중요해졌다

리스토리™ 2026. 5. 25. 22:29

『에이전트 시대의 AI 시스템 설계』를 읽고 가장 인상 깊었던 3가지 패턴

생성형 AI가 등장한 이후 정말 많은 변화가 일어났다.

몇 년 전만 해도:

“AI가 글을 쓴다”
“코드를 만든다”
“사람처럼 대화한다”

는 것 자체가 충격이었다.

그런데 이제는 어느 정도 익숙해졌다.
오히려 사람들의 관심은 조금 다른 방향으로 이동하고 있다.

이제 중요한 건:

얼마나 자연스럽게 말하느냐보다
얼마나 정확한가
얼마나 안전한가
얼마나 믿을 수 있는가

에 가까워지고 있다.

나 역시 최근 AI 관련 책들을 꽤 읽어보면서 느낀 점이 하나 있었다.

초기 생성형 AI 담론은 대부분:

프롬프트를 어떻게 잘 쓰는가
어떤 모델이 더 똑똑한가
어떤 기능이 더 놀라운가

에 집중되어 있었다면,

이제는:

“AI를 실제 서비스 수준으로 운영하려면 어떻게 해야 하는가”

라는 질문이 훨씬 중요해지고 있다는 점이다.

그런 의미에서 『에이전트 시대의 AI 시스템 설계』는 꽤 인상적인 책이었다.

이 책은 단순히:

ChatGPT 사용법
프롬프트 팁
최신 모델 비교

같은 이야기에 머물지 않는다.

오히려:

AI 신뢰성
검증 구조
안전장치
에이전트 설계
운영 아키텍처

같은 훨씬 현실적인 문제들을 깊게 다룬다.

읽으면서 계속 들었던 생각은:

“이제 AI는 단순한 생성기가 아니라 시스템이 되어가는구나”

였다.

그중에서도 특히 인상 깊었던 세 가지 패턴이 있었다.

1. 패턴 4: 기본 RAG

“모든 걸 기억하는 AI”보다 “잘 찾아오는 AI”가 중요해진다

처음 생성형 AI가 등장했을 때 사람들이 가장 놀랐던 건:

“이 AI는 왜 이렇게 많이 알고 있지?”

라는 부분이었다.

하지만 조금만 사용해 보면 금방 한계를 느끼게 된다.

LLM은:

최신 정보를 모르기도 하고
특정 회사 내부 데이터는 당연히 모르며
틀린 정보를 사실처럼 말하기도 한다.

특히 업무에서 AI를 쓰기 시작하면 문제가 더 커진다.

예를 들어:

사내 정책 문서
프로젝트 위키
고객 데이터
기술 문서
최신 법률 정보

같은 건 모델 내부에 존재하지 않는다.

결국 현실적인 AI 시스템은:

“모델의 기억력”만으로 동작할 수 없다.

그래서 등장한 구조가 바로 RAG(Retrieval-Augmented Generation)다.

쉽게 말하면:

먼저 필요한 정보를 검색하고
그 검색 결과를 AI에게 전달한 뒤
그 내용을 바탕으로 답변하게 만드는 구조다.

처음엔 나도:

“그냥 검색 붙인 챗봇 아닌가?”

정도로 생각했다.

그런데 책을 읽으면서 생각이 꽤 바뀌었다.

RAG는 단순 기능이 아니라:

생성형 AI를 실제 서비스 수준으로 끌어올리는 핵심 구조

에 가까웠다.

왜냐하면 현실의 대부분 업무는:

기억력 문제가 아니라
정보 접근 문제

이기 때문이다.

예를 들어 개발자에게 중요한 건:

쿠버네티스 전체를 암기하는 능력보다
필요한 문서를 빠르게 찾아 이해하는 능력

에 가깝다.

AI도 비슷해지고 있다는 느낌을 받았다.

RAG가 중요한 진짜 이유

책에서 특히 좋았던 부분은:
단순히 “벡터 DB를 사용한다” 수준에서 끝나지 않았다는 점이다.

보통 RAG를 이야기하면:

임베딩
벡터 검색
Chunking
Similarity Search

같은 기술 용어 위주로 설명하는 경우가 많다.

하지만 이 책은:

“왜 검색 품질이 중요한가”

를 더 중요하게 다룬다.

생각해 보면 당연하다.

AI가 아무리 뛰어나도:

잘못된 문서를 가져오면
잘못된 컨텍스트를 참고하게 되고
결국 그럴듯한 오답을 만든다.

즉:

Garbage In, Garbage Out

이다.

특히 인상 깊었던 건:
RAG도 결국 “환각을 줄이는 도구”이지,
환각을 완전히 제거하는 기술은 아니라는 설명이었다.

이 부분이 꽤 현실적으로 느껴졌다.

많은 사람들이:

RAG 붙이면 정확해진다
고 생각하지만,

실제로는:

검색 품질
컨텍스트 길이
문서 정제
검색 전략

같은 요소들이 모두 중요하다.

읽으면서:

“AI 시스템은 결국 정보 흐름을 설계하는 일이다”

라는 생각이 강하게 들었다.

2. 패턴 17: 심판형 LLM

AI가 만든 답을 또 다른 AI가 검증한다

두 번째로 인상 깊었던 건 “심판형 LLM” 패턴이었다.

이 부분은 개인적으로 정말 흥미로웠다.

왜냐하면 지금 생성형 AI 시대에서 가장 큰 문제 중 하나가 결국:

“AI는 너무 자연스럽게 틀린다”

는 점이기 때문이다.

사람이 틀린 말을 하면:

머뭇거리거나
확신이 없거나
설명이 어색해지는 경우가 많다.

그런데 AI는 다르다.

틀린 정보도:

굉장히 유창하게
논리적으로
자신감 있게 말한다.

그래서 더 위험하다.

특히 업무에서 AI를 쓰기 시작하면:

보고서
요약
분석
코드
문서 생성

같은 작업 결과를 무조건 신뢰하기 어려워진다.

결국 필요한 건:

“생성 능력”보다 “검증 능력”

이다.

그리고 이 책은 그 문제를 굉장히 현실적으로 다룬다.

AI의 답을 AI가 평가한다는 발상

심판형 LLM은 쉽게 말하면:

AI가 만든 결과를 또 다른 AI가 평가하는 구조

다.

예를 들어:

사실성
핵심 요약 완성도
명확성
간결성

같은 기준으로 점수를 매긴다.

처음에는 조금 이상하게 느껴졌다.

“AI를 못 믿어서 검증하려는데
그 검증도 AI가 한다고?”

그런데 곰곰이 생각해 보면 오히려 현실적인 접근이었다.

왜냐하면 실제 서비스에서는:

사람이 모든 결과를 검수할 수 없고
자동화 지표(BLEU, ROUGE)만으로는 부족하기 때문이다.

책에서도 이 부분을 굉장히 잘 설명한다.

예를 들어:

BLEU는 문장 유사도는 볼 수 있지만
실제 의미를 정확히 이해하는 건 어렵다.

반면 LLM은:

문맥
의미
논리 흐름

같은 더 복합적인 요소를 평가할 수 있다.

즉:

“언어를 가장 잘 이해하는 건 결국 또 다른 언어 모델”

이라는 접근이다.

가장 인상 깊었던 부분: 평가 루브릭

개인적으로 정말 좋았던 부분은:
심판형 LLM을 “막연한 감성 평가”로 설명하지 않았다는 점이다.

책에서는:

사실성
완전성
간결성
명확성

같은 평가 기준을 아주 구체적으로 나눈다.

예를 들어:

1점은 어떤 상태인지
3점은 어떤 상태인지
5점은 어떤 상태인지

를 세밀하게 정의한다.

이걸 읽으면서:

“결국 AI 운영은 평가 체계를 만드는 일이다”

라는 생각이 들었다.

사람 조직도:

좋은 기준
좋은 리뷰 시스템
좋은 피드백 구조

가 중요하듯,

AI 시스템도 결국:

어떻게 평가하는가
가 핵심이라는 느낌이었다.

프롬프트 → ML → 미세조정으로 발전하는 흐름

또 하나 흥미로웠던 건:
심판형 LLM이 점점 진화하는 구조였다.

책에서는:

프롬프트 기반 평가
ML 기반 평가
미세조정 기반 평가

로 발전하는 흐름을 설명한다.

처음엔 단순 프롬프트로 시작하지만,
데이터가 쌓이면:

ML 모델로 패턴을 학습하고
더 나아가 평가 모델 자체를 미세조정한다.

이 부분을 읽으면서:

“앞으로 AI 시스템은 스스로 품질을 관리하게 되겠구나”

라는 생각이 들었다.

단순 생성 AI가 아니라:

생성
평가
수정
검증

이 반복되는 구조 말이다.

3. 패턴 32: 가드레일

AI 시대에 가장 중요한 건 어쩌면 “보안”이다

세 번째로 가장 인상 깊었던 건 “가드레일(Guardrails)” 패턴이었다.

사실 AI 이야기를 하면 대부분:

얼마나 똑똑한가
얼마나 자연스러운가
얼마나 창의적인가

에 집중한다.

그런데 현실 세계에서 더 중요한 건:

“AI가 하면 안 되는 행동을 막는 것”

이다.

AI가 강력해질수록:

악성 입력
프롬프트 인젝션
개인정보 유출
유해 콘텐츠 생성
정책 위반

같은 문제들도 훨씬 심각해진다.

책은 이 부분을 굉장히 현실적으로 설명한다.

AI 보안은 생각보다 훨씬 복잡하다

특히 좋았던 건:
보안을 단순 “필터링” 수준으로 설명하지 않았다는 점이다.

보통 사람들은:

“금칙어 막으면 되는 거 아닌가?”

라고 생각하기 쉽다.

하지만 실제 AI 시스템은 훨씬 복잡하다.

예를 들어:

입력 단계
검색 단계
실행 단계
출력 단계

모든 곳에서 문제가 발생할 수 있다.

책에서는 이를:

입력 가드레일
검색 가드레일
실행 가드레일
출력 가드레일

구조로 설명한다.

이 부분을 보면서:

“AI 보안은 결국 시스템 전체 설계 문제구나”

라는 생각이 들었다.

가장 흥미로웠던 부분: Prompt Injection

특히 흥미로웠던 건 Prompt Injection 이야기였다.

LLM은 기본적으로:

시스템 프롬프트
사용자 입력
을 모두 텍스트로 본다.

즉 공격자가 교묘하게 입력하면:

원래 정책을 무시하게 만들 수도 있고
시스템 규칙을 우회할 수도 있다.

책에서는:

Toxicity Scanner
Prompt Injection Scanner
Regex 기반 탐지
개인정보 제거

같은 실제 예시 코드까지 보여준다.

이 부분이 특히 좋았던 이유는:

“AI 보안도 결국 엔지니어링이다”

라는 현실감이 느껴졌기 때문이다.

단순 철학 이야기가 아니라:
실제로 운영 환경에서 어떻게 막는지를 보여준다.

가장 현실적이었던 문장

책에서 특히 공감됐던 건:

“가드레일이 강할수록 성능과 사용성은 떨어질 수 있다”

는 부분이었다.

이건 보안의 영원한 딜레마다.

보안을 강화하면 불편해지고
자유도를 높이면 위험해진다.

AI도 똑같다.

그리고 결국 중요한 건:

“어디까지 허용할 것인가”

를 설계하는 일이다.

읽으면서:
AI 시대의 핵심 역량 중 하나는
“좋은 답을 만드는 능력”이 아니라,

“위험한 결과를 막는 능력”

이 될 수도 있겠다는 생각이 들었다.

이 책이 좋았던 진짜 이유

이 책이 인상 깊었던 이유는:
최신 AI 모델을 소개해서가 아니다.

오히려:

“AI를 실제 시스템으로 운영할 때 생기는 문제”

를 굉장히 현실적으로 다룬다는 점이 좋았다.

특히 내가 인상 깊게 본 세 가지 패턴은 서로 연결된다.

RAG는 외부 지식을 연결하고
심판형 LLM은 결과를 검증하며
가드레일은 시스템을 보호한다

즉:

AI를 “실제로 믿고 사용할 수 있는 상태”로 만드는 구조들이다.

초기 생성형 AI 시대에는:

얼마나 놀라운 결과를 만드느냐가 중요했다면,

이제는:

얼마나 정확한가
얼마나 안전한가
얼마나 일관적인가
얼마나 신뢰할 수 있는가

가 훨씬 중요해지고 있다.

그리고 『에이전트 시대의 AI 시스템 설계』는
그 방향성을 굉장히 잘 보여주는 책이었다.

단순히:

AI를 “써보는 수준”을 넘어,
실제 서비스와 운영 관점에서 이해하고 싶은 사람이라면

정말 한 번쯤 읽어볼 만한 책이라고 느꼈다.

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 협찬 받아 작성된 서평입니다."

저작자표시 비영리 변경금지 (새창열림)