오늘은 <AGI 과장 광고 구별법: “데모”와 “배포”의 차이를 보는 6가지 질문 — 데모는 잘 되는데 실제 서비스는 왜 다른지 체크리스트>를 주제로, “와… 이거 AGI급이다!”라는 말에 휘둘리지 않고 진짜 쓸 수 있는 기술인지 구별하는 방법을 쉽게 정리해볼게요.
요즘은 발표 영상만 보면 AI가 사람처럼 일하는 것처럼 보이죠. 그런데 막상 회사나 일상에서 써보면 “어… 왜 이렇게 불안정하지?”라는 순간이 자주 생깁니다. 이 차이는 대부분 데모(보여주기)와 배포(실제로 쓰기)의 간격에서 나와요.
데모는 보통 “가장 잘 되는 장면”만 보여줍니다. 조건도 좋고, 데이터도 정리되어 있고, 실패할 만한 변수도 빼놓죠. 반면 배포는 정반대예요. 현실은 늘 시끄럽고, 예외가 많고, 사용자는 예상대로 움직이지 않습니다. 그래서 오늘 글은 “AGI인지 아닌지” 같은 어려운 토론이 아니라, 과장 광고를 걸러내는 실전 질문 6개를 중심으로 구성했습니다. 이 6개만 물어봐도, ‘와우’ 영상에 속는 확률이 확 줄어들어요.

1) 왜 데모는 멋지고, 배포는 실망스럽나: “현실은 예외의 바다”
먼저 핵심부터 잡아볼게요. 데모와 배포의 차이는 기술력 차이만이 아닙니다. 환경 차이가 훨씬 큽니다.
데모의 특징: “정답이 있는 시험”
데모는 보통 이런 조건을 갖고 있어요.
- 입력이 깔끔하다(오타, 중복, 모호한 요청이 적다)
- 문제 범위가 좁다(딱 보여주려는 기능만 등장)
- 실패 장면은 편집으로 사라진다
- 속도도 빠르다(서버를 넉넉하게 쓰거나, 미리 준비해둠)
- 안전장치가 사람에게 몰래 의존한다(뒤에서 사람이 도와주는 경우도 있음)
그래서 데모는 “정답이 있는 시험”처럼 보입니다. 잘 되는 게 당연하게 설계돼 있어요.
배포의 특징: “현실은 규칙이 아니라 변수”
실제 서비스는 이런 일이 동시에 터집니다.
- 사용자가 질문을 애매하게 한다(“이거 좀 해줘”)
- 같은 요청이 매번 다른 형태로 들어온다
- 데이터가 누락되거나, 최신이 아니거나, 충돌한다
- 개인정보/보안 때문에 마음대로 접근 못 한다
- 트래픽이 몰리는 시간대가 있다
- 장애가 난다(서버, 네트워크, 외부 API)
- 법/정책 때문에 ‘하면 안 되는 행동’이 많다
즉, 배포는 “문제풀이”가 아니라 운영입니다. 운영에는 항상 예외 처리와 책임이 따라옵니다.
그래서 과장 광고가 쉬워진다
여기서 광고가 과장되기 좋은 구조가 만들어져요.
- 데모로는 “가능”처럼 보이게 만들기 쉽다
- 배포에서 필요한 “안정성”과 “통제”는 보여주기 어렵다
- 결국 사용자 입장에서는 “말은 멋진데 실제는 별로”가 된다
이걸 막으려면, 감탄 대신 질문을 해야 합니다. 이제부터가 핵심이에요.
2) “AGI급” 과장 광고를 걸러내는 6가지 질문 체크리스트
아래 6개 질문은 “상대가 얼마나 진짜인지”를 보는 렌즈예요.
중요한 포인트는 이거예요.
- 좋은 답변은 보통 구체적이고
- 위험한 답변은 보통 추상적입니다.
각 질문마다 좋은 신호 / 빨간 신호(주의)도 같이 적어둘게요.
질문 1) “이 데모는 실패할 때 어떻게 되나요?”
AI는 실패할 수밖에 없어요. 문제는 실패 자체가 아니라, 실패했을 때의 행동입니다.
좋은 신호
- “실패하면 멈추고 사용자에게 확인을 요청합니다.”
- “확신이 낮으면 ‘추가 정보가 필요하다’고 말합니다.”
- “실패 로그를 남기고 원인 분류를 합니다.”
빨간 신호
- “거의 실패하지 않아요.”
- “그건 모델이 알아서 잘해요.”
- “대부분 잘 됩니다.”
현실에서 ‘거의 실패하지 않는 AI’는 드뭅니다. 정말 그렇다면, 그건 범위가 엄청 좁거나, 실패를 숨겼거나, 사람이 뒤에서 받쳐줬을 확률이 높아요.
질문 2) “배포 환경에서 속도와 비용은 어떻게 달라지나요?”
데모는 빠른데 실제는 느린 경우가 많습니다. 특히 AI는 요청이 쌓이면 속도가 확 떨어질 수 있어요.
좋은 신호
- “동시 사용자 100명 기준 응답 시간 평균/최대가 이 정도입니다.”
- “월 사용량이 이 정도면 비용이 대략 이 범위입니다.”
- “속도 느려질 때는 간단 모드로 전환합니다.”
빨간 신호
- “비용은 크게 걱정 안 하셔도 돼요.”
- “속도는 항상 빠릅니다.”
- “그건 인프라가 해결해요.”
배포는 “멋진 한 번”이 아니라 “매일”입니다. 매일 쓰는 서비스는 속도와 돈이 결국 발목을 잡아요. 이 질문에 숫자가 없으면 의심해도 좋습니다.
질문 3) “데이터는 어디서 오고, 최신성은 어떻게 보장하나요?”
AI가 똑똑해 보이는 이유는 종종 “좋은 데이터” 덕분입니다. 그런데 배포에서는 데이터가 지저분해요. 그래서 데이터 질문은 필수입니다.
좋은 신호
- “어떤 문서/DB를 보고 답을 만들었는지 출처를 남깁니다.”
- “최신 데이터 반영 주기는 하루 1회/실시간 등으로 관리합니다.”
- “낡은 정보는 경고를 띄웁니다.”
빨간 신호
- “AI가 알아서 최신을 찾아요.”
- “정확도는 높습니다.”
- “데이터 연결은 필요 없어요.”
“최신을 알아서 찾는다”는 말은 멋있지만, 현실은 그 반대예요. 최신성과 출처는 설계로 관리해야 합니다. 그렇지 않으면 그럴듯한 오답이 늘어나요.
질문 4) “권한과 보안은 어떻게 통제하나요?”
‘일하는 AI’가 무서운 이유는, 똑똑해서가 아니라 권한을 가지면 실제 행동이 일어나기 때문이에요.
좋은 신호
- “결제/전송/삭제 같은 행동은 무조건 사람 승인 후 진행합니다.”
- “읽기 권한과 쓰기 권한을 분리합니다.”
- “민감한 파일은 접근 자체를 막습니다.”
빨간 신호
- “자동화니까 다 알아서 처리합니다.”
- “권한은 넓게 주면 더 잘합니다.”
- “보안은 나중에 강화할 수 있어요.”
권한은 한 번 크게 열어두면 사고가 나기 쉽습니다. 특히 파일 삭제, 전송, 결제는 되돌리기 어려운 행동이에요. “나중에”라는 말이 나오면 멈춰야 합니다.
질문 5) “결과를 검증하는 장치가 있나요, 아니면 ‘믿고 쓰기’인가요?”
AGI 같은 느낌이 나려면, AI는 단순히 답을 내는 게 아니라 검증을 해야 합니다. 그런데 검증은 화려하지 않아서 데모에서 잘 안 보여줘요.
좋은 신호
- “정답이 중요한 작업은 2중 확인(룰 + AI)을 합니다.”
- “중요 정보는 출처 링크/근거를 함께 제공합니다.”
- “체크리스트로 결과를 검사합니다.”
빨간 신호
- “사람이 보면 알죠.”
- “그건 사용자가 판단하면 됩니다.”
- “AI가 알아서 최적을 냅니다.”
현실에서 “사용자가 판단”만 강조하면, 결국 사용자는 피곤해지고 AI는 책임을 지지 않게 됩니다. 좋은 시스템은 사용자를 덜 힘들게 만들기 위해 검증 구조를 넣어요.
질문 6) “문제가 생겼을 때, 되돌리는 방법이 있나요? (롤백/기록/감사)”
진짜 배포는 “실수했을 때 어떻게 회복하냐”가 승부예요.
이 질문 하나로 “데모용인지 운영용인지”가 꽤 드러납니다.
좋은 신호
- “무엇을 했는지 작업 기록이 남습니다.”
- “자동으로 바꾼 건 되돌릴 수 있습니다.”
- “누가 승인했는지 기록이 남고 감사가 가능합니다.”
빨간 신호
- “그럴 일은 없어요.”
- “기록은 굳이…”
- “되돌리기는 어렵지만 잘 됩니다.”
실수는 언젠가 터집니다. 중요한 건 실수 확률을 낮추는 것 + 터졌을 때 피해를 작게 만드는 것. 그 장치가 없다면, 그건 “멋진 장난감”에 가까워요.
3) 이 6문장을 “대화 스크립트”로 바꾸는 법: 속지 않는 질문 순서
체크리스트를 알아도, 실제로 물어볼 때는 말이 꼬일 수 있죠. 그래서 바로 써먹을 수 있는 질문 흐름을 만들어줄게요. 그대로 복사해서 써도 어색하지 않게 구성했어요.
1단계: 데모의 범위를 고정하기
- “이 데모는 어떤 조건에서 가장 잘 되나요?”
- “반대로 가장 약한 입력은 어떤 건가요?”
여기서 상대가 “모든 상황에서”를 말하면, 경계하세요. 현실은 ‘모든 상황’이 없습니다.
2단계: 배포의 현실을 묻기(속도/비용/데이터)
- “동시 사용자 기준 평균/최대 응답 시간은요?”
- “월 사용량이 이 정도면 비용이 얼마나 되나요?”
- “데이터 출처와 최신성은 어떻게 관리하나요?”
이 질문 묶음은 과장 광고를 빠르게 걸러줍니다. 숫자와 운영 방식이 나오면 신뢰도가 올라가요.
3단계: 사고 방지 장치를 묻기(권한/검증/롤백)
- “삭제/전송/결제 같은 행동은 사람 승인 없이는 못 하게 되어 있나요?”
- “결과 검증은 어떤 체크로 하나요?”
- “문제가 생기면 되돌릴 수 있나요? 기록은 남나요?”
이 부분에서 “나중에 가능”이라는 답이 나오면, 지금 단계에서는 위험할 수 있어요.
보너스: 데모를 배포 수준으로 ‘시험’하는 방법 3가지
상대 말만 듣지 말고, 작은 테스트를 해보면 더 정확합니다.
1. 엉망 입력 테스트
오타, 짧은 문장, 중복 요청을 일부러 넣어보기
2. 예외 상황 테스트
“이건 금지” 조건을 넣고도 지키는지 보기(예: 결제는 승인 후)
3. 반복 테스트
같은 질문을 5번 던져서 결과가 안정적인지 보기
데모는 한 번 잘될 수 있어요. 배포는 “반복”에서 진짜가 드러납니다.
정리하면, AGI 과장 광고를 구별하는 핵심은 “멋진 말”이 아니라 배포에서 필요한 6가지 질문입니다.
실패 처리, 속도/비용, 데이터 출처, 권한 통제, 검증 장치, 롤백/기록.
이 6개는 화려하지 않지만, 실제 서비스를 지탱하는 뼈대예요.
다음에 누가 “우리 AI는 AGI급이에요”라고 말하면, 감탄을 잠깐 멈추고 이렇게 생각해보세요.
“좋아. 그럼 배포에서 어떻게 버티지?”
그리고 오늘의 질문 6개를 던져보면 됩니다. 그 순간부터 광고는 힘을 잃고, 현실이 보이기 시작할 거예요.