Fail School·발행 2026.05.11
AI를 답변기 말고 거울로 쓰는 법 (환각에 속지 않는 리서치)
"82% 사용한다"는 AI 답변에 3일 날린 가상 사례로 보는 환각의 위험성. Perplexity, ChatGPT, Claude 30분 워크플로우와 환각 거르는 5가지 방법.
AI는 답을 알려주지 않는다, 더 좋은 질문을 하게 만든다.
AI에게 물어 헛수고하는 시나리오
이런 상황을 그려볼게요. 한 창업자가 새로운 SaaS 아이디어를 ChatGPT에 묻습니다. "한국 개발자 커뮤니티에서 가장 많이 쓰는 협업 도구가 뭐야?" 답장은 5초 안에 옵니다. "Slack과 Jira가 한국에서도 압도적이며, 이들의 시장점유율은 약 82%입니다."
깔끔한 숫자였어요. 82%라니. 그 창업자는 이 수치를 보고 3일간 경쟁사 분석을 꾸몄습니다. 결론을 쓰기까지 5시간이 들었어요. 그리고 일주일 뒤, 한 개발자에게 "한국 개발팀에서 정말 Slack을 82%가 쓰나요?"라고 물었습니다. 그는 웃었어요. "우리 팀은 Notion이랑 카톡이에요. 그 82%는 어디서 나온 거예요?"
그때가 AI 환각(hallucination)이 무엇인지 깨닫는 순간입니다. AI는 거짓말을 하지 않아요. 그냥 모르면서도 아는 척합니다. 그리고 그 신뢰성 있는 목소리로 지나가요.
이 글의 핵심은 이거예요. 답을 묻는 대신, 더 좋은 질문을 하도록 AI를 강제하는 것.
답을 묻지 마라, 질문을 다듬어라
리서치의 함정은 단순합니다. 우리는 답을 구하러 AI에게 갑니다. 하지만 AI는 대답기가 아니라 거울이에요. 거울은 당신이 던진 질문의 질을 그대로 돌려줍니다.
"한국 SaaS 시장이 어때?" 이 질문은 최악입니다. 범위가 너무 넓어요. AI는 마구잡이로 온갖 정보를 뱉어내요. 그중 대충 맞는 것도 있고, 완전히 지어낸 것도 있어요. 어떤 게 참인지 알 수 없습니다.
대신 이렇게 물어보세요.
내가 만들 SaaS는 마케팅 팀장을 대상으로 합니다.
경쟁사는 HubSpot, Mailchimp, 콘텐츠마크입니다.
이 세 서비스의 가격 정책을 비교해줄 수 있나요?
- 기준: 한국 시장
- 데이터: 2024년~2025년구체적이고, 비교 대상도 명확하고, 범위도 정해져 있어요. 이렇게 물으면 AI는 더 신중해집니다. 그리고 모르는 부분도 "저는 2025년 이후 데이터를 확실히 알 수 없습니다"라고 인정하기 쉬워져요.
핵심은 이겁니다. AI는 당신이 기대하는 만큼 리서치를 성공시킵니다. 프롬프트 엔지니어링이 거창하게 들리지만, 결국 다음 세 가지예요.
- 맥락을 챙기기: "저는 B2B SaaS 스타트업의 창업자예요. 주 고객은 중소기업 마케팅팀입니다."
- 목표를 정확히 하기: "경쟁사 3곳의 (1) 기본 플랜 가격, (2) 주요 기능, (3) 타게팅 고객층을 알고 싶습니다."
- 제약 조건을 명시하기: "2024년 이후의 한국 시장 공시 정보만 참고. 추측이나 과거 버전은 제외."
Claude vs ChatGPT vs Perplexity, 도구별 역할 분담
어떤 도구를 쓸까요? 답은 간단합니다. 모두 씁니다. 하지만 용도가 다릅니다.
Perplexity로 시작하기. 이 도구는 리서치의 입구예요. 실시간 정보를 웹에서 끌어와서 인용 출처를 명시합니다. "어떤 도구가 한국 마케터들 사이에서 인기 있어?"라는 탐색 질문이라면, Perplexity가 가장 빠릅니다.
ChatGPT로 변주하기. Perplexity에서 찾은 기본 정보를 가지고, ChatGPT에 "그렇다면 이 시장에 들어갈 때의 차별화 전략은?"이라는 창의적 질문을 던집니다. ChatGPT는 당신의 아이디어를 발전시키는 데 탁월해요.
Claude로 마무리하기. 당신이 여기까지 수집한 정보와 아이디어를 Claude에게 한 번에 던집니다. "지금까지 찾은 시장 정보, 경쟁사 분석, 우리의 가설이 여기 있어. 이 정보를 종합해서, 우리가 놓친 관점이 뭘까?" Claude는 이 장문의 맥락을 가장 잘 처리하고, 당신이 과신했던 부분을 정확하게 지적합니다.
"그냥 한 도구만 쓰면 되지 않나?"라는 생각은 금지입니다. 한 도구만 쓰면 그 도구의 맹점이 당신의 맹점이 됩니다.
이 역할 분담은 30분 안에 끝낼 수 있어요. Perplexity 10분, ChatGPT 10분, Claude 10분.
30분 시장조사 워크플로우
1단계. 주제 정의 (2분)
리서치 주제를 한 문장으로 정합니다. 예: "한국 B2B 마케팅 자동화 도구 시장의 주요 플레이어와 가격 정책"
2단계. Perplexity로 지형도 그리기 (8분)
한국에서 B2B 마케팅 팀을 대상으로 하는 자동화 도구를 찾고 있습니다.
(1) 주요 경쟁사 5곳
(2) 각 도구의 기본 요금제와 주요 기능
(3) 2024년 이후 한국 시장 평가
각 항목마다 출처를 명시해주세요.실시간 웹 검색으로 최신 정보를 가져오고 출처도 명시해요. 이 단계에서 "모른다"는 답이 나오면 당신이 나머지 30분을 뭘 할지 이미 압니다.
3단계. ChatGPT로 아이디어 발전 (8분)
이 시장 정보를 받았어. (붙여넣기)
내가 만들 서비스는:
- 타겟: 한국 중소기업 마케팅팀
- 차별화: 한국 결제 도구(이니시스, 나이스)와 통합
우리가 이 시장에서 살아남을 관점 3가지를 제시해줄 수 있을까?4단계. Claude로 치명적 오류 검증 (8분)
지금까지 Perplexity와 ChatGPT에서 나온 분석을 모두 보고 있어. (붙여넣기)
- 우리가 이 시장조사에서 놓친 가장 중요한 질문이 뭘까?
- 우리의 가설 중에 위험한 가정이 있나?Claude는 "그 5개 경쟁사 중에 실은 3개가 이미 망했다"거나 "한국 시장 진입 장벽이 당신이 생각하는 것보다 훨씬 높다"고 지적해줍니다.
5단계. 다음 검증 방법 정하기 (4분)
이 워크플로우를 마친 후, 당신은 다음을 이미 압니다.
- 이 시장의 주요 플레이어들
- 가격 포지셔닝
- 당신의 가설 중 확실한 것과 위험한 것
- 다음에 인터뷰해야 할 사람이 누구인지
환각 거르기, AI가 거짓말할 때 알아차리는 법
AI는 "모른다"고 말하지 않습니다. 대신 그럴듯하게 지어냅니다.
또 다른 시나리오를 그려볼게요. 어떤 사람이 Claude에 "한국에서 가장 많이 쓰는 결제 게이트웨이의 시장점유율은?"이라고 물었어요. 답장: "NHN의 페이코가 약 65%, 이니시스가 약 28%입니다." 이 숫자는 그럴듯했어요. 검증해보니 틀렸습니다. 실제로는 외부 공시 자료가 거의 없어요. AI는 없는 데이터를 있다고 한 거예요.
학술 연구에 따르면 AI가 생성한 인용과 통계의 25~35%가 완전히 거짓이거나 오류가 섞여있다고 합니다. 법률 분야는 더 심해요. LLM이 법적 쿼리에 정답할 확률은 69~88%의 오류율을 기록합니다.
환각을 거르는 5가지 방법
- 출처를 반드시 요청하기. AI가 통계를 주면 즉시 "이 수치의 출처는?"이라고 되묻기. "2023년 한국 결제산업 협회의 보고서에 따르면"이라는 답이 나오면, 그 보고서를 직접 찾아보세요. 99% 존재하지 않습니다.
- 너무 깔끔한 숫자는 의심하기. "82%", "정확히 5개", "약 $50,000"처럼 정수로 떨어지는 답은 대부분 환각입니다. 현실의 통계는 더 지저분해요.
- "확실하지 않다"는 답이 얼마나 나오는지 보기. Claude는 ChatGPT보다 "제가 정확한 정보를 가지지 못했습니다"라고 인정을 자주 합니다. 이 도구의 신뢰도가 높은 이유예요.
- AI끼리 서로 검증하기. 같은 질문을 Claude와 ChatGPT, Perplexity에 각각 던지기. 셋 다 같은 답을 주면 확률이 높아요. 하나만 다른 답을 주면, 그 도구가 환각했을 가능성이 높습니다.
- 한국 정보는 더욱 신중하기. AI는 한국어 데이터가 영어보다 훨씬 적습니다. 특히 한국의 스타트업, 결제 시장, 마케팅 도구 정보는 정확하지 않을 확률이 높아요.
실전 시장조사 프롬프트 5종
1. 경쟁사 가격 비교
내 SaaS의 타겟은 [타겟층]입니다.
경쟁사는 [경쟁사 3곳].
비교 표로 정리해주세요:
(1) 각 도구의 기본 플랜 가격(KRW)
(2) 포함된 주요 기능 5개
(3) 어떤 고객층을 주로 타겟하는지
(4) 한국어 지원 여부 및 한국 결제 수단
제약:
- 2024년 이후 공시 정보만 사용
- 확실하지 않은 정보는 '확인 필요'로 표기2. 시장 규모와 트렌드
[시장 분야] 시장에 대해 알고 싶습니다.
(1) 2024~2025년 한국 시장 규모
(2) YoY 성장률
(3) 주요 성장 드라이버
(4) 앞으로 6개월의 주요 트렌드
각 항목마다 출처를 명시해주세요.3. 사용자 페인 포인트 발굴
[타겟 고객]을 대상으로 한 서비스를 만들고 있습니다.
현재 그들이 사용하는 도구는 [기존 솔루션]인데,
이 도구를 쓰면서 느끼는 가장 큰 3가지 불편함은?
(추측이 아니라 실제 사용자 커뮤니티나 리뷰 기반으로)4. 한국 특화 전략 검증
한국 B2B 시장에서 해외 SaaS가 실패하는 이유는?
다음을 중심으로 알려주세요:
- 결제 시스템
- 약관 차이
- UI/UX 로컬라이제이션 실패 사례
- 고객 지원5. 당신의 가설 검증
내 가설: [당신의 가설]
이 가설이 틀렸을 가능성이 뭐라고 생각합니까?
(1) 이 가설이 성립하려면 뭐가 참이어야 하나요?
(2) 그 가정이 실제로 참일까요?
(3) 만약 이 가설이 틀리면, 우리가 6개월을 낭비하게 되나요?마무리
AI는 "답을 주는 파트너"가 아니라 "더 나은 질문을 하게 만드는 거울"이에요. 30분 안에 시장을 지형도로 그리고, 당신의 가설의 구멍을 찾아낼 수 있습니다. 하지만 여전히 부족한 게 있어요. 통계와 추측이 아니라, 실제 사람의 목소리가 필요합니다.
다음 편에서는 이 지형도를 가지고 들어가서, 100명에게 물어보기 전에 1명에게 1시간을 깊게 물어보는 법을 배웁니다.
참고 자료
- ChatGPT vs Perplexity vs Claude, A Complete Guide for Marketing Leaders in 2026 — Genesys Growth
- AI Hallucination Statistics & Research Report 2026 — SuprMind
- AI Citation Hallucination: What It Is, Why It Happens, and How to Prevent It — Citely
- 한국 AI SaaS 시장: 초개인화와 도메인 특화 전략 — KoreaDeep
- AI를 위한 프롬프트 엔지니어링 가이드 — Google Cloud
- 프롬프트 엔지니어링 완벽 가이드 — ProB AI 연구소
- 세계가 주목하는 한국 AI 스타트업 — Forbes Korea
이전 편: 무엇을 만들지 결정하는 5가지 질문 (지속 가능성 체크)
다음 편: 설문조사 100명보다 인터뷰 1명이 100배 정확하다 (Mom Test)
이 글에 등장하는 시나리오에 대한 안내
본문의 "82% 사례"와 "결제 게이트웨이 사례"는 AI 환각의 패턴을 보여주기 위해 페일스쿨이 가공한 시나리오입니다. 단, AI 환각률 통계(25~35% 오류, 법률 쿼리 69~88% 오류율)는 University of North Carolina at Charlotte AI Hallucinated Citations Research Guide와 Stanford RegLab Legal LLM Hallucination Study(2025) 등 실제 연구 기반입니다.
김민철, 프리아이브 CEO, 페일스쿨