Freeive

Fail School·발행 2026.05.11

AIを答え機ではなく鏡として使う(ハルシネーションに騙されないリサーチ)

「82%が使う」というAIの答えで3日を無駄にしたという架空シナリオで見るハルシネーションの危うさ。Perplexity・ChatGPT・Claudeの30分ワークフローと、ハルシネーションを濾す5つの方法。

AIは答えを教えてくれません。より良い問いを立てさせる存在です。

AIに尋ねて空回りするシナリオ

こんな状況を描いてみます。ある創業者が新しいSaaSアイデアについてChatGPTに聞きます。「韓国の開発者コミュニティで一番よく使われているコラボレーションツールは?」 5秒で答えが返ってきます。「SlackとJiraが韓国でも圧倒的で、市場シェアは約82%です。」

きれいな数字です。82%。創業者はこの数値を元に3日間、競合分析を組み立てました。結論を書き上げるのに5時間。1週間後、ある開発者に「韓国の開発チームで本当に82%がSlackを使っていますか?」と聞きました。彼は笑いました。「うちのチームはNotionとカカオトークです。その82%、どこから出てきたんですか?」

そのときが、AIハルシネーション(hallucination)の正体に気づく瞬間です。AIは嘘をつきません。ただ、知らないのに知っているふりをします。そして、その自信のある声でそのまま通り過ぎていきます。

この記事の核心はこれです。答えを聞くのではなく、もっと良い問いを立てるようAIを強制すること。

答えを聞かず、問いを磨く

リサーチの罠はシンプルです。私たちは答えを求めてAIに行きます。でも、AIは答え機ではなく鏡です。鏡は、あなたが投げた問いの質をそのまま返します。

「韓国のSaaS市場はどう?」は最悪の問いです。範囲が広すぎる。AIはあれこれと情報を吐き出します。中にはだいたい合っているものも、完全に作り話のものもある。どれが本当かはわかりません。

代わりにこう聞いてみてください。

私が作るSaaSのターゲットはマーケティングチームのリーダーです。
競合はHubSpot、Mailchimp、コンテンツマーク。

この3つのサービスの料金プランを比較できますか?
- 基準: 韓国市場
- データ: 2024〜2025年

具体的で、比較対象も明確で、範囲も決まっています。こう聞かれるとAIは慎重になります。「2025年以降のデータは確実に把握していません」と認めやすくなります。

核心はこれです。AIはあなたが期待したぶんだけリサーチを成功させます。プロンプトエンジニアリングは大げさに聞こえますが、結局のところ次の3つです。

  1. 文脈を渡す:「私はB2B SaaSスタートアップの創業者です。主な顧客は中小企業のマーケチームです。」
  2. ゴールを精確にする:「競合3社の(1)ベースプランの料金、(2)主要機能、(3)ターゲット顧客層を知りたい。」
  3. 制約を明示する:「2024年以降の韓国市場の公開情報のみ。憶測や古いバージョンは除外。」

Claude vs ChatGPT vs Perplexity、役割の分担

どのツールを使うか? 答えはシンプル。全部使います。ただし用途が違います。

Perplexityで始める。これはリサーチの入口です。リアルタイム情報をウェブから引いてきて出典も明示します。「韓国のマーケターに人気のツールは?」のような探索的な問いには、Perplexityが最速です。

ChatGPTで変奏する。Perplexityで得た基本情報を持って、ChatGPTに「では、この市場に入るときの差別化戦略は?」のような創造的な問いを投げます。ChatGPTはアイデアを発展させるのが得意です。

Claudeで締める。ここまで集めた情報とアイデアをClaudeに一気に渡します。「これまで集めた市場情報、競合分析、私たちの仮説です。これを総合して、見落とした観点は?」 Claudeはこの長文の文脈を一番うまく扱い、過信していた部分を正確に指摘します。

「ツールひとつで済むのでは?」は禁物。ひとつだけ使うと、そのツールの盲点があなたの盲点になります。

この役割分担は30分で終えられます。Perplexity 10分、ChatGPT 10分、Claude 10分。

30分の市場調査ワークフロー

Step 1. テーマ定義(2分)

リサーチテーマを1文で決めます。例:「韓国B2Bマーケティング自動化ツール市場の主要プレイヤーと価格政策」

Step 2. Perplexityで地形図を引く(8分)

韓国でB2Bマーケチーム向けの自動化ツールを探しています。

(1) 主要競合5社
(2) 各ツールのベースプランと主要機能
(3) 2024年以降の韓国市場での評価

各項目に出典を付けてください。

リアルタイム検索で最新の情報と出典を取れます。この段階で「わからない」と返ってきたら、残り30分で何をすべきかすでに分かっています。

Step 3. ChatGPTでアイデアを発展(8分)

この市場情報を受け取った。(貼り付け)

私のサービス:
- ターゲット: 韓国の中小企業マーケチーム
- 差別化: 韓国の決済(イニシス、ナイス)との統合

この市場で生き残る観点を3つ提示できますか?

Step 4. Claudeで致命的エラー検証(8分)

PerplexityとChatGPTから出た分析を全部見ています。(貼り付け)

- このリサーチで見落としているいちばん重要な質問は?
- 私たちの仮説で危険な前提はありますか?

Claudeは「その5社のうち実は3社はすでに倒れている」とか「韓国市場の進入障壁はあなたが思うよりずっと高い」と指摘してくれます。

Step 5. 次の検証方法を決める(4分)

このワークフローを終えた時点で、あなたはすでに知っています。

  • この市場の主要プレイヤー
  • 価格ポジショニング
  • 仮説のうち確実なものとリスクのあるもの
  • 次にインタビューすべき人は誰か

ハルシネーションを濾す、AIが嘘をついたと気づく方法

AIは「知らない」とは言いません。代わりにそれっぽく作ります。

別のシナリオを描いてみます。ある人がClaudeに「韓国で最もよく使われている決済ゲートウェイのシェアは?」と聞きました。返答:「NHNのPaycoが約65%、Inicisが約28%です。」 数字はそれっぽい。検証したら間違いでした。実は外部公開資料がほとんどないのです。AIは存在しないデータをあるかのように出していたのです。

学術研究によれば、AIが生成する引用と統計の25〜35%が完全な虚偽またはエラーを含んでいるそうです。法律分野はもっとひどく、LLMの法的クエリ正答率は69〜88%のエラー率を記録します。

ハルシネーションを濾す5つの方法

  1. 必ず出典を要求する。AIが統計を出したらすぐ「この数字の出典は?」と聞き返す。「2023年の韓国決済産業協会のレポートによると」と返ってきたら、そのレポートを実際に探してみてください。99%、存在しません。
  2. きれいすぎる数字は疑う。「82%」「ちょうど5個」「約$50,000」のような丸い数字はほぼハルシネーション。現実の統計はもっと汚い。
  3. 「確信が持てない」がどれだけ出るかを見る。ClaudeはChatGPTより「正確な情報を持っていません」と認めることが多い。これがClaudeの信頼度が高い理由です。
  4. AI同士で検証する。同じ質問をClaude、ChatGPT、Perplexityにそれぞれ投げる。3つとも同じ答えなら信頼度が高い。1つだけ違う答えなら、そのツールがハルシネーションした可能性が高い。
  5. 韓国情報は特に慎重に。AIは韓国語データが英語より圧倒的に少ない。特に韓国のスタートアップ、決済市場、マーケティングツール情報は不正確である可能性が高い。

実戦市場調査プロンプト5種

1. 競合料金比較

私のSaaSのターゲットは[ターゲット層]。
競合は[競合3社]。

表で整理してください:
(1) 各ツールのベースプラン料金(KRW)
(2) 含まれる主要機能5つ
(3) 主に狙う顧客層
(4) 韓国語サポートおよび韓国の決済手段

制約:
- 2024年以降の公開情報のみ
- 確実でない情報は「要確認」と表記

2. 市場規模とトレンド

[市場分野]の市場について知りたいです。

(1) 2024〜2025年の韓国市場規模
(2) YoY成長率
(3) 主要な成長ドライバー
(4) 今後6か月の主要トレンド

各項目に出典を付けてください。

3. ユーザーのペインポイント発掘

[ターゲット顧客]向けのサービスを作っています。
彼らが今使っているツールは[既存ソリューション]ですが、
このツールを使う中で感じている最大の不便3つは?

(あなたの推測ではなく、実際のユーザーコミュニティやレビューに基づいて)

4. 韓国特化戦略の検証

韓国B2B市場で海外SaaSが失敗する理由は?

中心となる視点:
- 決済システム
- 約款の違い
- UI/UXローカライズの失敗事例
- 顧客サポート

5. 仮説の検証

私の仮説: [あなたの仮説]

この仮説が外れる可能性は何でしょうか?

(1) この仮説が成り立つには何が真である必要がありますか?
(2) その前提は本当に真ですか?
(3) もしこの仮説が外れたら、6か月を無駄にすることになりますか?

まとめ

AIは「答えをくれるパートナー」ではなく「もっと良い問いを立てさせる鏡」です。30分で市場を地形図に落とし、仮説の穴を見つけることができます。でもまだ足りないものがあります。統計や憶測ではなく、実際の人の声です。

次の記事では、その地形図を持って入り、100人に聞く前に、1人に1時間じっくり聞く方法を学びます。

参考資料

  1. ChatGPT vs Perplexity vs Claude, A Complete Guide for Marketing Leaders in 2026 — Genesys Growth
  2. AI Hallucination Statistics & Research Report 2026 — SuprMind
  3. AI Citation Hallucination — Citely
  4. 韓国AI SaaS市場 — KoreaDeep
  5. プロンプトエンジニアリングガイド — Google Cloud

前の記事:何を作るか決める5つの質問(持続可能性チェック)
次の記事:アンケート100人より、深い1人インタビューが100倍正確(Mom Test)


本文のシナリオについて
「82%事例」と「決済ゲートウェイ事例」は、AIハルシネーションのパターンを示すためフェイルスクールが作った仮想シナリオです。AIハルシネーション統計(25〜35%エラー、法律クエリ69〜88%エラー率)はUNC Charlotte AI Hallucinated Citations Research GuideやStanford RegLab Legal LLM Hallucination Study(2025)など実在の研究に基づいています。


キム・ミンチュル、Freeive CEO、フェイルスクール

#フェイルスクール#検証#ChatGPT#Claude#Perplexity#AIリサーチ#ハルシネーション#プロンプト

Recent

다른 일기도 같이.