生成AIに同じお題で3本の短編小説を書かせ、別系統のAIにレビューさせる、という小さな実験をした。
普段の運用では、生成からレビューまで一貫してAnthropic Claudeを使っている。今回は、本文の生成をOpenAIのcodex(GPT-5系)に、レビューをClaude Opusに割り当てた。書き手とレビュアーを別系統に分ける、という設計だ。
異系統のAIに、互いの仕事を回させるとどうなるか。結論から言えば、ここで初めて見える景色があった。
結論から言う
codexが書いた3作は、単独で読むかぎり完成度が高かった。Claude側のレビューも、5項目すべてS評価で返ってきた。
通常の運用ならここで終わる。「3作とも完璧、確定」と。
だが、終わらせなかった。3作を束として並べて、Claudeに「シリーズの一部として」読ませてみた。
ここから、別の景色が出た。
何を書かせたか
王道のテンプレ構造を持つお題を1つ用意し、舞台と登場人物だけを変えて3本書かせた。骨格は寸分違わず同じ、ぴったり同じ字数で着地している。
5体のレビューエージェント(編集者・キャラクター・読者・歴史考証・設定整合の5観点で品質チェックをするマルチエージェント構成)は、3作とも全項目Sで返してきた。「指摘事項なし」。
通常運用ならここで終わる。だが、3作を並べて読ませた瞬間、Claudeから別系統の指摘が出てきた。
Claudeが浮かべたcodexの癖
- 3作のラスト数行が、すべて同じ感情のテンプレに着地している
- 「AはBではない、Cだ」という構文が、3作にわたって異常な頻度で繰り返されている
- 専門知識の出し方が、毎回「3つの具体例を並べて信頼性を出す」テンプレートに収まっている
- 結末の余韻が、3作とも同じ作者解説モードに入っている
単一作品で読めば、これは美点だ。完成度の高い様式美として機能する。
3作並べた瞬間、それが「型」として浮かび上がる。
自分の癖は、自分では見えない
ここで気づいたことが、たぶんこの実験の本丸だ。
モデルには、それぞれ生成上の癖がある。codexは構造の精緻さと知識の正確さで強い。だが、強いがゆえにパターンが安定しすぎる。「うまく書ける型」を覚えてしまっている。Claudeは別の癖を持つ。だから、別系統の癖の存在に気づける。
人間で言えば、自分の文体を自分では客観的に読めない、あれだ。同じ書き手が3本書けば3本とも自分の癖が乗る。それを抜けるには、別の目が要る。外部編集者の役割が、これだ。
そして重要なのは、逆も同じということだ。Claudeに3作書かせて、Claudeにレビューさせていたら、Claudeのほうの癖は浮かばなかった。今回はたまたまcodexが書き手だったからcodexの癖が見えただけで、これは「Claudeが優れている」という話ではまったくない。
「異系統である」ことだけが、ここでは効いた。
これは小説の話じゃない
業務文書、コード、提案書、戦略資料、合意文書、議事録。AIが生成するすべてのアウトプットに、同じことが起きる。
単一モデルが生成し、単一モデルがレビューする限り、そのモデルの構造的な癖は永遠に検出されない。しかもレビュー側はそれを「美点」として通してしまう。今回のように、5体のレビュアー全員が「S評価、指摘なし」と返してくる。
これがなぜ怖いか。組織が単一モデルに依存して走ると、出力が静かに同質化していくからだ。気づいた頃には、提案書も設計書も戦略資料も、全部「そのモデルの型」で書かれている。意思決定そのものが、モデルの癖に染まる。
しかも、それは指標に出ない。レビュー側のスコアは、ずっとSのままだ。
モデル多様性 = エラー検出能力
私は普段、AI文明設計と言っている。個別の道具最適化ではなく、AIを社会と組織の中にどう組み込むかという話だ。その文脈で言えば、今回の実験は明確な示唆だった。
モデル多様性は、贅沢ではなく、エラー検出能力そのものだ。
これを最初から組んでおかないと、AI出力は徐々に同質化する。異系統のAIを互いの監査役として組み合わせる構造を、設計の初期段階で組み込む必要がある。あとから「やっぱり別モデルも入れよう」では遅い。そのときには既に、組織のリテラシーがそのモデルの型に最適化されてしまっている。
具体的にやるべきことは、難しくない。
- 生成と一次レビューを別系統のモデルに割る
- 重要なアウトプットは、必ず最低一回、書かなかった系統のモデルに通す
- 評価指標だけを見ない(スコアSは「単一モデルの内部一貫性」しか保証しない)
- 「並べて読む」「文脈を変えて読ませる」工程を、ワークフローに組み込む
特に最後が効く。今回も「3作を並べて読む」ことで初めて見えた。単発で読むかぎり、AIの癖は美点としか映らない。
それでも、人間の仕事は減らない
Claudeのレビューを読んで、私がやったことは、たった一つだった。
「3作とも『AはBではない、Cだ』構文が反復されている、という指摘は妥当か」を、自分で並べて読み直した。妥当だった。そのうえで、これを3作で許すか、改稿するか、を決めた。
正解は知らない。でも、決めたのは私だ。
AIが書く時代に、人間の仕事は減らない。増えるのは、「どのAIに、何をさせ、どこで止めるか」を決める仕事だ。モデル相互の指摘を聞き、最後の責任を引き受ける。その役を、AIに委ねた瞬間、AI文明は崩れる。
最後に
今、AIエージェントは何でもやってくれるように見える。書ける。レビューできる。デプロイもできる。
だが、自分の癖を、自分で見つけることだけはできない。
そこに、人間が立つ場所がある。そして、組織として設計するなら、異系統のAIを最初から組み合わせる構造を入れておく場所がある。
決断は、人間の仕事だ。そして、その決断を支えるのは、単一モデルの完璧なスコアではなく、別系統のモデルが投げてくる「君の癖はこれだ」という不愉快な指摘のほうだ。

