宣伝会議賞特化コピーライティング支援AI

AIにコピーを考えさせるのではなく、人間が自分の手で選び抜くためのAI。

31課題宣伝会議賞に応募

2,638本総応募コピー数

0.81 評価AIのROC-AUC

38本一次通過（1.44% / 業界平均 0.98%）

コンセプト

論理や計算の領域では、AIは人間を次々と超えてきた。一方で「人の心を動かす言葉をつくる」というクリエイティブの領域は、長らく人間の領分だと言われてきた。

本当にそうなのか——その問いを、自分たちで確かめたかった。実験の場として選んだのが、 宣伝会議賞 だ。応募作品が公開され、課題と評価軸がはっきりしている。AIを使ったコピーづくりが、現場で通用する水準に届くのかどうかを、第三者の審査で測れる。

ただし、AIにすべて書かせる方向には進まなかった。コピーを大量に並べたとき、「80点は大量に出るが、90点が出ない」壁にぶつかったからだ。そこから設計を切り替えた。 AIで大量に並べ、人がその中から選び抜く。応募する一行は、すべて人の手で選んでいる。

仕組み

1. 「コピーの60分類」をAIに学習させる

社内に、過去に宣伝会議賞のグランプリを獲った作り手がいる。歴代受賞コピーを長年読み解き、自分の中で整理してきた 「受賞コピーの60分類」 ——「本質的価値の発見」「気持ちの発見」「表現の発見」といった、いわゆる 切り口の地図 ——をAIに学習させた。これによりAIは、表面の言葉をなぞるのではなく、 「課題に対してどの切り口で攻めるか」 という上位の発想から動く。

2. Gemini Batch API で総当たり生成

31課題分のブリーフ に対して、60を超える技法と組み合わせ、 Gemini 2.5 Pro の Batch API にコピーを大量生成させる。1課題あたり 最大1,900本。バッチジョブは中断・再開できるCLIで運用し、結果はJSONLで全件保存。生成と同時に内部スコアでランキングまで出す。

3. 評価AIをゼロから学習させる

プロジェクトの心臓部。プロンプトではなく、 本物の機械学習モデル を社内で組み上げた。

A／B 2案を表示する判定UIを用意
受賞経験のある作り手が、直感で「こっちが良い」をひたすら判定
400問のA／B判定 を学習データとして、評価モデルを訓練
検証データで ROC-AUC 0.81、二択正解率約74%

実際の比較例：

A: 「子供が苦手なものは一度揚げてみる。」 → スコア 3.57
B: 「脂っこくないっていいよね。」         → スコア 0.60
AIの判定：A が勝つ確率 95.1%

これで1,900本のコピーを 300本 まで足切りできる。

4. 「人が選ぶ」ためのWebアプリ

評価AIが残した300本を、人が1本ずつ目視で読み込み、応募する100本を確定する。 Convex + React で評価専用の社内Webアプリを構築した。

評価者ごとに評価キューを管理（未評価のコピーを優先配信）
いいね／ダメ／総評価数のリアルタイム集計
300件 → 100件の最終選定をデータベース上で完結

評価AIは「明らかにダメなものを落とす」ことに使えるが、「90点を引き当てる」ことは原理的にできない。最後のセンスは人の側にある。

5. Geminiで仕上げる

選び抜いた100本に対し、Geminiに「もっとおもろく」「この切り口で」と誘導をかけながら、最後の一手を入れる。書き直しはAI、確定は人、の分担で詰めていく。

PIPELINE — 大量生成から応募作の確定まで

01 INPUT 課題と切り口を入れる 31課題分のブリーフと、グランプリ受賞経験者が体系化した「受賞コピーの60分類」をインプット。
02 GENERATE Gemini 2.5 Proで総当たり生成 Batch API でコピーを大量生成。1課題あたり最大1,900本。 1,900本／課題
03 SCORE 評価AIで足切り 400問のA／B判定で学習させた機械学習モデル（ROC-AUC 0.81）が、明らかにダメなものを落とす。 1,900→300本
04 PICK ━ HUMAN 人の手で選び抜く Convex + React で組んだ評価UIで、300本を1本ずつ目視で読み込み、応募する100本を確定する。 300→100本
05 POLISH Geminiで最後の一手を入れる「もっとおもろく」「この切り口で」と誘導をかけながら、応募する100本の言葉を整える。書き直しはAI、確定は人。

結果

一次通過 38本 / 通過率 1.44%（応募全体平均 0.98%、業界平均の約1.5倍）
2次通過 1本（応募総数約56万本のうち、500本に残留）
評価AI: ROC-AUC 0.81 / 二択正解率約74%

ねらい

AIを”答えの自販機”ではなく、 判断軸を引き出すパートナー として運用する
大量生成 → 評価AI → 人が選ぶ、というループそのものを社内資産化する
同じパイプラインを、ネーミング・コンセプトワーク・提案書づくりに横展開する

気づき

最初は「全部AIに任せる」実験から始めた。1時間で数百本生成される速度は圧倒的だったが、並べて読むと 「80点は大量に出るが、90点が出ない」 壁に突き当たる。

プロジェクトの後半、社内から漏れた一言がある——「人力プロンプト調整以外で、飛躍的に性能を上げる方法は思いつかなかった」。これは技術的な敗北ではなく、 コピーの最後の10点は、人の感覚にしか宿らない という、ひとつの結論でもあった。

このプロジェクトで残したかったのは、応募作でも通過率でもなく、 AIと並走しながら判断軸を磨いた書き手 そのものだった。AIに任せれば速い、まではもう誰でもたどり着く。その先の90点を取りにいくとき、最後の判断を握っているのは人の感覚のほう。AIで並べ、人が選ぶ。そのループを回すほど、選び手の精度が上がっていく。

AIが一次情報から生成 / 仕組みを見る ↗