評価制度にAI活用力をどう組み込むか── Harvard×BCG 758名実験が示す、日本企業の人事部門が今考えるべきこと

2026年3月27日

平康慶浩（セレクションアンドバリエーション株式会社代表・人事コンサルタント）

AIを使える社員をどう評価しますか？

「AIを使いこなせる社員を、もっと高く評価したい」

最近、クライアント企業の人事担当者から、こんなご相談を受けることが増えました。

お気持ちはよくわかります。
実際、生成AIを使えば企画書の質が上がります。
分析も速くなるし、その水準も高い。
たしかに、「使える人」と「使えない人」で、目に見える差が出始めています。
だから評価に反映させたい、と思うのは自然な発想です。

でも、ちょっと待ってください。
「AIを使えているかどうか」は、本当に評価すべきことなのでしょうか。

この問いに対して、非常に示唆的なデータを出してくれた研究があります。
Harvard Business SchoolとBoston Consulting Group（BCG）が共同で行った、758名のコンサルタントを対象にした大規模な実験です。

結論から言うと、AIを使うと成果が上がるタスクと、AIを使うと成果が下がるタスクが、同じ業務の中に混在していることがわかりました。

これは、これからの評価制度を考えるうえで、とても重要な示唆ではないでしょうか。

「ギザギザの技術フロンティア」という概念

この研究を率いたDell’Acqua、Mollick、Lakhaniらが提示した概念が、「Jagged Technological Frontier（ギザギザの技術フロンティア）」です。

少しわかりにくい名前ですが、中身はシンプルです。

AIが得意なことと苦手なことの境界線は、まっすぐな線ではなく、ギザギザしている、というものです。
ある業務はAIが簡単にこなせるのに、一見同じくらいの難しさに見える別の業務では、AIを使うとかえって間違える。そういう凸凹がある、ということです。

厄介なのは、どこがギザギザの内側で、どこが外側なのかが、専門家にもわからないという点です。

実験でわかったこと ── 数字で見る「光と影」

AIが効くところでは、劇的に効く

BCGのコンサルタント758名を、AIなし群、GPT-4あり群、GPT-4＋使い方ガイド群の3つにランダムに分けました。
タスクは、新商品の企画立案。アイデア出し、市場分析、マーケティング戦略の策定など、18の小タスクからなる、かなり実践的な内容です。

結果はこうでした。

AI使用群は、AIなし群と比べて、タスクの完了数が12.2%増え、速度は25.1%速くなり、品質は人間の採点で40%以上向上しました。

しかも、もともとパフォーマンスが低かった層ほど効果が大きい。
下位50%の人は43%の向上、上位50%の人でも17%の向上。
つまり、全体の底上げと格差の圧縮が同時に起きたのです。

ここだけ見ると、「やっぱりAIはすごい、全員に使わせるべきだ」と思いたくなります。

AIが効かないところでは、判断力が落ちる

ところが、もう一つの実験では逆の結果が出ています。

定量データとインタビュー情報を統合して、どのブランドに投資すべきか判断するタスク。
こちらでは、AI使用群の正答率が統制群より19ポイントも低下しました。
統制群が84.5%正解だったのに対して、AI群は平均65%です。

ここで私が注目したのは、「間違えた人の提案書の質は高かった」という点です。

つまり、AIが書いた文章はきれいで論理的なのに、結論が間違っている。
もっともらしく間違える。
しかも、優秀なコンサルタントでさえ、その間違いに気づけなかった。

これ、人事評価の現場で考えると、かなり怖い話ではないでしょうか。

2つの「AIの使い方」パターン

この実験で面白いのは、フロンティアの外側のタスクでもうまくAIを使えた人がいた、ということです。研究チームは、その人たちの行動を2つのパターンに分類しています。

「セントール型」は、半人半馬の神話になぞらえた使い方です。データ分析や判断は自分でやる。文書化や整理はAIに任せる。人間とAIの分業を明確に切り分けるスタイルです。

「サイボーグ型」は、もっと密接な協働です。AIにペルソナを与えて回答させ、その出力を検証し、矛盾を指摘し、反論を投げかける。一つのサブタスクの中で人間とAIが入り混じるスタイルです。

どちらにも共通するのは、AIの出力を鵜呑みにしていない、ということです。

日本企業の人事部門が今考えるべき5つのこと

① 「AIを使っているか」ではなく「使い分けられるか」を見る

この実験結果を踏まえると、評価制度で測るべきは「AIの利用頻度」ではありません。

大事なのは、どのタスクにAIを使い、どのタスクで自分の判断を優先するか、その切り分けができているかどうかです。

私はこれを、等級制度における新しいコンピテンシー要件として位置づけるべきだと考えています。
従来の「専門性」「マネジメント力」「問題解決力」に加えて、「人間とAIの協働設計力」とでも呼ぶべき軸です。

ただし、これはあくまで能力の一部です。「AI活用力」を独立した評価項目にするのは、私は少し慎重であるべきだと考えます。
なぜなら、AIの得意・不得意は技術の進化とともに変わるからです。
今年フロンティアの外側にあったタスクが、来年は内側に入っているかもしれない。制度は、その変化に耐えられる設計でなければなりません。

② パフォーマンス分布が変わることを前提に報酬設計を見直す

下位層が43%向上し、上位層が17%向上する。この非対称な効果は、報酬制度の前提を揺るがします。

これまで多くの企業は、パフォーマンスの分布がある程度安定していることを前提に、報酬レンジを設計してきました。
しかしAI導入後は、その分布自体が変わります。

従来「期待通り」だった社員がAIを使って「期待以上」の成果を出すようになったとき、報酬制度はそれに対応できるでしょうか。
成果主義の報酬体系を運用している企業ほど、この問いに早めに向き合う必要があります。

③ 「もっともらしい間違い」を見抜く力を、評価者に求める

フロンティア外タスクの結果は、評価者研修のあり方にも影響します。

AIを使って書かれた自己評価や目標設定シートは、論理的で、読みやすく、体裁が整っています。
しかし、その中身が本質を外している可能性がある場合に、それを見抜くことができるでしょうか？

私がかねてから指摘してきた「一次評価者の問題」──直属上司が低い評価をつけられず、結果的に優秀層が離れていく構造──は、AI時代にさらに複雑になります。AIが生成した「もっともらしい」評価文書に対して、上司が「これは本当にこの人の実力を反映しているのか？」と問えるかどうか。

形式の整った文書を前にして、その背景にまで踏み込めるだけのコミュニケーションを、普段から部下ととれているか。
それが、これからの評価者に求められる力です。

④ 育成プログラムに「AIなし」の時間を意図的に組み込む

実験の著者たちが警鐘を鳴らしている点があります。
フロンティア内のタスクをAIが代替するようになると、ジュニア社員に仕事を任せる機会が減る、という問題です。

これは日本企業のOJT文化にとって深刻です。

先輩の仕事を見て学ぶ。
失敗しながら覚える。
そういう経験の場自体が、AIによって奪われかねない。
論文はこれを「育成の欠損（training deficit）」と呼んでいます。

対策として、若手には「セントール型」の使い方──AIの得意領域と自分の判断領域を切り分ける訓練──を提供することが有効です。
また、中堅以降には「サイボーグ型」──AIの出力を批判的に検証するスキル──を鍛える場を提供します。
そして、意図的に「AIなしで取り組む時間」を育成プログラムに組み込む。

便利なツールがあるからこそ、あえてそれを使わない経験が必要になる。
少し逆説的ですが、育成とはそういうものではないでしょうか。

⑤ 「みんな同じAI」がイノベーションを殺すリスクに備える

この実験には、もう一つ見逃せない発見があります。
AI使用群は個々のアイデアの質は上がったものの、参加者間のアイデアの多様性は下がった、という結果です。

全員が同じAIを使えば、似たようなアウトプットが出てくる。

これは、もともと同質性が高いと言われてきた日本企業にとって、既存の弱点がさらに増幅されるリスクです。

人事部門がAI導入の方針を検討する際には、「全員一律導入」ではなく、チーム内にあえてAIを使わないメンバーを配置する、複数のAIモデルを使い分ける、「AIなし」のブレインストーミングを定期的に設ける、といった「多様性を守る設計」が必要です。

評価制度の再設計は、「技術」の問題ではない

この論文を読んで、私が改めて感じたのは、AIの問題は技術の問題ではないということです。

「どのAIツールを導入するか」は、IT部門が考えればいいでしょう。

人事部門が考えるべきは、AIによって「成果」と「能力」の意味がどう変わるかです。

AIがフロンティア内のタスクを劇的に底上げする世界では、「成果」の定義が変わります。
AIが「もっともらしい間違い」を生む世界では、「能力」の定義も変わります。

等級制度、評価基準、報酬設計、育成プログラム。これらを、AIのある世界に合わせてどう再構築するか。

「AI活用力」を評価軸に加えるかどうかは、その大きな問いの一部にすぎません。

本当に問うべきは、自社にとって「優秀」とは何かを、もう一度定義し直すことです。

それが、人事部門の次の仕事だと、私は考えています。

論文情報

Dell’Acqua, F., McFowland III, E., Mollick, E., Lifshitz-Assaf, H., Kellogg, K.C., Rajendran, S., Krayer, L., Candelon, F., & Lakhani, K.R. (2023). Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality. Harvard Business School Working Paper, No. 24-013. (Organization Science掲載予定)

本稿に関するお問い合わせ、評価制度・人材マネジメントに関するご相談は、セレクションアンドバリエーション株式会社までお気軽にお寄せください。