評価方法

AIによる批判的思考力・創造的思考力の評価：大学教育への応用と課題

2025.05.14

AIで思考力を可視化・定量化する新たな潮流

大学教育において批判的思考力と創造的思考力は重要な汎用スキルですが、その評価は従来、人間の教員による主観的な判断に依存していました。多人数の学生の思考力を丁寧に評価するには膨大な時間と労力がかかり、教員間での評価のばらつきも課題となっていました。

このような背景から、近年では人工知能（AI）を活用して思考力を客観的かつ効率的に評価・定量化しようとする研究が活発化しています。AIは自然言語処理や機械学習の技術によって、文章中のキーワードや構文、論理構造、アイデアの独創性などを分析し、数値指標や可視化によるフィードバックを提供できるようになっています。

自動エッセイ評価（Automated Essay Scoring; AES）技術は、エッセイを大規模に高い信頼性で採点し、人間の作業を削減できるまでに進歩しています。これらのAIによる評価指標は、グラフ表示やレポート生成によって可視化され、学生自身や教員が思考プロセスの強み・弱みを把握するのに役立っています。

批判的思考力評価におけるAI活用の最新事例

批判的思考力とは、与えられた情報を分析・評価し論理的に考察する力であり、レポートや小論文、オープンエンドの試験回答などを通じて評価されます。AIはこの領域で主に自然言語処理（NLP）と機械学習を用いて、文章中の批判的思考のエビデンスを検出・評価します。

自動エッセイ採点システムの大学導入例

具体的な応用例として、自動エッセイ採点システムが大学で試験的に導入されています。米国のフロリダガルフコースト大学では、大規模授業でIntelligent Essay Assessor (IEA)と呼ばれるシステムを用い、学生の短文回答を内容知識や高次の批判的思考力まで含めて評価しました。このコースでは選択式問題や短答式問題をAIが採点し、より長い批判分析エッセイは人間の評価者が採点するというハイブリッド型評価が行われています。

このように部分的にAIを組み合わせることで、採点負担を減らしつつ重要な批判思考スキルの評価を維持する工夫がされています。

大規模言語モデル（LLM）を活用した評価の可能性と限界

近年は大規模言語モデル (LLM) を利用した評価も試みられています。例えばChatGPTなどのモデルに学生エッセイを評価させ、人間の評価者と比較する研究では、8つの評価観点についてChatGPTの評点の信頼性は低く、人間評価者と大きく異なることが報告されています。

特にChatGPTは人間よりも寛容な採点（スコアが高めに出る傾向）を示し、現時点では人間の補助的ツールにとどまると結論づけられています。この結果は、最新AIであってもそのまま人間を置き換えるには課題があることを示しています。

一方で、AIの評価と人間評価の差分を見ることで、どの観点で食い違いが生じるか分析でき、評価基準の明確化やフィードバック提供に活かすこともできます。

NLPによる批判的思考の特徴量分析

AIが用いる具体的な特徴量としては、文章の長さや構文の複雑さ、専門用語の使用頻度などが批判的思考力の指標と相関することが知られています。ある研究では、イタリア語エッセイを対象に、人間評価による批判的思考スコアとNLPで算出した特徴量との関連を分析し、テキストの語数、文の構造の複雑さ、TF-IDF（重要語の頻度）の3指標が総合的な批判的思考得点と有意な相関を持つと報告されました。

これは、長く深い考察を展開し難解な語彙も適切に用いている文章ほど批判的思考力が高い傾向を示唆しており、AIはこうした観点から学生の思考の深さを客観的に推定できます。

創造的思考力評価へのAI活用法と成功事例

創造的思考力（創造性）は新しいアイデアを発想し問題解決に活かす力であり、その評価もまた困難です。一般に発散的思考を測るテスト（例：与えられた物の新しい使い道をできるだけ多く挙げるオルタナティブ用途テストなど）が創造力評価に用いられますが、採点には専門家の主観が入りやすく、多大な労力を要します。これに対し、AIによる自動採点は創造性評価の客観性と効率を高める手段として注目されています。

生成AIを活用した創造性テスト自動採点

最近の研究では、生成AI（GenAI）を活用して創造性テストの採点を自動化する試みが見られます。例えばオルタナティブ用途テスト (AUT) において、従来は回答の「流暢さ（アイデアの数）」「柔軟さ（カテゴリーの広さ）」「独創性（他者と異なる斬新さ）」といった指標を人手でカウントしていました。

ある研究ではGenerative AIモデルに多数の回答データを学習させ、これら指標を自動算出させることで採点の効率化と客観性向上を実現しています。実際に中学生を対象にAUTを繰り返し練習させた縦断的研究では、AI自動採点によって得られたデータから、練習回数に応じて発想の流暢さと柔軟さが向上する傾向が捉えられるなど、創造的思考力の成長を定量的に分析できることが示されています。

図画・デザイン評価におけるAIの可能性

創造的思考力の評価では文章だけでなく図やデザインに対する評価も重要です。この分野でもAIの活用が模索されており、例えばトーランス創造的思考テスト（TTCT）の図画課題において画像認識AIで自動採点するモデルが開発されています。

これは受験者が描いた絵をコンピュータビジョン技術で解析し、独創性やアイデアの展開度合いを人間の評価基準に近い形で判定するものです。このように、テキストか図画かを問わず多様な創造性評価にAIを適用する研究が進んでおり、従来は評価が難しかった創造的思考の可視化が可能になりつつあります。

大学教育におけるAI評価導入の実践事例

AIによる思考力評価は研究段階から実践段階へと進みつつあり、大学教育でもパイロット導入が始まっています。以下にいくつかの注目事例を紹介します。

米国大学でのハイブリッド型評価システム

ノースイースタン大学ビジネススクールでは、独自開発のAI採点アシスタント「Essaybot」を2024-2025年度に複数科目でパイロット導入しました。教員とティーチングアシスタントがAIの評点とフィードバックを検証しつつ採点する形で、採点時間を約60%短縮しつつ一貫性のある評価を達成しています。

試験的な運用では、設定調整に時間を要したものの一度整えば一問あたり数秒で評価提案が得られ、最終的に1回の試験につき8時間の作業削減につながったと報告されています。加えて、人間では避けられない疲労や主観のブレを排除した公平な採点ができる点も確認されました。

教員からは「AIに全て任せきりにせず、最後は自分の目で確認することで学生への共感や指導の観点を保つことが重要」との指摘もあり、AIと人間の協働による評価の有効性と課題の両面が示されています。

グローバルMOOCプラットフォームでのAI評価統合

大規模オンライン講座（MOOC）を提供するCourseraでは、2024年にAIアシスト採点やAIピアレビュー機能の導入を発表しました。AIアシスト採点では課題の分析に基づき評点や講評を提案し、最終決定は人間の採点者に委ねる形で信頼性を担保しています。

また、受講生同士のピアレビューを支援する機能では、AIが提出物を評価し所定のルーブリックに沿ったフィードバックを生成します。グローバルなパイロット調査では、受講生の97%がAIによる評価を従来のピアレビューより好むと回答しており、その理由として「フィードバックの質向上、公平性の増加、返却の迅速化」が挙げられています。

これはオンライン学習環境でAI評価が学習者に受け入れられつつあることを示す好例です。またCourseraは、AIが学生の自由記述答案を解析して追試問を自動生成し、解答の真正性や批判的思考を口頭試問で確認する「AIビバ試験」の仕組みも導入しています。これにより提出物が本当に学生本人の深い思考によるものか検証し、不正防止と思考力評価を両立する工夫がなされています。

日本における英文エッセイ自動評価の展開

日本でも大学入試や語学教育向けにAI採点が使われ始めています。例えば桐原書店の提供する「桐原AIエッセイライティング」は、延べ6.8万人の受験者・29万件の英文エッセイを自動採点した実績がある先駆的サービスです。

2024年にはこのシステムにChatGPTを連携した新バージョンが公開され、主題への関連性や内容の一貫性といった高度な観点の評価および模範解答例の提示が可能になりました。従来は語彙・文法・構成といった表層面の指摘が中心でしたが、生成AIの導入によりエッセイ内容を深く分析し、一人ひとりに最適化したフィードバックを提供できるようになっています。

大学の語学ライティング指導や入試の小論文評価で、こうしたAIサービスを活用するケースも増えてきており、評価の迅速化・公平化に寄与しています。

AI評価実用化における課題と解決への道筋

AIによる思考力評価は有望な一方で、教育現場で実用化するにあたり解決すべき課題も指摘されています。主な論点と対応策を整理します。

評価の信頼性・妥当性確保への取り組み

AIの評点が人間の専門家による評価と一致し、妥当なものと言えるかが最重要です。前述のようにChatGPTによる採点は現状では人間と大きく異なる結果を出す場合があり、アルゴリズムの改良や人間との二重採点体制による検証が欠かせません。

また、評価基準から逸脱した的外れなスコアリングを防ぐ必要があります。例えば極端に長いだけの答案に高得点を与えてしまうなど、AI特有の誤判断がないか注意深く監査することが求められます。

バイアスと公平性の問題にどう対処するか

AIモデルが学習データに起因するバイアスを含む可能性も懸念されます。研究によれば、自動採点モデルの種類によって性別・人種・社会経済的背景などに関連した異なるバイアスが現れることが確認されています。

不適切なバイアスにより特定の学生集団が不利益を被ることがないよう、公平性の検証と是正措置が不可欠です。他方で、AIは人間の無意識の偏見を排除できる利点もあります。どの観点でAIが公平・不公平な判断を下しているかを透明化し、公平性に配慮したモデル設計を行うことが課題となります。

透明性と説明可能性の確保

学生や教員がAIの評価結果を理解・納得できるよう、評価の根拠を説明可能にすることが重要です。ブラックボックスなモデルでは「なぜこの得点になったのか」が不明瞭で、受け入れられにくくなります。

ある研究では、評価結果の説明が提供されると学生の感じる評価の公平性が向上し、評価者（AIか人間か）の違いによる印象の差が縮小することが示されました。逆に説明がない場合、誰が評価したかで受け止め方が変わり得るため、AI評価では詳細なフィードバックやルーブリック指標の提示など透明性確保の工夫が求められます。

倫理とプライバシーへの配慮

学生の思考の産物を分析するAIには、そのデータの扱いや倫理面の配慮も必要です。学生の答案や発想データが外部に蓄積されることでプライバシー侵害につながらないか、またAIの判断に過度に依存しすぎて教育上の人間的判断が軽視されないか、といった懸念があります。

評価アルゴリズムが教育を支配し「アルゴリズムによるヘゲモニー（支配）」が生まれる危険性も指摘されており、AIはあくまで人間の意思決定を補佐するツールであるという位置づけを明確にする必要があります。

さらに、生成AIを用いる場合はモデルが不適切な出力（例えばトンチンカンな質問や誤情報）を返すリスクもあるため、モニタリングとフィルタリング体制を整えることも倫理的課題です。

AI評価結果を教育改善に活かす効果的な方法

AIで測定・分析された批判的思考力・創造的思考力の指標を、実際の教育評価や指導にどう活用するかも重要なポイントです。大学では現在、慎重に段階的な取り入れが行われています。

成績評価における段階的AI導入アプローチ

成績評価への利用については、まず低リスクの部分からAIを組み込む例が多く見られます。例えば前述のケースでは、小テスト的な短答問題や下書き段階のエッセイなど、成果の一部にAI評価を反映させ、期末試験や最終レポートなど重要度の高い評価は依然として人間が担当する形が採られていました。

CourseraのAIアシスト採点も最終的な評点決定は人間が行うことを原則としています。このように、AIの評価結果は教員の判断を補強する材料として用いられ、全面的に自動評価のみで成績が決まるケースは今のところ限定的です。

ただし受講者数が非常に多いオンライン科目では、AIピアレビューの評点をそのまま課題点に反映する試みも始まっており、今後AI評価の妥当性が向上すれば人間の再確認なしに成績反映する場面も増える可能性があります。

学習支援とフィードバックの充実化

指導方針や学習支援への活用も盛んです。AIは学生ごとの思考パターンデータを蓄積できるため、教員はクラス全体の弱点傾向を把握したり、個々の学生に応じた指導計画を立てたりするのに役立ちます。

例えばAIの分析で「証拠の吟味が弱い学生が多い」と分かれば、授業で追加の論証演習を行う、といったデータ駆動型の指導改善が可能です。また、学生にとってもAIから得られる詳細なフィードバックは学習支援となります。

創造力テストの自動評価では、どの発想が凡庸でどれが斬新だったかをフィードバックでき、学生はより独創的なアイデア発想の練習に活かせます。批判的思考の評価でも、例えば論理の飛躍やバイアスの指摘といった具体的なフィードバックがあれば、学生は自分の思考過程を振り返り改善できます。

このように形成的評価のツールとしてAIを位置づけ、成績というより学習者の自己改善にフィードバックを役立てる活用が推進されています。

思考力重視の教育カリキュラム再設計

さらに、AI評価の導入は教育方法そのものにも影響を与えています。採点負担の軽減により、教員は今まで敬遠していた記述式の課題や論述試験を増やすことが可能になります。

ある教員は「もしAI採点が十分に信頼できるなら、これまで採点が大変で避けていたエッセイ中心の試験を復活させられるかもしれない」と述べています。これは、AIが評価を補助することでより思考力を問う課題を重視する教育へのシフトが起きうることを示唆します。

実際、創造的思考力を育成するにはオープンエンドの課題やプロジェクト型学習が有効ですが、評価負担がネックでした。AIの助けでそれらを採り入れやすくなれば、学生の思考力を鍛える機会が増え、ひいては成績評価にもこれらのスキルが反映される比重が高まるでしょう。

まとめ：AIと人間が共創する思考力評価の未来

大学教育における批判的思考力・創造的思考力の評価にAIを活用する取り組みは、技術的進歩と相まって急速に広がりつつあります。AIは評価の効率化・客観化に大きく貢献し、これまで見落とされがちだった思考プロセスを定量的に捉える新たな視点を教育現場にもたらしています。

今後、モデルの精度向上と公平性・透明性の確保が進めば、AI評価は成績評価や指導に一層深く組み込まれていくでしょう。一方で、人間らしい洞察や創造性を育む教育の本質を見失わないよう、AIを道具として上手に位置づけるバランスが求められます。

教育者とAIの協調によって、学生の思考力をより的確に評価し伸ばせる仕組みを築くことが期待されています。各種の実践事例と研究知見を踏まえ、これからの大学教育に適した評価の在り方を模索していくことが重要です。

AI支援型探究学習が教育における自己効力感を高める仕組みと長期的効果

AIとの協創時代に向けた大学教育カリキュラムの新展開