指導者による評価に潜むバイアス

人が部下や学生を評価する時、どのような要素が理由となってバイアスが生じるだろうか。クイーンズ大学ベルファストのリサーチフェローであるワイ・イー・エイミー・ウォン氏は、教師が学生の課題に対して成績をつける際にバイアスがかかる4つの原因を指摘している。これは教育現場だけでなく、企業における社員教育の場や上司による評価などにも援用できる考え方である。

参考文献:The Conversation, “Four things that can bias how teachers assess student work”, 17 Jul 2020

評価の目的

ウォン氏は第一に、評価の目的が「学習機会の提供」である場合と「優秀な学生のみの成長」である場合とで指導の仕方や評価の仕方が大きく変わると指摘する。

前者の場合、多くの学生が成長することを目的としているため、試験に出る重要なポイントを全て網羅するような指導を行い、サポートの仕方も均等になる。評価の際は、その成果が出ているかという観点で見ることができる。

対して後者の場合、優秀な学生を抽出することが評価の目的であるため、一から十まで細かくサポートすることはない。この時、優秀な学生はヒントによって自ら重要なポイントを探すことができ、結果的に試験では大きな差が出ることがある。

これは企業においても、カリキュラムの作り方や指導の仕方によって、優秀な人だけが伸びるように誘導することはいくらでも可能である。企業においては、この方法が必ずしも悪いというわけではない。しかし、ウォン氏が言うように、それを意図して行っているかどうかという「主観」を認識することが重要であり、評価者は評価プロセスをよく検討する必要がある。

評価プロセスに対する信頼

評価するためには評価基準が必要だが、特に教育の場合は評価基準が存在するはずである。教師がその評価基準を信頼しているかどうかというのがバイアスの元である。

評価基準を信頼していない場合、教師が勝手に自身が重要と考える評価基準を追加したり、逆に重要でないと考える評価基準を無視したりなど、評価基準から逸脱する可能性がある。

企業の場合では、例えば社員教育においては「コミュニケーション能力」をどう評価するかという問題がよく生じる。そもそもコミュニケーション能力を何と定義するかは難しいので、基準があってもそれが信頼されるかはまた別問題である。

例えば、コミュニケーション能力を「自分の考えを他者と適切に共有できること(そして相手の考えをインプットすることも同様)」と捉えることもできるが、単に「誰とでも適切に話すことができること」と社交性のように解釈する人もいる。

後者の場合、この「誰とでも」というのがみそであり、(たとえ相手が一般にコミュ障と呼ばれるような人であっても)文字通り「誰とでも話せる人」と考える人もいれば、コミュ障は捨象して「それ以外の人と話せる人」と考える人もいるし、或いは「自身(評価者)とうまく話せるか」というものまで多様である。

3つ目は論外としても、2つ目を暗黙の評価基準としてしまう人は多いように思える。2つ目が悪いとは言わないが、1つ目を採用する人もいれば、評価の仕方にブレが生じる。

評価者の経験

これについては2つの観点が指摘されている。1つ目は、複数の教師が存在する場合、経験豊富な教師が評価に対して主導的な立場を取り、経験が浅い人がそれに従う傾向があるということだ。評価の仕方に曖昧さが残る場合、主導的な立場を取る人がバイアスを生じさせうるということである。

もう1つは「専門外の分野の学生を評価する場合」である。例えば大学などでは、特定の専門分野があって、それに関連する基礎的な分野を指導するということがある。例えば歴史学を専門とする教授が一般教養の英語を担当したり、経済学を専門とする人が統計学を担当したりといった場合だ。

ウォン氏の例だと、体系的なアプローチで歴史について整理してほしいと期待する歴史学の教授が英語を担当した場合、独創的な英語のエッセイを評価するときにはこの基準はバイアスになる。

これは様々な部署を経験していく典型的な日本企業ではよく生じ得る問題だろう。特に技術を重視する者が営業分野にいった時に生じやすい。特にIT分野では「営業も製品やサービスの事をよく知っている必要がある」というお題目が立てられる事が多いが、これを字のごとく解釈する技術屋は少なくない。

感情

感情は評価を最も歪める。これは教師による評価でも人事評価でも同じことである。好き嫌いだけで評価を決めるような人もいるが、実際、感情の影響を全て取り除くのは本当に難しい。

但し、ウォン氏は感情の影響を完全に否定的に捉える必要は無いと指摘する。ちゃんと現状を把握し、プロとして評価プロセスを再考し、「様々な評価基準を組み合わせて信頼の高い評価」を行うための材料として使えれば良いわけである。

筆者も社員教育で評価を行っているが、これについて筆者は以下の方法をとっている。

筆者は短気だし、女の子には甘い。こうしたバイアスをそもそも持たない事が評価者にとって望ましいが、残念ながら筆者はこれらが治る気はしない。

だからまずは「思うまま点数をつける」。この時は嫌いな人への評価は辛辣だし、かわいい子は無駄に評価が高い。バイアスだらけだ。

このまま提出すると大問題なので、今度は必ず「好き嫌い」についての点数もつける。この好き嫌いは「性格的に合う合わない」は勿論、「かわいい」とか容姿の問題についてもだ。容姿に点数をつけるなど最悪だと思うかもしれないが、主観を点数付けすることでバイアスを認識することができる。この点数を使って元の点数を「補正」するわけである。

そして「他の評価者の好き嫌い」についてもヒアリングを行っている。もし多くの評価者が共通の「好き嫌い」をもっているならば、それはもはやバイアスではなく、その人の能力である。これについては「誰からも好まれる社交的な性格である」など補足意見として採用している。

最後に、この種の主観的な数値データをつけたという痕跡を消すことである。ばれたら面倒だからだ。

最後に

ウォン氏は、一連の4つの要因を理解することは、評価するときの自身の偏見を理解してそれを改善するのにも役立つと指摘している。また関連研究として、評価実線に対してのフィードバックを教師に提供することも重要という。

筆者のようなバイアスをバイアスのまま受けいれてアウトプットだけを適切にするというプロセスはあまり褒められたものではない。しかし、バイアスを自覚するということの重要性については実践できており参考になると考えられる。

About HAL

金融・マーケティング分野の機械学習システム開発や導入支援が専門。SlofiAでは主に海外情勢に関する記事、金融工学や機械学習に関する記事を担当。

View all posts by HAL →