Bugün öğrendim ki: RateMyProfessors'taki öğrenci değerlendirmelerinin profesörün cinsiyetiyle neredeyse hiçbir ilişkisi olmadığı, ancak profesörün "çekiciliği" ile son derece yüksek bir ilişkisi olduğu görülüyor.

Her sömestrenin sonunda, üniversite öğrencileri, temelde onları "derecelendirerek", profesörlerine geri bildirimde bulunma fırsatı bulurlar. Genellikle profesörler bu durumdan pek rahatsız olmazlar ve bu da konuyla ilgili pek çok araştırmaya yol açmıştır. Öğrenci değerlendirmelerinin eleştirmenleri, bu değerlendirmelerin profesörün gerçek öğretim etkinliğini değil, yalnızca algılanan öğretim etkinliğini ölçtüğüne dikkat çekme eğilimindedir. Ayrıca, öğrenci değerlendirmeleri ile gelecekteki öğrenci performansı arasındaki korelasyonun zayıf olduğuna da kolaylıkla işaret ederler. Başka temel endişeler de vardır: İddia edilebilir ki, öğrenci değerlendirmeleri mümkün olan en kötü zamanda yapılır—sömestrenin sonunda, profesörün kursla ilgili herhangi bir şeyi değiştirmesi için artık çok geçken ve öğrencilerin derste öğrendiklerinin faydasını tam olarak takdir etmeleri için genellikle çok erken bir zamandır. Son olarak, profesörlerin daha sert not verenlerin daha düşük puanlar alma eğiliminde olması ve öğrencilerin notlarında açık bir çıkarları varken, profesörlerin terfi, kadro güvencesi vb. için iyi puanlar almaya bağlı olması nedeniyle temel çıkar çatışmaları söz konusudur. Biz, üniversite öğrencilerine ders vermiş araştırmacılarız, bu nedenle hem sürece hem de meslektaşlarımızın tepkisine oldukça aşinayız.

Öğrenci değerlendirmelerinin uygulanmasının en iyi yolunun ne olduğu ve bu sürecin nasıl iyileştirilebileceği tartışmalıdır. Ancak, yükseköğrenimin giderek artan maliyeti göz önüne alındığında, bu durum öğrencileri fiilen müşterilere dönüştürdüğünden, öğretim standartlarının karşılanmadığı durumlarda öğrencilerin söz sahibi olması gerektiğini çok az kişi tartışır. Öğretimin, profesörlerin profesyonel statüleri için (hibeler, yayınlar ve idari hizmetlere kıyasla) giderek daha az önemli hale geldiği bir çağda, onları tamamen ortadan kaldırmak düşüncesizlikten başka bir şey olmazdı.

Bu fikir birliği yeni bir cephede giderek daha fazla saldırıya uğramaktadır: Öğrenci değerlendirmelerinin cinsiyetçilik nedeniyle doğası gereği yanlı olduğunu ve bu nedenle yasaklanması gerektiğini iddia edenler tarafından. Biz bu görüşe katılmıyoruz, çoğunlukla varsayımların temelini oluşturan araştırmalarla ilgili metodolojik endişelerimiz nedeniyle. Cinsiyetçilikle ilgili endişelerin toplumun her yerine yayıldığını ve genel olarak değerlendirilmesinin zor olduğunu anlıyoruz, ancak bu konudaki mevcut literatürün yaptıkları iddialar için yeterli kanıt sağlayacağına inanmıyoruz. Mevcut araştırmalar karmaşıktır ve kalitesine ve bulgularına göre değişiklik gösterir; bazı çalışmalar kadınlara karşı bir önyargı bildirirken, bazıları kadın eğitmenlerin biraz daha iyi puanlar aldığını belirtmektedir.

Örneğin, son bir çalışma, öğrencilerin eğitmenlerinin kadın olduğuna inanırlarsa—eğitmenin gerçek cinsiyetinden bağımsız olarak—eğitmeni adalet, övgü, zamanında geri bildirim ve genel puan açısından istatistiksel olarak önemli ölçüde daha düşük puanladığını iddia etti. Ancak bu çalışma, grup başına 20 kişilik bir örneklem boyutuyla ciddi şekilde yetersiz güçlendirilmişti. Ve yazarlar bu örneklem üzerinde çok sayıda istatistiksel test uyguladığından, bu durum analizde hesaba katılmalıdır, özellikle de istatistiksel anlamlılık kriteri düşürülerek. Ancak burada yapılmadı—yapılmış olsaydı, bu sonuçlar artık anlamlı olmazdı, bu da bildirdiklerinin gerçek sonuçlar değil, muhtemelen yanlış pozitifler olduğunu gösteriyor.

Ayrıca, bu sonuçlar çevrimiçi bir çalışmaya dayanıyordu. Çevrimiçi çalışmalarda etkileşimler en az düzeydeyken, profesörün herhangi bir özelliğinin ne kadar alakalı olabilirdi ki? Başka bir deyişle, böyle bir çevrimiçi kursun, üniversite derslerinin çoğunluğunu oluşturan farklı öğrenci-profesör etkileşimlerine sahip yüz yüze dersleri temsil etmediğinden endişe ediyoruz. Bu, özellikle insanlar daha fazla belirsizlik olduğunda klişelere daha fazla güvendiğinin gösterilmiş olması nedeniyle sorunludur. Yüz yüze bir ortamda olduğu gibi daha az belirsizlik varsa, klişelerin etkilerinin önemli ölçüde azalması beklenebilir. Nitekim, genellikle yüz yüze (çevrimiçi olmayan) ortamlarda öğrenci değerlendirmelerinde anlamlı bir cinsiyet temelli fark yoktur.

En son olarak, başka bir makale, öğrenci değerlendirmelerinin cinsiyetçi olduğu gerekçesiyle bunlara karşı radikal bir iddiada bulundu—yazarlardan biri, değerlendirmeler kadınlara karşı önyargılı olduğu için profesörleri değerlendirmek için kullanmanın ayrımcılık karşıtı yasaların ihlali olduğunu ve yapılmaması gerektiğini savunarak bu iddiayı Slate'te genişletti. Yine, mevcut ampirik kanıtların bu tür radikal politika önerilerini haklı çıkardığına inanmıyoruz. Slate yazarının ve ortak yazarlarının yürüttüğü çalışmada, çevrimiçi bir dersteki bir erkek ve bir kadın eğitmen çiftinin öğrenci değerlendirmelerini karşılaştırdılar ve erkek profesörün kadın meslektaşından önemli ölçüde daha yüksek değerlendirmeler aldığını buldular. Ancak, tek bir çifte dayalı bir karşılaştırmadan kesin bir sonuç çıkarılamayacağından korkuyoruz. Bu kelimenin tam anlamıyla bir anekdottur—varsayımsal olarak, kadın ve erkek eğitmen arasında cinsiyet tek karşılaştırma temeli olarak kullanılabilecek birçok faktörden yalnızca biri olmak üzere neredeyse sonsuz sayıda fark vardır. Yazarların, öğrencilerin cinsiyete odaklandığını ve örneğin öğretim tarzına değil, nereden biliyorlar? İnsanlar doğası gereği çok farklıdır, bu nedenle psikolojideki herhangi bir deneyin, aranılan sinyalin (bu durumda cinsiyet farklılıklarının) kötüleyici bir şekilde gürültü denilen şey tarafından boğulmamasını sağlamak için büyük bir örneklem büyüklüğüne ihtiyacı vardır. (İnsanlar karmaşıktır, bu nedenle önceden var olan değişkenlik daha uygun olabilir.)

Ancak, bu argümanlara dayanarak zaten bize katılmayan birini ikna edemeyeceğimizi fark ediyoruz, bu yüzden öğrencilerin profesörlerini derecelendirebildiği popüler bir web sitesi olan RateMyProfessors.com'dan veri topladık. Özellikle, 1 milyon öğretim üyesi profilinden incelemeleri kazıdık ve ayırt edilemez bir şekilde bir atama yapılabildiği yerlerde bunları erkek veya kadın olarak sınıflandırdık. Bu incelemeleri, o zamanlar kamuya açık olmadıkları için öğretim değerlendirmeleri için bir vekil olarak kullandık, ancak RMP profilleri kamusal bilgidir. RMP puanları ile değerlendirmeler arasındaki korelasyon şaşırtıcı bir şekilde—ve yeterince—yüksek olduğu için bu kabul edilebilir bir vekildir.

Kadın profesörler cinsiyetlerine göre daha düşük sıralamalardan muzdarip olsaydı—öne sürüldüğü gibi—çektiğimiz verilerin analizi sonuçları şuna benzerdi:

Temel olarak, hem erkeklerin hem de kadınların öğretim yeteneği ve dolayısıyla öğrencilerden aldıkları derecelendirme açısından değişmesi beklenebilir, ancak tüm erkek dağılımı sağa kaydırılır; ya cinsiyet klişeleri, erkek olmaları nedeniyle onlara hak edilmemiş bir derecelendirme artışı sağladığından ya da cinsiyetçilik nedeniyle kadın puanları erkeklere göre yapay olarak düşürüldüğünden. Bu etki ne kadar büyük olursa, her iki grubun ortalama puanları o kadar farklı olur. Elbette bazı örtüşmeler olacaktır—en iyi kadın profesörler, mor renkle gösterilen en kötü erkek profesörlerden daha yüksek puanlar alabilir.

İşte bulduğumuz:

Bu şekilde üç önemli nokta görebilirsiniz. Birincisi, iki dağılım büyük ölçüde örtüşüyor, bu nedenle cinsiyet ve klişe etkileri son derece incelikli. İkincisi, gruplar arasında anlamlı bir ortalama fark yoktur. Erkek grubunun ortalaması her zamankinden biraz daha yüksektir, ancak pek değil. Burada gördüğümüz etkinin büyüklüğünü açıklamak için bir analoji: Ortalama bir ABD yetişkini günde 5.117 adım atar. Eğer birinin attığı adım sayısını cinsiyetin öğrenci derecelendirmelerini etkilediği aynı şekilde artıran bir performans artırıcı ilaç olsaydı, bu ilacı alan insanlar günde yaklaşık 168 ek adım atarlardı. Eğer 5.117 adım yaklaşık 2,42 mil ise, ek destek yaklaşık 0,07 mil, yaklaşık 123 yarda veya postaya fazladan bir yürüyüş demektir. Başka bir deyişle, son derece küçük bir etkidir. Ve bu, cinsiyetle ilgili olabilecek karıştırıcı faktörlerin olmadığı varsayımıyla—ki bu büyük bir varsayımdır. Profesörlerin cinsiyet dağılımı yıllar içinde değiştikçe, erkek profesörlerin ortalama olarak kadın meslektaşlarından daha fazla deneyime sahip olduğu görülmüştür. Daha fazla deneyime sahip profesörler (bu çalışmada daha fazla derecelendirmeye eşittir) daha iyi puanlar alır. Eğer biz bunun istatistiksel olarak hesabını yaparsak, bu ince fark bile ortadan kalkar. Bu nedenle, fakültenin cinsiyet oranları gelecekte eşitlendikçe ve erkek ve kadın profesörler eşit oranda deneyim kazandıkça, bu ince ortalama farkın tamamen ortadan kalkacağını öngörüyoruz. Son olarak ve en ilginç olarak, kadınlar dağılımın kuyruklarında aşırı temsil edilmektedir. Başka bir deyişle, gerçekten harika olarak derecelendirilen ve kesinlikle berbat olarak algılanan profesörler arasında oransal olarak daha fazla kadın vardır ve aralarına erkek profesörlerin aşırı temsil edildiği görülmektedir.

Bunun bizi ne kadar şaşırttığını ve dehşete düşürdüğünü vurgulamak istiyoruz. Bunun nedeni, bakılan hemen hemen diğer tüm alanlarda—gelir, genel yaşam sonuçları (örneğin, güçlü bir pozisyonda olmak ile evsiz veya hapsedilmiş olmak) ve hatta doğum sayısı—erkeklerin bu dağılımların kuyruklarında aşırı temsil edilirken, kadınların ortada aşırı temsil edilmesidir. Bu tutarsızlıklar genellikle erkeklerin risk alma eğilimindeki artışın farkına bağlanır. Bu sezgisel olarak mantıklıdır: Risk alma, kumar oynamakla karşılıklıdır ve belirsiz bir dünyada kumar kaybedilebilir. Bazı risk alanlar zirveye çıkarken, diğerleri kaybeder ve dağılımın altına düşer (veya muhtemelen ölür). Erkeklerin ortalama olarak daha fazla risk almasının altında yatan teori evrime dayanır: Hiçbir sosyal grup kadınlarının çoğunu kaybetmeyi göze alamazken, erkekler büyük ölçüde yedek olarak kabul edilir ve tarih boyunca böyle muamele görmüşlerdir. Bugün bile, çoğu ülkede erkekler kadınlardan birkaç yıl daha erken ölmektedir.

Her neyse, tüm bunlar şaşırdığımızı söylemek içindir. Ancak konumuza dönersek, öğrenci değerlendirmeleri gerçek yaşam sonuçlarıyla ilgilenmez ve zaten sınıfta çok az öğretmen risk alır. Bunun yerine verilerimiz, öğrencilerin öğretim etkinliğine ilişkin algısını yansıtmaktadır. Bu nedenle, bulduğumuz etkiyi açıklayabilecek bir teoriye sahibiz; buna Beklentilere Bağlı Farklı Yorumlama modelimiz adını veriyoruz: Profesörleri değerlendirdiğimiz için, bunların hepsi yüksek statülü liderlik pozisyonlarıdır. Kadınlar bu mesleğe nispeten yakın zamanda (büyük sayılarda) girdikleri için, onlara karşı klişelerin genel olarak düşürülmüş beklentiler olarak tezahür ettiğini varsaymak makuldür. Geri kalanı temel psikolojidir. Eğer bir kadın profesör nesnel olarak iyiyse ve düşük beklentileri aşıyorsa, harika algılanacaktır—insanlar onun yoluna konulan tüm cinsiyet temelli engelleri aşıp yine de öne geçtiğini düşüneceklerdir ve dağılımın en sağ kuyruğuna yerleşecektir. Eğer bir kadın profesör nesnel olarak kötüyse, düşük beklentilerin bile altında performans gösteriyorsa, gerçekten korkunç algılanacaktır; öğrenciler, sırf kadın olduğu için işe alındığını düşünebilirler ve dağılımın en sol kuyruğuna yerleşecektir.

“Kötü” kadın profesörler kendilerini ayrımcılığa uğramış hissedebilirler ve bu anlaşılabilir olabilir, çünkü sonuçlarımız bu grubun cinsiyetle ilişkilendirilebilecek, ancak son derece küçük bir etki yaşadığını göstermektedir (Bu kadınlar ayrıca harika olmadıklarını ancak aldıkları tüm düşmanlık kadar kötü olmadıklarını da fark edebilirler.) Buna karşılık, sağ kuyruktaki “harika” kadınlar başarılarını stereotiplere değil, nedenselliğin atfedilmesindeki kendi kendine hizmet eden önyargıyla ilgili araştırmaların gösterdiği gibi kendilerine atfedeceklerdir. Bu, azınlıkların iyi algılanmak için daha çok çalışmak veya ortalamanın üzerinde olmak zorunda olduklarına dair sıkça dile getirilen algısıyla da uyumludur.

Bu modelin hala çok öncelikli olduğunu vurgulamak istiyoruz. Bunu doğrulamak için, benzer bir etkinin diğer azınlıklar için de var olup olmadığını göstermemiz gerekir, örneğin ırk veya diğer özellikler için, ancak RateMyProfessor ırkla ilgili bilgi sağlamamaktadır. Bu modeli doğrulamak için başka bir yol da kültürlerarası araştırma yapmaktır.

Veri setimizin değerlendirmeye karar verdiğimiz başka bir özelliği daha vardı. Temel zorluk seviyesi ve profesörle başka bir ders alınıp alınmayacağı hakkındaki sorulara ek olarak, öğrenciler bir profesörün “çekiciliğini” değerlendirmeye davet edilir ve seçenekler “evet” ve “ııı, hayır” şeklindedir. Bunun zorunlu bir değerlendirme kriteri olmadığını belirtmek gerekir.

Bir profesör, olumsuz olandan daha fazla olumlu çekicilik derecelendirmesine sahipse, sitede bir “biber” alır.

Şekil 3'teki dağılımlara bakıldığında, bir biberin (algılanan çekicilik) olumlu derecelendirmelerle son derece yakından ilişkili olduğu açıktır:

Bu dağılımın gösterdiği gibi, biberi olmayan bir profesörün harika bir puan alması imkansız değildir, ancak çok daha az olasıdır. Dahası, biberli profesörler temelde berbat puanlar almazlar: 4.9 puan alan profesörlerin %85'inde biber varken, 2.1 puan alanların yalnızca %2'sinde biber vardır. Bu fark çarpıcıdır. Yine, eğer bu, önceki performans artırıcı ilaç olsaydı ve adımları artırmada biberler kadar etkili olsaydı, bu şimdi günde yaklaşık 3.884 ek adım ekleyerek bu ilacı alanların günlük ortalamasını 9.000 adımdan fazlaya çıkarırdı. Başka bir deyişle, fiziksel aktiviteyi artırmayı amaçlayan bilinen herhangi bir halk sağlığı müdahalesinden çok daha etkili olurdu. Bu dramatik bir etkidir ve bizim örneğimizde, erkeklerde olduğu kadar kadınlarda da güçlüdür.

Peki, öğrenci değerlendirmelerindeki en önemli faktör profesörün fiziksel görünüşü mü? İnsanların—genç öğrencilerin bile—bu kadar sığ olduğuna inanmayı reddediyoruz. Bu sadece korelasyonel olduğu için, çekici profesörlerin iyi puanlar mı aldığını yoksa iyi puan alan profesörlerin çekici mi algılandığını ayırt edemeyiz. Başka olasılıklar bile var: Belki de işinde iyi olan profesörler diğerlerinden daha kendilerine güvenir ve bu yüzden daha çekici algılanırlar. Belki de öğrenciler iyi bir iş yapmanın ödülü olarak bir “biber” “verirler”. Bu olasılıkları burada ayırt edemeyiz, ancak güçlü bir etkinin nasıl göründüğünü göstermek istedik ve algılanan fiziksel çekiciliğin öğrenci puanları üzerindeki etkisi güçlüdür, oysa cinsiyet etkileri değildir.

Şekil 4: Dikkate alınması gereken son bir güçlü etki daha vardır ve bu, algılanan zorluğun algılanan kalite üzerindeki etkisidir. Görebileceğiniz gibi (görsel dağınıklığı en aza indirmek için burada yalnızca 50'den fazla derecelendirmeye sahip profilleri gösteriyoruz), bu etki de güçlüdür—zorluk ile profesör başına derecelendirme arasında büyük bir negatif korelasyon vardır. Başka bir deyişle, zor olarak algılanan profesörler düşük kaliteli olarak algılanırken, kolay olarak algılananlar yüksek bir puan alır. Görünüşe göre öğrenciler çok talepkar (“zor”) profesörlere pek hoş bakmıyorlar. Ancak—ve bu tartışmanın amacı için önemli olan da budur—öğrencilerin bunu erkekler ve kadınlar için farklı şekilde yaptığına dair kesinlikle hiçbir kanıt yoktur. Bu şekilde görebileceğiniz gibi, kadınlar ve erkekler tamamen iç içe geçmiştir. Genel olarak açık cinsiyetçi eğilimler yoktur—kadınlar genel olarak daha zor algılanmaz ve daha zor oldukları için daha fazla cezalandırılmazlar. Korelasyonlar her iki alt grupta da aynıdır.

Öğretim görevlileri olarak—ve öğrencilerin zor ve talepkar algılamaya eğilimli oldukları dersleri veren öğretim görevlileri olarak—bazen öğrenci değerlendirmelerinden tamamen kurtulma arzusunu anlayabiliriz. Deneyimlerimize göre, öğrenciler kendilerine haksızlık yapıldığını hissettiklerinde değerlendirmelerde kendilerini tutmuyorlar ve genellikle bir öğrenci için “haksızlığa uğramak” “kötü bir not almak” anlamına gelir. Bu, notun hak edilmiş olması durumunda eğitmen için kesinlikle adaletsiz görünebilir. Bu nedenle, değerlendirme sürecinin kendisinin iyileştirilebileceği konusunda şüphe yoktur. Belki de RateMyProfessors gibi sitelerin var olması bile, öğrencilerin mevcut resmi değerlendirme sürecini yetersiz gördüğünü göstermektedir. Ancak mevcut kanıtlar, değerlendirmeleri tamamen yasaklamamız gerektiğini göstermemektedir, hele ki ampirik kanıtlarla desteklenmeyen nedenlerle hiç de. Gerçi biber hakkında ciddi bir konuşma yapmalıyız.