강의평가는 가르침의 질 저하와 성적 인플레이션을 조장한다: 이론적 및 실증적 분석(BASIC AND APPLIED SOCIAL PSYCHOLOGY, 2020)
Student Evaluations of Teaching Encourages Poor Teaching and Contributes to Grade Inflation: A Theoretical and Empirical Analysis 
Wolfgang Stroebe

학생 교수 평가(SET)는 1920년대에 퍼듀 대학교의 교육 심리학자 Herman H. Remmers(예: Remmers & Brandenburg, 1927)와 워싱턴 대학교의 학습 심리학자 Edwin R. Guthrie(예: Guthrie, 1953)에 의해 독자적으로 개발되었습니다. Remmers와 Guthrie는 대학 교사에게 자신의 강의가 학생들에게 어떻게 인식되고 있는지에 대한 정보를 제공하여 필요한 경우 개선하는 데 도움을 주고자 했습니다. 그들은 이러한 강의 평가에 대한 접근 권한을 강의 교사에게만 제한하려고 했습니다. 1953년 거스리는 "이 정보를 궁극적인 능력의 척도로 받아들이는 것은 심각한 오용이 될 것"(221쪽)이라고 경고했지만, SET는 곧 대학 관리자들에게 중요한 정보원이 되었고, 이들은 이를 능력 향상 및 승진에 대한 결정의 근거로 사용했습니다. 
Student Evaluations of Teaching (SETs) were independently developed in the 1920s by the educational psychologist Herman H. Remmers at Purdue University (e.g., Remmers & Brandenburg, 1927) and the learning psychologist Edwin R. Guthrie (e.g., Guthrie, 1953) at the University of Washington. Remmers and Guthrie wanted to provide university teachers with information about how their teaching was perceived by students and thus help them to make improvements, where necessary. They intended to limit access to these course evaluations to course teachers. Even though Guthrie warned in 1953 that “it would be a serious misuse of this information to accept it as ultimate measure of merit” (p. 221), SETs soon became valued sources of information for university administrators, who used them as a basis for decisions about merit increases and promotion.

일반적인 SET

  • 학생들에게 코스 교사에 대한 인식을 묻는 양식으로 구성되며,
  • 보통 매우 동의함부터 매우 동의하지 않음까지 5점 리커트 척도로 평가하도록 되어 있습니다
  • . 학생은 교수자와 코스에 대한 전반적인 평점을 매기도록 요청받습니다.
  • 또한 강사의 특정 특성(예: 지식, 공정성, 도움됨)과 코스의 특정 특성(예: 조직, 난이도, 유익함)을 평가하도록 요청받습니다.
  • 그런 다음 모든 학생과 각 평가 항목 및 모든 평가 항목에 대해 평균 평점이 계산됩니다.
  • 이러한 평균 평가는 종종 학과 또는 학부의 다른 교수들이 받은 평가와 비교하여 교수의 교육 효과를 평가하는 데 사용됩니다(Uttl 외., 2017).

The typical SET

  • consists of forms that ask students to rate their perception of course teachers,
  • often on 5-point Likert scales, ranging from strongly agree to strongly disagree.
  • Students are asked to give overall ratings of both their instructor and their course.
  • In addition, they are asked to rate specific characteristics of the instructor (e.g., knowledge, fairness, helpfulness) and of the course (e.g., organization, difficulty, informative).
  • Mean ratings are then computed across all students and for each rated item, as well as across all rated items.
  • These mean ratings are often used to evaluate a professor’s teaching effectiveness by comparing them with ratings received by other professors in the department or in the faculty (Uttl et al., 2017).

1973년에는 29%의 대학만이 SET를 수집했지만, 1983년에는 68%, 1993년에는 86%로 증가했습니다(Seldin, 1998). 2010년에 실시된 설문조사에 따르면 94%의 대학에서 SET를 수집하고 있으며, 거의 모든 학장이 강의실 수업이 교수진 성과 평가의 주요 부분이라고 답했으며, 일반적으로 강의실 수업의 질에 대한 주요 정보 출처는 SET라고 답했습니다(Miller & Seldin, 2014). 
Whereas in 1973 only 29% of colleges collected SETs, this practice increased to 68% in 1983 and to 86% in 1993 (Seldin, 1998). A survey conducted in 2010 indicated that SETs were collected in 94% of colleges, that nearly all deans declared that classroom teaching was a major part of the performance evaluation of their faculty, and that SETs were usually their main source of information about the quality of classroom teaching (Miller & Seldin, 2014).

승진 및 임기 결정의 근거로 SET를 사용하는 것은 SET가 교수 효과와 학생 학습의 유효한 척도인 경우에만 정당화됩니다. 그러나 그렇지 않은 경우도 있습니다(예: Boring et al., 2016; Uttl et al., 2017). 이는 코스에 대한 학생의 만족도를 반영하는 것일 가능성이 높으며, 이는 교육 효과와 무관한 여러 요인에 의해 영향을 받을 수 있습니다(Freishtat, 2016). 이 글의 

  • 첫 번째 섹션에서는 SET가 학생 학습의 유효한 척도가 아니라는 증거를 제시합니다.
  • 두 번째 섹션에서는 SET가 어떻게 부실한 교수를 조장하고 성적 인플레이션을 유발하는지 보여주는 프로세스 모델을 제안합니다.
  • 세 번째 섹션에서는 과정 모델에서 가정하는 과정에 대한 증거를 검토합니다.
  • 네 번째 섹션에서는 성적 인플레이션의 정도를 설명하고 이러한 인플레이션 과정의 어두운 측면에 대해 논의합니다.
  • 마지막으로, SET의 책임감 있는 사용에 대한 결론을 논의합니다.

The use of SETs as a basis for decisions on promotion and tenure is justified only if SETs are a valid measure of teaching effectiveness and student learning. But they are not (e.g., Boring et al., 2016; Uttl et al., 2017). They are most likely a reflection of students’ satisfaction with a course, which can be influenced by many factors that are unrelated to teaching effectiveness (Freishtat, 2016).

  • In the first section of this article, evidence is presented that SETs are not a valid measure of student learning.
  • In the second section a process model is proposed, showing how SETs encourage poor teaching and cause grade inflation.
  • The third section reviews evidence for the processes assumed by the process model.
  • The fourth section illustrates the extent of grade inflation and discusses the dark side of this inflationary process.
  • Finally, conclusions about a responsible use of SETs are discussed.

 

교수에 대한 학생 평가의 타당성에 대해
On the validity of student evaluations of teaching

SET는 안면 타당성이 매우 높습니다. 결국, 학생들은 많은 코스를 수강하므로 특정 강사가 효과적인 강사인지 판단할 수 있어야 합니다. 이러한 가정을 뒷받침하는 증거는 학생의 코스 평가가 해당 코스에서 받은 성적과 양의 상관관계가 있다는 것입니다. 다음의 가정을 하면 이 가정을 뒷받침하는 것으로 해석할 수 있습니다.

  • (a) 학생은 좋은 교사로부터 더 잘 배울 것이다
  • (b) 코스 성적은 학습의 좋은 척도이다
  • (c) 학생은 강사의 강의 품질을 평가할 수 있다.

그러나 한 수업의 모든 학생이 동일한 강사에게 노출되기 때문에 더 많이 배우는 학생이 그 강사를 더 나은 교사로 인식하는지에 대해 의문을 가질 수 있습니다. 또 다른 근본적인 비판은 학생의 코스 성적과 교수자에 대한 평가 사이의 상관관계가 편견을 반영할 수 있다는 것입니다. 학생은 코스 종료 시점에 코스 성적을 받지만, 일반적으로 이미 예상되는 성적을 잘 알고 있습니다. 편향 해석은 좋은 성적을 받을 것으로 예상하는 학생이 나쁜 성적을 받을 것으로 예상하는 학생보다 교사를 더 긍정적으로 평가한다고 가정할 수 있습니다.

SETs have a great deal of face validity. After all, students take many courses and should therefore be able to judge whether a particular instructor is an effective teacher. Supporting this assumption is the evidence that students’ course evaluations are positively correlated with the grades they received in those courses. This can be interpreted as supportive if we make the following assumptions:

  • (a) Students learn more from good teachers,
  • (b) course grades are a good measure of learning, and
  • (c) students are able to evaluate the quality of the teaching of their instructor.

However, because all students in a class are exposed to the same instructor, one could wonder if students who learn more also perceive him or her as a better teacher. Another more fundamental critique is that the correlation between students’ course grades and their evaluation of a teacher might merely reflect bias. Although students receive their course grades at the end of a course, they typically already have a good idea what to expect. A bias interpretation would assume that students who expect to receive a good grade evaluate a teacher more positively than students who expect to receive a poor grade.

교수에 대한 학생 평가에 대한 여러 섹션 연구
Multisection studies of student evaluations of teaching

이 두 가지 해석을 구분하는 한 가지 방법은 한 수업 집합의 평균 SET 점수가 해당 수업의 평점 평균(GPA)과 상관관계가 있는 경우 코스 성적과 SET 간의 관계가 유지되는지 테스트하는 것입니다. SET가 편향성이 아닌 교수 효과를 반영하고 코스 성적이 학습을 반영하는 경우, 수업 집합의 평균 SET는 해당 수업의 평균 GPA와 양의 상관관계를 가져야 합니다. 이 예측은 다중 섹션 코스에서 테스트되었습니다. 다중 섹션 코스는 각각 다른 교수자가 가르치는 여러 개의 병렬 섹션으로 분할된 코스입니다. 최적의 다중 섹션 코스는 다음 요구 사항을 충족해야 합니다:

  • (a) 동일한 자료를 가르치는 여러 섹션이 있어야 하고,
  • (b) 각 섹션은 다른 교수자가 가르쳐야 하며,
  • (c) 학생이 스스로 선택하지 않도록 섹션에 무작위로 배정되어야 하고,
  • (d) 모든 섹션은 동일한 중앙 관리 시험으로 평가되어야 하며,
  • (e) 시험 직전 또는 시험과 함께 SET를 시행해야 합니다.

One way to distinguish between these two interpretations is to test whether the relationship between course grades and SETs would be maintained if the correlation of the average SET scores of a set of classes were correlated with the grade point average (GPA) of those classes. If SETs reflect teaching effectiveness rather than bias, and if course grades reflect learning, then the average SET of a set of classes should be positively correlated with the average GPA of these classes. This prediction has been tested with multisection courses. These are courses that are split into a number of parallel sections, each taught by a different instructor. An optimal multisection course should meet the following requirements:

  • (a) It should have many sections in which the same material is being taught,
  • (b) each section should be taught by a different instructor,
  • (c) students should be randomly assigned to these sections to avoid self-selection,
  • (d) all sections should be assessed with the same centrally administered exam, and
  • (e) SETs should be administered either just before or with the exam.

나중에 설명할 Boring 등(2016)의 연구에서 모든 1학년 학생들은 동일한 필수 과목을 수강했습니다. 각 과목에서 한 명의 교수가 약 900명의 학생을 대상으로 주요 강의를 진행했습니다. 과목은 10~24명의 학생으로 구성된 섹션으로 나뉘어 강사가 가르쳤습니다. 모든 학생이 치르는 기말 시험은 코스 교수가 출제했습니다. 학생들이 학습한 양이 많은 섹션을 학습한 양이 적은 섹션보다 더 긍정적으로 평가한 경우(그리고 시험이 학생 학습의 유효한 척도인 경우), 섹션 평균 세트는 섹션 평균 성적(GPA)과 양의 상관관계가 있어야 합니다. 학생을 무작위로 섹션에 배정하는 것이 불가능한 경우가 많으므로 일부 다섹션 연구에서는 사전 학습 또는 능력의 지표(예: 전체 GPA, SAT 점수)에 따라 최종 성적을 보정합니다. 다중 섹션 설계는 SET의 유효성에 대한 연구에서 가장 표준적인 방법으로 간주됩니다(예: Abrami et al., 1990; Cohen, 1981, 1983; Feldman, 1989).  
In a study by Boring et al. (2016) to be described later, all 1st-year students took the same mandatory courses. In each course, main lectures were given by a professor to approximately 900 students. Courses were divided into sections of 10–24 students taught by instructors. The final exam, taken by all students, was written by the course professor. If students rated sections in which they learned a great deal more positively than sections in which they learned little (and if the exam was a valid measure of student learning), average-section SETs should correlate positively with average-section grades (GPA). As it is often impossible to assign students randomly to sections, some multisection studies correct final grades by indicators of prior learning or ability (e.g., overall GPA, SAT scores). The multisection design is considered the gold standard in research on the validity of SETs (e.g., Abrami et al., 1990; Cohen, 1981, 1983; Feldman, 1989).

이러한 다중 섹션 연구에 대한 초기 메타 분석(예: Cohen, 1981; Feldman, 1989)에서는 SET 평균과 GPA 사이에 중간 정도의 양의 상관관계가 있다는 결론을 내렸습니다. 가장 영향력 있는 메타 분석은 68개의 다중 섹션 연구를 기반으로 한 Cohen의 메타 분석으로, 이 중 67개 연구에서 유용한 데이터를 제공했습니다. 전체 강사 평점과 GPA 간의 평균 상관관계는 r = .43으로, 중간 정도의 큰 효과를 보였습니다. Cohen(1981)의 메타 분석과 이후 Feldman(1989)의 메타 분석에 대한 비판에서 Uttl 등(2017)은 대부분의 다중 섹션 연구에 포함된 섹션 수가 다소 적고 이러한 소규모 연구는 종종 상관관계가 매우 높았다고 지적했습니다. 예를 들어, 코헨의 다중 섹션 연구 중 1/3 이상이 섹션 수가 10개 이하였습니다(Uttl 외, 2017). 이러한 저자들이 표본 크기를 보정했다면 이 문제는 덜 심각했을 것입니다. 그러나 Uttl 등(2017)이 비판한 것처럼, 이러한 메타 분석은 표본의 크기와 관계없이 모든 연구에 동일한 가중치를 부여했습니다. Cohen(1981)은 최소 20개 이상의 섹션을 사용한 연구를 분석한 결과 평균 상관관계가 .37로 더 낮았다고 보고했지만, 이것이 문제가 될 수 있다고 부인했습니다. Uttl 등(2017)은 30개 이상의 섹션을 사용한 다중 섹션 연구만을 기준으로 분석할 경우 상관관계는 r = .27로 감소한다고 덧붙였습니다. 
Early meta-analyses of such multisection studies (e.g., Cohen, 1981; Feldman, 1989) concluded that there was a moderately positive correlation between SET averages and GPAs. Most influential was the meta-analysis of Cohen, which was based on 68 multisection studies of which 67 provided useful data. The average correlation between overall instructor ratings and GPA was r = .43, a moderately large effect. In a critique of Cohen’s (1981) meta-analysis, as well as the later meta-analysis by Feldman (1989), Uttl et al. (2017) pointed out that the number of sections included in most of their multisection studies was rather small and that these small studies often had extremely high correlations. For example, more than one third of Cohen’s multisection studies had 10 or fewer sections (Uttl et al., 2017). This would have been less of a problem if these authors had corrected for sample size. However, as Uttl et al. (2017) criticized, these meta-analyses gave the same weight to all studies, independent of their sample size. Cohen (1981) denied that this could be a problem, even though he reported that an analysis of studies that used at least 20 or more sections resulted in a lower average correlation of r = .37. As Uttl et al. (2017) added, the correlation is reduced to r = .27 if one bases one’s analysis only on multisection studies with 30 or more sections.

Clayson(2009)의 최근 메타 분석에 따르면 SET와 학습 간의 가중치 없는 평균 상관관계는 r = .33인 반면, 표본 크기에 따라 가중치를 둔 상관관계는 r = .13에 불과하다고 보고했습니다. 흥미롭게도 클레이슨은 SET-학습 상관관계와 출판 연도 간에 r = .48의 상관관계가 있으며, 초기 연구에서 효과가 가장 높다고 보고했습니다. 또한 그는 섹션 수와 SET 학습 상관관계 사이의 상관관계는 r = -.37이었으며, 섹션 수가 적은 연구에서 상관관계가 더 높았다는 사실을 발견했습니다. 그러나 클레이슨의 메타 분석은 SET-학습 상관관계가 r = .41이고 섹션 수가 35개인 코헨의 메타 분석을 다중 섹션 연구 중 하나로 포함했기 때문에 문제가 있습니다. Uttl 등(2017)이 언급했듯이, "메타분석에서 추정된 r을 다 중 섹션 연구의 r과 혼합하여 다중 섹션 r에 대한 또 다른 메타분석을 수행할 이유를 생각할 수 없습니다."(31페이지).
A more recent meta-analysis by Clayson (2009) reported that the unweighted average correlation between SETs and learning was r = .33, whereas the correlation weighted by sample size was only r = .13. Of interest, Clayson also reported a correlation of r = .48 between the SET–learning correlation and the year of publication, with effects being highest in early studies. He also found that the correlation between number of sections and the SET–learning correlation was r = −.37, with studies having few sections achieving higher correlations. However, Clayson’s meta-analysis is problematic, because he included Cohen’s meta-analysis as one of his multisection studies with a SET–learning correlation of r = .41 and 35 sections. As Uttl et al. (2017) remarked, “We cannot think of any reason mixing the meta-analysis estimated r with multisection studies’ r to conduct another meta-analysis of multi-section rs” (p. 31).

Uttl 등(2017)은 체계적인 문헌 검색을 통해 51개 논문에서 보고된 97개의 다중 섹션 연구를 기반으로 대규모 메타분석을 수행했습니다. 다시 말하지만, 섹션 수가 적은 연구는 종종 매우 높은 상관관계를 보고했습니다.

  • 실제로 섹션 수와 SET 학습 상관관계의 상관계수는 r = -.35였습니다.
  • 소규모 연구 효과를 통제했을 때 추정된 SET-학습 상관관계는 r = .12였습니다.
  • 사전 지식/능력을 통제한 연구만 포함하면 SET-학습 상관관계는 r = -.06으로 감소했습니다.

Uttl 외(2017)는 "여러 섹션의 연구는 학생들이 높은 평가를 받은 교수로부터 더 많이 배운다는 주장을 뒷받침하지 않는다"고 결론지었습니다(35페이지).
Uttl et al. (2017) conducted a larger meta-analysis based on 97 multisection studies reported in 51 articles, which they identified after a systematic literature search. Again, studies with few sections often reported extremely high correlations.

  • In fact, the correlation between number of sections and SET–learning correlation was r = −.35.
  • When they controlled for small study effects, the estimated SET–learning correlation was r = .12.
  • Including only studies that controlled for prior knowledge/ability reduced the SET–learning correlations to r = −.06.

Uttl et al. (2017) concluded that “multisection studies do not support the claims that students learn more from highly rated professors” (p. 35).

Web of Science 및 Scopus(검색어: "학생의 교수 평가")에서 문헌을 검색한 결과, Uttl 등(2017)이 문헌 검색을 중단한 이후에 발표된 최근의 다중 섹션 연구는 단 한 건뿐이었습니다(Boring 등, 2016; Boring, 2017에서도 논의됨). 이 연구는 유럽(즉, 프랑스) 학생의 데이터를 사용하며 379명의 강사가 가르치는 1,177개 섹션의 1학년 학생 4,423명의 23,000세트에 기반합니다. 이 데이터는 특히 흥미로운데, 섹션에 대한 자율 선택이 없었고 SET에 대한 응답이 의무적이었기 때문에 응답률이 거의 100%에 달했습니다. SET와 최종 시험 점수 간의 평균 상관관계는 r = .04였습니다. 
A literature search on Web of Science and Scopus (search term: “student evaluation of teaching”) revealed only one recent multisection study published after Uttl et al., (2017) stopped their literature search (Boring et al., 2016; also discussed in Boring, 2017). This study uses data from European (i.e., French) students and is based on 23,000 SETs from 4,423 first-year students in 1,177 sections taught by 379 instructors. The data are particularly interesting because there was no self-selection into sections and responses to SETs were compulsory so that there was a near 100% response rate. The average correlation between SETs and final exam scores was r=.04.

SET가 학생의 학습과 관련이 없다는 사실을 발견하는 데 40년이 걸렸다는 것이 어떻게 가능한 일인가요? 한 가지 이유는 대부분의 연구가 1981년 이전에 수행되었기 때문일 수 있습니다. Clayson(2009)이 보고한 바와 같이, SET-학습 상관관계의 크기는 출판 연도와 밀접한 상관관계가 있었습니다. Uttl 등(2019)이 이 연관성을 자세히 살펴본 결과, 1981년 이전에 발표된 69개 연구의 평균 상관계수는 .31인 반면, 1981년 이후에 발표된 28개 연구의 평균 상관계수는 .06으로 나타났습니다.
How is it possible that it took 40 years to discover that SETs are unrelated to student learning? One reason could be that the majority of studies had been conducted before 1981. As Clayson (2009) reported, the size of SET–learning correlations were strongly correlated with year of publication. When Uttl et al. (2019) looked in more detail at this association, they found that the 69 studies published prior to 1981 yielded an average correlation of r = .31, whereas the 28 studies published in or after 1981 had an average correlation of r = .06.

이는 상당한 차이이며, 이러한 차이를 어떻게 설명할 수 있을지 궁금해집니다. Uttl 등(2019)은 이해 상충(COI)을 설명으로 제시했습니다: 초기 연구의 대부분은 SET 시스템을 판매하는 기업에서 근무하거나 소유한 연구자들이 발표했으며, 따라서 상당한 SET-학습 상관관계를 찾는 데 (재정적) 이해관계가 있었습니다. 제약 연구에서도 자금 출처가 연구 결과에 영향을 미친다는 충분한 증거가 있습니다(예: Bekelman et al., 2003; Lundh et al., 2018). Vartanian 등(2007)은 설탕 함유 청량음료가 체중에 미치는 영향에 대한 연구 결과가 자금 출처의 영향을 받았다고 보고하기도 했습니다: 설탕 함유 청량음료는 중립적인 출처가 아닌 생산자가 연구 비용을 지불했을 때 체중에 미치는 영향이 적었습니다. 
This is a substantial difference, and one wonders how such a difference can be explained. Uttl et al. (2019) offered conflict of interest (COI) as an explanation: Many of the early studies were published by researchers who either worked for or owned corporations that sell SET systems and thus had a (financial) interest in finding substantial SET–learning correlations. There is ample evidence from pharmaceutical research that funding sources influence research outcomes (e.g., Bekelman et al., 2003; Lundh et al., 2018). Vartanian et al. (2007) even reported that findings of the effects of sugar-containing soft drinks on body weight were influenced by the funding source: Sugar-containing soft drinks had less impact on weight when the study was paid for by the producer rather than a neutral source.

이러한 COI의 영향은 잘 알려져 있지만, COI가 교육의 질을 측정하는 척도인 SET의 효과에 대한 연구에도 영향을 미친다는 사실은 새로운 발견입니다. 그러나 이는 놀라운 일이 아닙니다. 결국, SET 시스템을 판매하는 회사에서 일하거나 소유하고 있는 연구자는 SET와 교육 효과 사이의 상관관계가 낮기보다는 높기를 선호할 것이라고 가정할 수 있습니다. 업튼 싱클레어(1934/1940)는 "어떤 사람이 무언가를 이해하지 못해야 월급을 받는 상황에서, 그 사람이 무언가를 이해하도록 하는 것은 어렵다"(109쪽)고 말한 적이 있습니다. Uttl 등(2019)이 제시한 증거는 설득력이 있습니다. 그들은 연구 저자 중 적어도 한 명 이상이 SET 기업과 연관된 경우 SET-학습 상관관계가 훨씬 더 크다는 것을 발견했습니다. 기업 COI가 있는 15개 연구의 상관관계는 r = .58인 반면, 기업 이해관계가 없는 저자의 82개 연구의 상관관계는 r = .18이었습니다(그림 1).
Although these effects of COI are well known, the finding that COI also influenced research on the effectiveness of SETs as measure of teaching quality is new. However, it is not surprising. After all, it can be assumed that a researcher who either works for or owns a firm that sells SET systems would prefer to find a high rather than a low correlation between SET and teaching effectiveness. As Upton Sinclair (1934/1940) once wrote, “It is difficult to get a man to understand something, when his salary depends on his not understanding it” (p. 109). The evidence presented by Uttl et al. (2019) is persuasive. They found that SET–learning correlations were much larger when at least one author of a study was associated with an SET corporation. Whereas the correlation was r = .58 for the 15 studies with a corporate COI, the correlation was r = .18 for 82 studies of authors without corporate interests (Figure 1).

시스몬도(2008)는 제약 연구 결과에 대한 COI의 영향 분석에서 이러한 갈등이 의식적인 수준에서는 작동하지 않을 수 있지만, 업계로부터 자금을 받으면 연구자와 의뢰자 사이에 선물 관계가 형성되어 의뢰자가 보답해야 할 필요성을 느낄 수 있다고 제안했습니다. 심리학 연구에서는 COI로 인한 연구자의 동기가 알게 모르게 연구 결과에 영향을 미칠 수 있는 미묘한 방식이 있습니다. 연구자는 일관성이 없는 연구 결과보다 자신의 가설을 뒷받침하는 결과를 면밀히 조사할 동기가 떨어질 수 있으며, 따라서 가설을 뒷받침하는 결과를 면밀히 조사할 가능성이 낮아질 수 있습니다. 불일치를 면밀히 조사하려는 동기가 부족하다는 것을 보여주는 예로, Uttl 외(2017)이 언급한 Abrami 외(1988)의 논문을 들 수 있습니다. 이 저자들은 초기 메타분석을 비교하면서 Cohen(1981)과 McCallum(1984)이 같은 연구에서 추출한 데이터 간의 불일치를 관찰했지만 이를 추적하지는 않았습니다. Uttl 등(2017)은 추출된 데이터의 정확성을 확인하기 위해 원래 연구에서 추출한 데이터를 점검한 결과, McCallum 데이터의 상당 부분이 단순히 부정확하다는 사실을 발견했습니다. 
In an analysis of the effect of COI on outcome of pharmaceutical research, Sismondo (2008) suggested that such conflicts might not operate on a conscious level but that accepting funds from industry creates a gift relationship between the investigator and the sponsor, in which the sponsor might feel a need to reciprocate. In psychological research, there are subtle ways in which a researcher’s motivation due to COI can unknowingly influence study findings. Researchers may be less motivated—and therefore less likely—to scrutinize results that support their hypotheses than findings that are inconsistent. An example that suggests lack of motivation to scrutinize inconsistencies—mentioned by Uttl et al. (2017)—is in an article by Abrami et al. (1988). In comparing early meta-analyses, these authors observed disagreements between data extracted by Cohen (1981) and McCallum (1984) from the same studies but did not follow this up. When Uttl et al. (2017) checked the extracted data for accuracy in the original studies, they discovered that a large proportion of the McCallum data was simply incorrect.

 

교수와 무관한 요인이 학생의 교수 평가에 미치는 영향
The influence of teaching-irrelevant factors on student evaluations of teaching

SET는 성별, 인종 등 교육 효과와 무관한 수많은 변수의 영향을 받습니다. 교수자의 호감도와 같이 교수 효과와 관련이 없어 보이는 다른 변수도 효과와 관련이 있을 수 있습니다. 예를 들어, 강사가 학생에게 접근하기 쉽고 도움이 되기 때문에 호감을 가질 수 있습니다. 안타깝게도 이러한 특성에 대한 연구는 주로 코스 평점 또는 강사 평점과의 (직접적인) 관계를 입증하는 데만 집중되어 왔습니다. 이러한 요소와 강사 또는 코스의 전반적인 평가 사이의 연관성을 매개할 수 있는 이론적으로 그럴듯한 변수를 평가하려고 시도한 연구자는 거의 없었습니다. 코스 교사는 커뮤니케이터이므로 커뮤니케이터의 효율성을 높이는 것으로 알려진 변수(예: 인지된 전문성, 호감도, 권력)는 강사의 교수 효과를 높일 가능성이 높습니다. 따라서 교수 효과와 직접적인 관계가 없어 보이는 특성도 교수 효과와 관련된 프로세스를 통해 간접적인 영향을 미칠 수 있습니다.
SETs are influenced by numerous variables that are unrelated to teaching effectiveness, such as gender and race. Other variables, such as likeability of an instructor—which seem to be irrelevant—could be related to effectiveness. For example, the instructor may be liked because he or she is accessible and helpful to students. Unfortunately, research on these characteristics has exclusively focused on demonstrating the (direct) relationship with course ratings or instructor ratings. Rarely have researchers tried to assess theoretically plausible variables that might mediate the association between such factors and overall ratings of instructors or courses. Because course teachers are communicators, variables known to increase the effectiveness of a communicator (e.g., perceived expertise, likeability, power) are likely to increase an instructor’s teaching effectiveness. Thus, characteristics that seem to have no direct relationship with teaching effectiveness might have indirect effects through related processes that are associated with teaching effectiveness.

SET와 강한 연관성이 있는 것으로 반복적으로 밝혀진 가장 노골적으로 관련성이 없는 특성 중 하나는 강사의 신체적 매력입니다. 교육기관 SET에서는 신체적 매력을 평가하지 않기 때문에, 매력이 교수자에 대한 학생의 평가에 영향을 미친다는 대부분의 증거는 RateMyProfessors.com(RMP) 웹사이트를 사용한 연구에서 제공되었습니다. RMP의 또 다른 장점은 기관별 SET와 달리 이 정보를 공개적으로 이용할 수 있다는 것입니다. RMP 평점과 기관별 SET의 일치 여부에 대한 의문이 종종 제기되어 왔기 때문에(예: Legg & Wilson, 2012; Murray & Zdravkovic, 2016), 몇 가지 RMP 결과를 검토하기 전에 이 문제를 먼저 논의합니다.
One of the most blatantly irrelevant characteristics that has been repeatedly shown to be strongly associated with SETs is the physical attractiveness of instructors. Because institutional SETs do not assess physical attractiveness, most of the evidence that attractiveness influences students’ evaluation of teachers has been provided by studies using the RateMyProfessors.com (RMP) website. An added advantage of RMP is that, unlike institutional SETs, this information is publicly available. Because the correspondence of RMP ratings to institutional SETs has often been questioned (e.g., Legg & Wilson, 2012; Murray & Zdravkovic, 2016), I discuss this issue before reviewing some RMP findings.

RMP 등급과 기관 SET의 대응 관계
The correspondence of RMP ratings to institutional SETs

1999년에 설립된 RMP는 학생이 교수를 유용성, 명확성, Easiness 및 "인기도"의 네 가지 측면에서 평가할 수 있는 인기 있는 웹사이트입니다. 유용성과 명확성은 강의의 질을 나타내는 지표로 결합됩니다.1 RMP의 교수자 평가와 교육기관 SET를 비교한 대부분의 연구에서 상당한 상관관계가 발견되었으며(예: Brown et al., 2009; Colardarci & Kornfield, 2007; Sonntag et al., 2009; Timmerman, 2008), 이는 상당한 수준의 동등성이 있음을 시사합니다. 예를 들어, 

  • 캘리포니아 대학교 샌디에이고의 1,002명의 교수를 대상으로 RMP 및 SET 등급을 모두 받은 Timmerman(2008)은 강사를 추천할 학생의 비율과 전반적인 품질에 대한 RMP 등급 간의 상관관계가 r = .66임을 확인했습니다. RMP 전반적인 품질과 학생의 수업 추천 비율 간의 상관관계는 r = .51이었고, RMP와 자기 보고 학습 간의 상관관계는 r = .57이었습니다.
  • Sonntag 등(2009)은 랜더 대학교 교수 104명의 RMP 평점을 바탕으로 비슷한 결과를 보고했습니다. 사용된 SET 평가는 5점 척도로 교수와 수업에 대해 우수하다고 평가한 것입니다. RMP 전체 품질 평가와 교수자 우수성에 대한 SET 평가의 상관관계는 r = .69, 수업 우수성과의 상관관계는 r = .60이었습니다.
  • Brown 등(2009)은 312명의 Brooklyn College 강사를 대상으로 한 연구에서, Colardarci와 Kornfield(2007)는 메인 대학의 283명의 강사를 대상으로 한 연구에서 유사한 상관관계를 보고했습니다.

이러한 상관관계의 크기는 일반적으로 RMP 평가가 SET 평가에 참여한 학생보다 훨씬 적은 수의 학생을 대상으로 한다는 점을 고려하면 특히 놀랍습니다. 
Established in 1999, RMP is a popular website where students can evaluate their professors on four dimensions: helpfulness, clarity, easiness, and “hotness.” Helpfulness and clarity are combined into an indicator of quality of teaching.1 Most studies comparing evaluations of instructors on RMP to institutional SETs have found substantial correlations (e.g., Brown et al., 2009; Colardarci & Kornfield, 2007; Sonntag et al., 2009; Timmerman, 2008) suggesting a fair degree of equivalence. For example,

  • Timmerman (2008), who identified 1,002 professors at the University of California, San Diego, with both RMP and SET ratings, found a correlation of r=.66 between the percentage of students who would recommend an instructor and RMP ratings of overall quality. The correlation between RMP overall quality and the percentage of students’ recommending a class was r=.51 and between RMP and self-reported learning was r=.57. S
  • imilar findings were reported by Sonntag et al. (2009) based on RMP ratings of 104 Lander University professors. The SET ratings used were ratings of professors and of classes as excellent on 5-point scales. The correlation of RMP overall quality ratings with SET ratings of instructor excellence was r=.69 and with class excellence was r=.60.
  • Similar correlations were reported by Brown et al. (2009) in a study based on 312 Brooklyn College instructors and by Colardarci and Kornfield (2007) in a study based on 283 instructors at the University of Maine.

The size of these correlations is particularly surprising, if one considers that RMP ratings are typically based on much smaller numbers of students than those who participated in the SET evaluations.

레그와 윌슨(2012)이 "RateMyProfessors.com은 편향된 평가를 제공한다"라는 자극적인 제목의 논문을 발표했으므로, 그들의 연구를 간략히 검토해 볼 필요가 있습니다. 이들은 연구에 기꺼이 참여한 25명의 교수에 대한 세 세트의 RMP 평점을 수집했습니다. 첫 번째 세트는 해당 교수의 이전 수업에 대한 평가로 구성되었습니다. 두 번째 세트는 수업 중에 시행된 세트에 포함된 RMP 항목에 대한 평가로 구성되었습니다. 이 학생들은 나중에(아마도 학기 말에) RMP에서 수업을 평가하도록 요청받았습니다. 주요 결과는 수업 중 및 학기말에 평가한 명확성 평가가 이전 수업에서 수집한 명확성 평가보다 약 0.5점 정도 더 높았다는 것입니다. 또한 교수들은 연구 전에 진행된 수업에서 덜 도움이 되고 더 쉬웠다고 평가했습니다. 이러한 차이에 대한 한 가지 설명은 이러한 교수자가 연구 기간 동안 최상의 컨디션을 유지하고 있었기 때문일 수 있습니다. 
Since Legg and Wilson (2012) published a paper with the suggestive title “RateMyProfessors.com Offers Biased Evaluations,” a brief review of their study is warranted. They collected three sets of RMP ratings of 25 professors willing to participate in the study. The first set comprised ratings of previous classes given by those professors. The second comprised ratings of RMP items embedded in an SET administered during classes. These students were later (probably at the end of the semester) asked to rate the class on RMP. The main finding was that in-class and end-of-semester evaluations of clarity were slightly higher (by approximately 0.5 points) than clarity ratings collected on previous classes. Professors were also rated less helpful and easier in classes given before the study. One explanation for these differences could be that these instructors were on their best behavior during the study.

Murray와 즈드라브코비치(2016)의 비판적 연구도 마찬가지로 설득력이 떨어집니다. 이 저자들은 교수자의 RMP 등급을 12개 항목으로 구성된 척도로 비교했습니다.
A critical study by Murray and Zdravkovic (2016) is similarly unconvincing. These authors compared RMP ratings of instructors with a 12-item scale that

교수자가 (a) 가르치는 것을 즐기는지, (b) 잘 정리되어 있는지, (c) 친절하고 학생을 배려하는지, (d) 도전적인 과제를 내주는지, (e) 추가 도움을 제공할 수 있는지, (f) 강의 자료에 열정적인지 여부와 관련된 교수자 및 코스 측면을 다루었습니다. (p. 141)
addressed instructor and course aspects related to whether the professor (a) enjoys teaching, (b) is well organized, (c) is friendly and considerate of students, (d) makes challenging assignments, (e) is available to provide extra help and (f) is enthusiastic about the course material. (p. 141)

이러한 항목은 각 연구 참여자가 인지한 중요도에 따라 개별적으로 가중치를 부여했습니다. 저자들은 RMP 척도(M = 3.56)가 아닌 6항목 척도로 측정했을 때 강의에 대한 평가가 더 높았다(M = 3.80)고 보고했습니다. 저자들은 그들의 복합 지수가 RMP보다 더 유효한 교수 효과 척도라는 증거를 제시하지 않았습니다. 또한, 다소 복잡한 척도와 단순한 RMP 평가의 차이도 미미합니다.
These items were individually weighed by each study participant according to perceived importance. The authors reported that the evaluation of teaching was higher (M=3.80) when measured with the six-item scale rather than the RMP scale (M=3.56). The authors present no evidence that their complex index constituted a more valid measure of teaching effectiveness than the RMP. Furthermore, the difference between their rather complex measure and the simple RMP ratings is minor.

신체적 매력
Physical attractiveness

신체적으로 매력적인("섹시한") 강사는 덜 매력적인 동료 강사보다 더 긍정적인 교수 평가를 받았습니다(예: Boehmer & Wood, 2017; Felton 외., 2008; Fisher 외., 2019; Freng & Webber, 2009; Hamermesh & Parker, 2005); Johnson & Crews, 2013; Riniolo 외., 2006; Rosen, 2018; Wolbring & Riordan, 2016). 학생 평가가 20개 이상인 미국과 캐나다의 모든 교수(369개 기관의 교수 6,851명)에 대한 데이터를 사용한 초기 RMP 연구에서 Felton 등(2008)은 "인기도"와 "품질" 간의 상관관계가 r = .64로 나타났다고 보고했습니다. 
Physically attractive (i.e., “hot”) instructors receive more positive teaching ratings than their less attractive colleagues (e.g., Boehmer & Wood, 2017; Felton et al., 2008; Fisher et al., 2019; Freng & Webber, 2009; Hamermesh & Parker, 2005); Johnson & Crews, 2013; Riniolo et al., 2006; Rosen, 2018; Wolbring & Riordan, 2016). In an early RMP study that used data for all the professors in the United States and Canada who had at least 20 student ratings (6,851 professors from 369 institutions), Felton et al. (2008) reported a correlation of r=.64 between “hotness” and “quality.”

미국 4522개 대학의 190,006명의 교수에 대한 7,882,980개의 평가(최소 20개 평가)를 기반으로 한 Rosen(2018)의 최근 RMP 연구에서도 인기도와 자질 간의 강력한 연관성이 반복적으로 나타났습니다. 품질 평가가 2.5점 미만인 교수는 거의 없었으며, 품질 평가가 만점인 교수의 70%가 인기 있는 교수로 간주되었습니다. Riniolo 외(2006)의 연구에서도 이와 비슷한 강력한 효과가 보고되었습니다. 다른 RMP 연구에서는 이보다 약한 연관성을 발견했습니다. 예를 들어, Freng과 Webber(2009)는 r = .37의 상관관계를, Johnson과 Crews(2013)는 r = .16의 상관관계를 보고했습니다. 
A more recent RMP study by Rosen (2018), which was based on 7,882,980 ratings of 190,006 professors from 4522U.S. colleges and universities, who had a minimum of 20 ratings, replicated the strong association between hotness and quality. Hardly any professor with a quality rating below 2.5 was considered hot, compared to 70% of professors with a perfect quality rating. Similarly strong effects were reported by Riniolo et al. (2006). Other RMP studies found weaker associations. For example, Freng and Webber (2009) reported a correlation of r=.37 and Johnson and Crews (2013) of r=.16.

이러한 신체적 매력의 영향이 RMP 평가에만 국한되지 않는다는 사실은 강사의 인지된 매력(웹사이트의 사진 평가에 기반)과 학기말 SET를 연관시킨 두 가지 연구에서 입증되었습니다. 

  • 94명의 강사를 대상으로 한 연구에서 Hamermesh와 Parker(2005)는 "표본에서 가장 외모가 좋지 않은 강사와 가장 외모가 좋은 강사 간에 강의 평가가 거의 두 표준 편차만큼 차이가 났다"고 보고했습니다(372페이지). 
  • 독일에서 125명의 강사를 대상으로 실시한 연구에서 Wolbring과 Riordan(2016)은 신체적 매력과 SET의 연관성이 다소 약하다는 것을 발견했습니다. 

그러나 SET 등급은 수업 결석률도 예측했습니다: 학생들은 신체적으로 매력적인 강사의 수업에 결석하는 횟수가 약간 적었습니다. 학생과 강사의 성별이 동성인지 이성인지는 아무런 차이가 없었습니다.
The fact that these effects of physical attractiveness are not limited to RMP ratings has been demonstrated in two studies that related perceived attractiveness of instructors (based on ratings of photographs from websites) to their end-of-semester SETs.

  • Based on a study of 94 instructors, Hamermesh and Parker (2005) reported that “the instructional rating varies by nearly two standard deviations between the worst- and best-looking instructors in the sample” (p. 372).
  • In a study conducted in Germany with 125 instructors, Wolbring and Riordan (2016) found a somewhat weaker association of physical attractiveness with SETs.

However, SET ratings also predicted absenteeism from class: Students missed slightly fewer classes of physically attractive instructors. It made no difference whether students and instructors were of the same or opposite sex.

Wolbring과 Riordan(2016)은 학생들이 매력적인 남성 또는 다소 덜 매력적인 남성 또는 여성의 사진(이력서에 첨부)에 노출되는 실험 연구를 통해 신체적 매력과 교수 평가의 연관성을 재현했습니다. 그런 다음 학생들은 이 자극을 준 사람이 하는 것으로 가정한 강의를 듣고 평가해야 했습니다. 다시 말하지만, 신체적 매력은 강의의 질에 대한 평가에 영향을 미쳤습니다. 마지막으로 Ambady와 Rosenthal(1993)은 두 명의 여대생이 13명의 대학 교수의 신체적 매력에 대해 평가(30초 무성 영화 클립 기준)한 결과, 해당 강사가 가르친 강의의 질에 대한 학생들의 학기말 평가와 상관계수가 r = .32로 나타났다고 보고했습니다. 
Wolbring and Riordan (2016) replicated their association of physical attractiveness and teaching evaluation in an experimental study in which students were exposed to pictures (attached to a CV) of either an attractive or a somewhat less attractive man or woman. Students then had to listen to—and evaluate—a lecture supposedly given by this stimulus person. Again, physical attractiveness influenced ratings of the quality of that lecture. Finally, Ambady and Rosenthal (1993) reported that ratings (based on a 30-s silent film clip) of the physical attractiveness of 13 college teachers by two female undergraduates correlated r=.32 with students’ end-of-term ratings of the quality of courses taught by these instructors.

강사에 대한 호감도
Likeability of instructor

신체적 매력이 강사의 인지된 효과를 높일 수 있는 한 가지 방법은 호감도와의 연관성을 통해서입니다. 호감도는 더 넓은 개념이지만, 신체적 매력은 호감도를 결정하는 주요 요인입니다. 미국 대학의 학생 861명을 대상으로 현재 수강 중인 수업의 두 강사의 신체적 매력을 평가하도록 한 연구에 따르면 호감도와 r = .47의 상관관계가 있는 것으로 나타났습니다(Gurung & Vespia, 2007). 강사에 대한 호감도와 수업의 즐거움 사이의 상관관계는 r = .80이었습니다. 출석과의 상관관계도 양의 상관관계(r = .30)를 보였는데, 이는 학생이 강사를 좋아하면 수업에 더 자주 출석한다는 것을 의미합니다. 
One way that physical attractiveness might increase the perceived effectiveness of an instructor is through its association with likeability. Although likeability is a broader concept, physical attractiveness is a major determinant of likeability. A study that asked 861 students from a U.S. university to rate the physical attractiveness of two instructors of classes they were currently taking reported a correlation of r=.47 with liking (Gurung & Vespia, 2007). The correlation between liking their instructor and enjoyment of the class was r=.80. The correlation with attendance was also positive (r=.30), suggesting that students will attend a class more regularly if they like an instructor.

Feistauer와 Richter(2018)는 독일 대학에서 심리학 강의 또는 세미나를 가르친 26명의 강사를 평가한 260명의 학생 표본을 바탕으로 비슷한 결과를 보고했습니다. Feistauer와 Richter는 학생들이 수강한 심리학 세미나 또는 강의의 강사에 대한 평가와 호감도의 연관성을 연구했습니다. 호감도는 첫 번째 세션의 첫 10분 동안과 학기가 끝나기 전에 단일 항목 측정으로 두 번 평가했습니다. 강사의 전반적인 성과는 학기 말에 단일 항목 척도로 평가했습니다. 두 가지 호감도 평가는 중간 정도의 상관관계(.55-.58)를 보였습니다. 학기 초에 측정된 '좋아요'는 강의에 대한 강사 전체 평점의 총 분산 중 9.4%를 차지했으며, 세미나에 대한 평점의 총 분산 중 20.5%를 차지했습니다. 학기 말(즉, 평가 시점)의 호감도는 강의의 경우 36.5%, 세미나의 경우 54.7%의 분산을 차지했습니다. 
Similar findings were reported by Feistauer and Richter (2018) based on a sample of 260 students rating 26 instructors who taught psychology lectures or seminars at a German university. Feistauer and Richter studied the association of likeability with the evaluation of instructors, whose seminars or lectures on psychology the students had attended. Likeability was rated twice with a single-item measure administered during the first 10min of the first session and before the end of the semester. The overall performance of instructors was assessed with a single-item scale toward the end of the semester. The two liking ratings were moderately correlated (.55–.58). Liking measured at the beginning of the semester accounted for 9.4% of the total variance in overall ratings of the instructor for lectures and 20.5% of the variance for seminars. Liking at the end of the semester (i.e., at the time of the evaluation) accounted for 36.5% of the variance for lectures and 54.7% for seminars.

Delucchi(2000)의 연구는 호감도에 영향을 미치는 강사의 특성에 대해 몇 가지 시사점을 제공합니다. Delucchi는 SET 평가에 대한 요인 분석을 기반으로 다음과 같은 평가로 구성된 호감도 지수를 확인했습니다. 호감 가는 강사는 학생들과 좋은 관계를 맺고, 대화하기 쉬우며, 주제에 대해 열정적으로 보이고, 학생들 사이에 공동체 의식을 형성하는 것으로 나타났습니다. 이러한 결과는 단일 항목 측정의 타당성을 입증하기 위해 시간 1에서 Reysen(2005) 호감도 척도를 시행한 Feistauer와 Richter(2018)가 보고한 결과와 일치합니다. 레이센 척도는 학생이 강사를 친근하고, 호감이 가고, 마음이 따뜻하고, 접근하기 쉽고, 지식이 풍부하고, 신체적으로 매력적이며, 자신과 비슷하다고 인식하는지를 평가했습니다. 레이센 척도는 강의에서 r = .98, 세미나에서 r = .89의 상관관계를 보였으며, 같은 시기에 주어진 단일 항목 측정과 학기 말에 주어진 단일 항목 측정의 상관관계는 r = .46, r = .45였습니다. 첫 수업 모임의 첫 10분 동안 평가된 호감도는 주로 외모에 기반할 가능성이 높기 때문에, 이러한 (초기) 높은 상관관계는 레이센 척도가 사람들이 신체적으로 매력적인 타인에 대해 가지고 있는 고정관념을 완벽하게 포착하고 있음을 시사합니다. 초기 호감도 평가가 학기 말 호감도와 중간 정도의 상관관계만 있고, 학기 말 강사에 대한 전체 평가에서 초기 호감도가 후기 호감도보다 훨씬 적은 변수를 차지한다는 결과는 개인이 개별적인 정보를 받을 때 그 효과가 약해진다는 매력 고정관념에 대한 고전적인 메타 분석의 결론과 일치합니다(Eagly et al., 1991). 한 학기가 진행되는 동안 학생들은 강사가 첫인상을 바탕으로 기대했던 것만큼 따뜻하고 친근하며 지식이 풍부하지 않다는 사실을 발견했을 수 있습니다. 
A study by Delucchi (2000) provides some indications about the characteristics of instructors that influence likability. Based on a factor analysis of SET ratings, Delucchi identified a likeability index that consisted of some of the following evaluations. A likeable instructor had good rapport with students, was easy to talk to, seemed enthusiastic about the subject matter, and created a feeling of community among students. These findings are consistent with findings reported by Feistauer and Richter (2018), who had also administered the Reysen (2005) Likability Scale at Time 1 to establish the validity of their single-item measure. The Reysen scale assessed whether the instructor is perceived by students as friendly, likeable, warmhearted, approachable, knowledgeable, physically attractive, and similar to them. The Reysen scale correlated r=.98 in lectures and r=.89 in seminars with the single-item measure given at the same time and r=.46 and r=.45 with the single-item measure given at the end of the semester. Because likability assessed during the first 10 min of the first class meeting is likely to be mainly based on physical appearance, these (initially) high correlations suggest that the Reysen scale perfectly captures the stereotype people hold of physically attractive others. The finding that initial ratings of liking were only moderately correlated with liking at the end of the semester and that initial liking accounted for much less variance than later liking in the end-of-semester overall rating of instructors is consistent with the conclusions of the classic meta-analysis of the attractiveness stereotype that the effect is weakened when individuals receive individuating information (Eagly et al., 1991). In the course of the semesters, students might have discovered that their instructors were not quite as warmhearted, approachable, and knowledgeable as they had expected them to be based on their first impression.

호감도는 접근성, 친근함, 지식과 같이 좋은 강의의 일부인 특성의 결과인 것으로 보입니다. 신체적 매력이 이러한 특성과 상관관계가 있다는 발견은 후광 효과의 가능성을 시사합니다: 학생들은 신체적으로 매력적인 강사가 이러한 특성도 가지고 있다고 가정합니다. 이러한 해석은 신체적 매력이 수업 출석과 관련이 있는 이유 또는 RMP 연구에서 '섹시함'이 항상 인지된 도움과 높은 상관관계가 있는 이유를 설명할 수 있습니다. 마지막으로 Feistauer와 Richter(2018)의 연구에서 학생들이 10분간 친분을 쌓은 후 강사가 따뜻하고 친근하며 지식이 풍부하고 자신과 비슷하다고 판단한 이유를 설명할 수 있습니다.
Likeability appears to be the result of characteristics that are certainly part of good teaching, such as approachability, friendliness, and knowledgeableness. The finding that physical attractiveness is correlated with these characteristics suggests the possibility of a halo effect: Students assume that a physically attractive instructor also possesses these traits. This interpretation would explain why physical attractiveness is related to class attendance, or why “hotness” in RMP studies is always highly correlated with perceived helpfulness. It would finally explain why, in the study of Feistauer and Richter (2018), students decided after being acquainted for 10min that their instructor was warmhearted, approachable, knowledgeable, and similar to them.

사전 과목 관심도
Prior subject interest

학생들은 관심이 적은 과목보다 관심이 있는 과목의 강의를 더 긍정적으로 평가할 것이라고 예상할 수 있습니다. 놀랍게도 증거는 엇갈립니다. Olivares(2001)는 첫 수업 모임이 시작될 때 측정한 사전 관심도는 코스에 대한 전반적인 평가와 관련이 없다는 사실을 발견했습니다. 이와는 대조적으로 Griffin(2004)은 초기 관심도와 교사 평가 간에 중간 정도의 상관관계(r = .37)가 있으며 코스 평가와는 훨씬 더 높은 상관관계(r = .50)가 있다고 보고했습니다. Feistauer와 Richter(2018)도 약하지만 통계적으로 신뢰할 수 있는 연관성을 보고했습니다. 
One would expect that students rate courses on topics in which they are interested more positively than courses of little interest. Surprisingly the evidence is mixed. Olivares (2001) found prior interest—measured at the beginning of the first class meeting—unrelated to global rating the course. In contrast, Griffin (2004) reported a moderate correlation between initial interest and teacher ratings (r=.37) and an even higher correlation with ratings of a course (r=.50). Feistauer and Richter (2018) also reported a weak but statistically reliable association.

학생은 종종 코스 콘텐츠와 자료가 자신에게 얼마나 흥미로울지에 대해 잘못된 기대를 갖게 됩니다. 특히 심리학 과목에서 이러한 현상이 두드러지게 나타나는데, 심리학을 처음 배우는 학생들은 학습 내용에 대해 비현실적인 기대를 하는 경우가 많습니다. 많은 사람들이 사람들을 아는 방법과 그들을 돕는 방법을 배울 것이라고 기대하지만, 이론과 통계 학습에 노출되는 것을 발견합니다. 따라서 강사 평가와 관련된 초기 관심도를 찾지 못한 Olivares(2001)가 학기 말에 평가한 관심도 변화가 강사에 대한 학생 평가와 중간 정도의 상관관계가 있다는 것을 발견한 것은 흥미롭습니다(r = .42). 초기 관심도와 관심도 변화 간의 상관관계가 r = .21에 불과한 것으로 보아 이 수업에서는 상당한 변화가 있었을 것입니다. 강의 내용에 대한 관심이 강의의 즐거움에 영향을 미치고, 따라서 강사에 대한 평가에도 영향을 미친다는 것은 그럴듯해 보입니다. 코스에 전혀 관심이 없는 학생은 강사에 대해 매우 긍정적인 평가를 내릴 가능성이 낮습니다. 가르치는 과목에 대한 학생의 흥미를 불러일으키는 것은 분명 교수 능력의 특징입니다. 불행히도 통계학보다는 사회 심리학을 가르치는 것이 더 쉽습니다. 
Students will often have false expectations about the content of a course and how interesting the material will be to them. This is particularly likely in psychology courses, in which beginning students often have unrealistic expectations of what they will learn. Although many expect that they will learn how to know people and how to help them, they find themselves exposed to learning theories and statistics. It is therefore interesting that Olivares (2001), who failed to find initial interest related to instructor ratings, found that interest change assessed at the end of the semester moderately correlated with student ratings of their instructors (r=.42). There must have been quite a bit of change happening in these classes, as the correlation between initial interest and interest change was only r=.21. It seems plausible that interest in the content of a course influences enjoyment of the course and therefore also ratings of the instructor. Students who are totally uninterested in a course are unlikely to give an instructor very positive ratings. Arousing students’ interest in the subject that one is teaching is certainly a characteristic of teaching ability. Unfortunately, it is easier if one teaches social psychology rather than statistics.

소수자 지위
Minority status

소수 집단에 속하는 교사가 일반적으로 다수 집단에 속하는 교사보다 능력이 떨어진다는 것은 믿을 수 없으므로, 소수 집단에 속하는 교사의 지위는 SET에 영향을 미치지 않아야 합니다. 그럼에도 불구하고 대부분의 연구에 따르면 비백인 강사는 백인 동료 강사보다 낮은 SET 등급을 받습니다(예: McPherson & Jewell, 2007; Reid, 2010; Smith, 2007). 22명의 강사가 가르친 280개의 대학원 수업으로 구성된 24개 학기 연속 데이터를 기반으로 한 연구에서 백인 강사는 비백인 동료보다 더 높은 SET 점수를 받았습니다(McPherson & Jewell, 2007). 미국 남부에 위치한 한 교육대학의 소수 교수진 표본을 대상으로 한 Smith(2007)의 연구에서도 비슷한 결과가 보고되었습니다. 역시 흑인 교수진은 백인 교수진보다 교수 효과성에 대해 낮은 평가를 받았으며, 다른 소수계 교수진(라틴계, 아시아계, 아메리카 원주민)의 평가는 그 사이에 머물렀습니다. Hamermesh와 Parker(2005)도 소수 교수진과 영어가 모국어가 아닌 교수진이 다수 교수진과 영어가 모국어인 교수진보다 훨씬 낮은 강의 평가를 받았다고 보고했습니다. 
Because it is implausible that teachers belonging to a minority are generally less able instructors than majority teachers, minority status should have no impact on SETs. And yet, most studies show that non-White instructors receive SET ratings that are lower than that of their White colleagues (e.g., McPherson & Jewell, 2007; Reid, 2010; Smith, 2007). In a study based on data from 24 consecutive semesters, comprising 280 graduate classes taught by 22 instructors, White instructors received higher SET scores than their non-White colleagues (McPherson & Jewell, 2007). Similar results were reported by Smith (2007) based on a much larger sample of minority faculty members from a college of education situated in the southern United States. Again, Black faculty members received lower evaluations of teaching effectiveness than their White colleagues, with ratings of other minority faculty (Latinos, Asians, Native Americans) falling in between. Hamermesh and Parker (2005) also reported that minority faculty members and non-native English speakers received substantially lower teaching ratings than majority faculty members and native English speakers.

5,630개 인문대학 교수진에 대한 평가를 기반으로 한 RMP 연구에서도 비슷한 패턴이 나타났습니다(Reid, 2010). RMP에는 교수진의 인종이 기재되어 있지 않기 때문에 Reid는 다인종 학생 그룹에게 교수진의 사진을 보고 인종을 결정하도록 했습니다. 소수 인종 교수진은 백인 교수진에 비해 강의의 질, 유용성, 명확성에서 덜 호의적인 평가를 받았습니다. 그러나 Easiness에서는 더 긍정적인 평가를 받았습니다. 이러한 차이는 주로 흑인 교수진의 품질 평가가 낮았기 때문이었습니다. 소수자 신분인 교사가 낮은 평점을 받은 가장 큰 요인은 편견입니다. 편견을 가진 사람들은 소수자 교직원을 덜 똑똑하고 전문성이 떨어진다고 인식하는 경향이 있습니다. 
A similar pattern emerged from an RMP study based on ratings of 5,630 faculties of liberal arts colleges (Reid, 2010). Because RMP does not list race of instructors, Reid had a multiracial group of students decide on race based on photographs of these faculty members. Racial minority faculty members were rated less favorably than White faculty members on quality, helpfulness, and clarity. However, they received more positive ratings on easiness. These differences were mainly due to lower quality ratings received by Black faculty members. The most likely determinant of the lower ratings received by minority status teachers is prejudice. Prejudiced individuals would tend to perceive minority faculty members as less intelligent and possessing less expertise.

성별
Gender

성별 차이에 대한 증거는 일관성이 떨어집니다. 그러나 성별 차이가 발견되는 경우 대부분 여성 강사가 강의 품질에 대해 더 낮은 평가를 받았습니다. Rosen(2018)의 RMP 연구에 따르면 여성은 강의의 질에서 약간 낮은 점수를 받았습니다. 이러한 성별 차이는 Boehmer와 Wood(2017)의 RMP 연구와 Arceo-Gomez와 Campos-Vazquez(2019)의 멕시코 인터넷 사이트(MisProfesores.com)를 기반으로 한 연구에서도 보고되었지만 Reid(2010)와 Stuber 외(2009)의 RMP 연구에서는 나타나지 않았습니다. 
Evidence for gender differences is less consistent. However, if gender differences are found, it is mostly female instructors, who receive lower ratings on teaching quality. The RMP study of Rosen (2018) found that women received slightly lower scores on quality. Such gender differences were also reported in an RMP study of Boehmer and Wood (2017) and by Arceo-Gomez and Campos-Vazquez (2019) in a study based on a Mexican internet site (MisProfesores.com) but not in RMP studies of Reid (2010) and Stuber et al. (2009).

기관 SET를 기반으로 한 세 개의 대규모 다집단 연구에서도 남성에 유리한 성별 차이가 보고되었습니다(Boring, 2017; Hamermesh & Parker, 2005; Mengel et al., 2019). 앞서 설명한 Boring 등(2016)의 데이터 세트를 사용하여 Boring(2017)은 남학생과 여학생 모두 전반적인 만족도에서 남교수에게 약간 더 높은 점수를 주었으며, 여학생의 경우 그 차이가 다소 덜 두드러진다는 것을 발견했습니다. 그러나 이러한 차이는 미미했습니다. 이와는 대조적으로 Hamermesh와 Parker(2005)는 여성 강사가 남성 동료보다 거의 절반 표준편차 낮은 평가를 받았다고 보고했습니다. 마지막으로 네덜란드 마스트리흐트 대학교 경영경제학부에서 실시한 약 20,000명의 학생 평가를 기반으로 한 연구에서 Mengel 등(2019)은 성적이나 학생의 학습 시간이 강사의 성별에 영향을 받지 않았음에도 불구하고 여성이 남성 동료보다 체계적으로 낮은 평가를 받는다는 사실을 발견했습니다. 이러한 성별 차이는 특히 수학적 내용이 포함된 강의에서 두드러졌습니다. 
Three large multisection studies based on institutional SETs also reported gender differences favoring men (Boring, 2017; Hamermesh & Parker, 2005; Mengel et al., 2019). Using the dataset of Boring et al. (2016) described earlier, Boring (2017) found that both male and female students gave male professors slightly higher ratings on overall satisfaction, with the difference somewhat less marked for female students. However, these differences were minimal. In contrast, Hamermesh and Parker (2005) reported that female instructors received ratings that were nearly half a standard deviation lower than those of their male colleagues. Finally, in a study based on nearly 20,000 student evaluations conducted at the School of Business and Economics of Maastricht University (Netherlands), Mengel et al. (2019) found that women received systematically lower ratings than their male colleagues, even though neither grades nor students’ study hours were affected by the gender of their instructor. These gender differences were particularly marked for courses with mathematical content.

이 마지막 결과는 학문 분야(예: 과학 대 인문학)에 따라 성별 차이가 조정될 수 있다는 가능성을 제기합니다. 그러나 증거는 일관성이 없습니다. 피셔 외(2019)의 RMP 연구에 따르면 영어, 역사, 철학보다 공학, 경영/경제학, 컴퓨터 과학과 같은 분야에서 성차별이 더 많이 발견되었으며, 이러한 부서의 여성 직원 비율을 통제한 경우에도 마찬가지였습니다. 그러나 Stuber 등(2009)은 이러한 차이를 발견하지 못했습니다. 이 연구자들은 하드 과학, 공학, 수학, 경영을 전통적으로 남성의 영역으로, 예술과 인문학은 전통적으로 여성의 영역으로 정의했습니다. 이들은 전통적으로 남성 분야 교수자가 인문이나 예술을 가르치는 교수자보다 더 부정적인 평가를 받는다는 일반적인 결과를 반복했지만, 성별에 따른 상호작용은 발견되지 않았습니다: 여성이 남성보다 더 많은 불이익을 받지 않았습니다. 
This last finding raises the possibility that gender differences could be moderated by discipline (e.g., science vs. humanities). However, the evidence is inconsistent. An RMP study by Fisher et al. (2019) found more gender discrimination in fields such as engineering, business/economics, and computer science than in English, history, and philosophy—even when they controlled for percentage of female staff in these departments. However, Stuber et al. (2009) did not find such differences. These authors defined the hard sciences, engineering, mathematics, and business as traditionally male areas and arts and humanities as traditionally female. Although they replicated the typical finding that instructors teaching in those traditionally male fields were rated more negatively than those teaching humanities or arts, there was no interaction with gender: Women were not more penalized than men.

여성 강사가 일반적으로 더 낮은 평가를 받는 것은 교수 능력이 낮기 때문일까요? 많은 인용을 받은 MacNell 등(2015)의 연구는 이러한 해석을 배제하는 것으로 보입니다. 이 연구자들은 강사의 인지된 성별을 조작하는 실험을 실시했습니다. 온라인 수업에 두 명의 보조 강사(남성 1명, 여성 1명)가 각각 다른 두 가지 성 정체성으로 활동했습니다. 실제 성별에 관계없이 남성 정체성을 가진 강사가 전문성, 신속성, 공정성, 존중, 칭찬, 열정에서 더 높은 평가를 받았습니다. 그러나 Uttl과 Violo(2020)는 여러 가지 측면에서 이러한 결과에 의문을 제기했습니다: 그들은 두 사람만을 대상으로 한 조사 결과를 모든 남성 또는 여성 강사에게 일반화하기 어렵다고 주장했습니다. 또한 각 조건의 학생 표본이 8명에서 12명으로 다소 적었습니다. 그러나 가장 중요한 것은 세 가지 이상값이 있었는데, 두 명의 여성 조건에서 모든 세트 항목에서 가장 낮은 평점을 받았다는 점입니다. 이러한 이상값을 제거하면 성별 차이가 사라졌습니다. 대신 학생들은 인지된 성별에 관계없이 실제 여성 강사를 남성 강사보다 더 높게 평가했습니다.  
Could the lower ratings typically received by female instructors reflect lower teaching ability? A highly-cited study by MacNell et al. (2015) appeared to rule out this interpretation. These authors conducted an experiment in which they manipulated the perceived gender of instructors. Two assistant instructors (one male and one female) in an online class each operated under two different gender identities. Regardless of actual gender, male-identity teachers received higher evaluation on professionalism, promptness, fairness, respectfulness, giving praise, and enthusiasm. However, Uttl and Violo (2020) questioned these findings on several accounts: They argued that one could hardly generalize to all male or female instructors based on findings with only two individuals. Furthermore, the sample of students in each condition was rather small, ranging from eight to 12 individuals. But most critically, there were three outliers; they gave the lowest ratings on all SET items in the two female conditions. If one removed these outliers, the gender difference disappeared. Instead, students rated the actual female instructor higher than the male instructor, regardless of perceived gender.

성별에 따른 또 다른 연구는 Mitchell과 Martin(2018)에 의해 수행되었습니다. 서로 다른 대학의 교수진인 크리스티나 미첼 박사와 조나단 마틴 박사가 각자의 대학에서 동일한 내용의 온라인 강의를 진행했습니다.2 이 강의는 여성 강사가 아닌 남성 강사가 맡았을 때 더 긍정적인 평가를 받았습니다. 각기 다른 학생 집단에게 강의가 제공되었기 때문에 강사의 성별이 강의에 대한 학생 집단의 평가와 혼동을 일으켰습니다. 또한 미첼 박사와 마틴 박사는 학생들에게 잘 알려져 있었을 가능성이 높았기 때문에 단순한 성별 정보보다는 강사에 대한 기존의 태도가 이러한 평가에 영향을 미쳤을 가능성이 있습니다. 이 가설을 배제할 수 없다고 해서 이 가설이 타당하다는 의미는 아니라는 점을 서둘러 덧붙이고 싶습니다.  

Another study that varied gender was conducted by Mitchell and Martin (2018). Dr. Kristina Mitchell or Dr. Jonathan Martin, who are faculty members at different colleges, gave an online course of identical content at their respective colleges.2 The course was rated more positively when attributed to a male instructor rather than a female instructor. Because the courses were given to different student populations, gender of instructor was confounded with the student population rating the courses. Furthermore, because Drs. Mitchell and Martin were likely to be known to their students, it seems possible that preexisting attitudes toward these instructors rather than mere gender information could have influenced these ratings. I hasten to add that the fact that we cannot rule out this hypothesis does not mean that it is plausible.

훈련
Discipline

신체적 매력, 인종, 성별에 대해서는 선택의 여지가 없는 반면, 전공 분야는 일반적으로 선택할 수 있습니다. 가르치는 것에 대해 긍정적인 평가를 받고 싶다면 수학, 공학 또는 컴퓨터 과학보다는 인문학이나 언어를 선택해야 한다는 충분한 증거가 있습니다. Centra(2009)는 238,471개 학급의 교육 시험 서비스 데이터를 사용하여 인문학(영어, 역사, 언어) 학급에 비해 자연과학(수학, 공학, 컴퓨터 과학) 학급이 0.30 표준편차 더 낮은 평가를 받았다는 사실을 발견했습니다. 이와 일관되게 Felton 등(2008)은 RMP 연구에서 가장 높은 평가를 받은 학과는 언어학, 사회학, 정치학이었고 공학, 컴퓨터 과학, 화학이 가장 낮은 평가를 받은 학과였다고 보고했습니다. 뉴욕대학교의 영어 및 수학 수업의 SET를 비교한 Uttl과 Smibert(2017)의 연구에서도 비슷한 차이가 발견되었습니다. 영어 수업의 평균 SET는 4.29, 수학 수업의 평균은 3.68이었습니다. SET가 인사 결정에 사용된다는 사실과 일관되게, Uttl과 Smibert(2017)는 정량적 과목을 가르치는 교수가 영어과 동료 교수보다 종신 재직, 승진 또는 성과급을 받을 가능성이 낮다는 사실을 발견했습니다. 
Whereas people have no choice regarding their physical attractiveness, race, or gender, they typically can choose their discipline. There is ample evidence that if they want to receive positive ratings for their teaching, they should choose humanities or languages rather than mathematics, engineering, or computer science. Using Educational Testing Service data from 238,471 classes, Centra (2009) found that compared with classes in humanities (English, history, languages), natural science classes (mathematics, engineering, and computer science) were rated 0.30 standard deviations lower. Consistent with this, Felton et al. (2008) reported from their RMP study that the departments with the highest quality ratings were languages, sociology, and political science, with engineering, computer science, and chemistry as the lowest ranking departments. A similar difference was found by Uttl and Smibert (2017) in a comparison of SETs of English and Math classes at New York University. The average SET of English classes was 4.29; the math average was 3.68. Consistent with the fact that SETs are used for personnel decisions, Uttl and Smibert (2017) found that professors teaching quantitative courses were also less likely than their colleagues in English departments to be tenured, promoted, or given merit pay.

결론
Conclusion

강의에 대한 학생 평가는 강의 효과를 측정하지 않습니다. 또한 강사의 소수자 여부, 외국 억양 및 성별, 가르치는 분야 등 강의의 질과 무관한 여러 요인에 의해 영향을 받습니다. 따라서 대학 관리자가 채용, 급여 인상 및 승진에 관한 결정에 이러한 요소를 사용하는 것은 불공정하고 잠재적으로 불법일 수 있습니다. 실제로 최근 캐나다 라이어슨 대학교와 교수 협회 간의 갈등에 관한 중재 결정(Ryerson University v Ryerson 교수 협회, 2018, CanLII 58446)에서 한 중재인은 "교육 효과성 평가에 관한 한, 특히 임기 및 승진에 관한 한-SET는 기껏해야 불완전하고 최악의 경우 완전히 편향되어 신뢰할 수 없다"고 주장했습니다. 그는 대학이 더 이상 승진 및 임기 결정에서 교수 효과성의 척도로 SET를 사용해서는 안 된다고 선언했습니다. 
Student evaluations of teaching do not measure teaching effectiveness. Furthermore, they are influenced by several factors unrelated to teaching quality such as minority status, foreign accent and gender of instructors, and the discipline they are teaching. This makes their use by university administrators in decisions about hiring, salary increases, and promotions unfair and potentially illegal. In fact, in a recent arbitration decision regarding a conflict between the Canadian Ryerson University and its faculty association (Ryerson University v Ryerson Faculty Association, 2018, CanLII 58446), an arbitrator argued that “insofar as assessing teaching effectiveness is concerned – especially in the context of tenure and promotion—SETs are imperfect at best and downright biased and unreliable at worst.” He decreed that the university should no longer use SETs as a measure of teaching effectiveness in promotion and tenure decisions.

교수에 대한 학생 평가의 편향 효과: 프로세스 모델
The biasing effects of student evaluations of teaching: a process model

이 섹션에서는 채용, 급여 인상, 승진 결정에 SET를 오용하는 것이 부실 교육과 성적 인플레이션의 원인이 될 수 있다고 주장합니다. 대학 관리자는 좋은 SET를 매우 중요하게 생각하기 때문에 교수자에게는 좋은 SET를 얻는 것이 매우 중요합니다. 이는 학생에게 자신이 받는 강의 유형에 영향을 미칠 수 있는 효과적인 도구를 제공합니다. SET가 교육 효과의 유효한 지표이고 학생들이 학습에 대한 필요성에 의해서만 동기를 부여받는다면 이는 문제가 되지 않을 것입니다. 그러나 SET는 교수 효과와 관련이 없고, 앞서 살펴본 바와 같이 상당수의 학생이 열심히 공부하고 많은 것을 배우려는 동기가 없는 것으로 보이며(예: Chiu 외, 2019; Felton 외, 2008; Rosen, 2018), 쉬운 코스와 관대한 채점을 선호하기 때문에 이러한 피드백을 수용하면 교육의 질이 떨어질 가능성이 높습니다. 이 과정을 설명하기 위해 대다수 학생의 동기에 대한 경험적으로 뒷받침되는 가정을 기반으로 한 모델을 제시합니다. 모델을 제시한 후에는 모델에서 가정하는 각 과정을 뒷받침하는 증거를 검토합니다. 
In this section, I argue that this misuse of SETs in decision about hiring, salary increases, and promotions could be the cause of bad teaching and grade inflation. University administrators place great emphasis on good SETs, which makes getting good SETs highly important for instructors. This provides students with an effective tool to influence the type of teaching they receive. This would be no problem if SETs were a valid indicator of teaching effectiveness and if students were motivated only by a need to learn. However, because SETs are unrelated to teaching effectiveness and because—as I show—a sizeable proportion of students does not seem motivated to work hard and to learn a great deal (e.g., Chiu et al., 2019; Felton et al., 2008; Rosen, 2018) and prefers easy courses and lenient grading, their feedback—if accepted—is likely to reduce the quality of teaching. To describe this process, a model is presented that is based on empirically supported assumptions about the motivation of a majority of students. After presenting the model, I review evidence that supports each of the processes assumed by the model.

이 분석은 모든 학생이 좋은 코스 성적을 받는 것을 좋아한다는 가정에서 시작합니다. 또한 이러한 학생들 중 다수는 읽기, 쓰기 및 기타 수업 준비에 너무 많은 시간을 소비하지 않기를 원합니다(그림 2, Chiu 외., 2019, Felton 외., 2008, Rosen, 2018). 일반적으로 상충되는 이러한 목표를 달성하는 한 가지 방법채점을 관대하게 하고 과제를 너무 많이 요구하지 않는 것으로 알려진 교사와 함께 수업을 듣는 것입니다(Johnson, 2003; Sabot & Wakeman-Linn, 1991). 그 결과, 많은 학생들이 노력이 필요하고 좋은 성적이 확실하지 않은 도전적인 과목보다 좋은 성적이 보장되는 쉬운 수업을 선호합니다(예: Bar et al., 2009; Johnson, 2003; Sabot & Wakeman-Linn, 1991). 따라서 학생은 관대하게 채점하고(예: Anderson et al., 1975; Greenwald & Gillmore, 1997a; Griffin, 2004; Olivares, 2001) 너무 많은 노력을 요구하지 않는 교사에게 좋은 SET의 보상을 제공합니다(예: Felton et al., 2008; Rosen, 2018). 

This analysis starts with the assumption that all students like getting good course grades. Many of these students would also prefer not to spend too much time on reading, writing, and other class preparation (Figure 2; Chiu et al., 2019; Felton et al., 2008; Rosen, 2018). One way to achieve these normally conflicting goals is to take classes with teachers who are known to grade leniently and not require too much coursework (Johnson, 2003; Sabot & Wakeman-Linn, 1991). As a result, many students prefer easy classes that promise good grades to challenging courses, where hard work is required and good grades are not a certainty (e.g., Bar et al., 2009; Johnson, 2003; Sabot & Wakeman-Linn, 1991). The students therefore give the reward of good SETs to teachers who grade leniently (e.g., Anderson et al., 1975; Greenwald & Gillmore, 1997a; Griffin, 2004; Olivares, 2001) and do not require too much work (e.g., Felton et al., 2008; Rosen, 2018).

교사는 자신의 코스에서 좋은 점수를 받기를 원할 뿐만 아니라 좋은 점수가 승진 및 성과급 상승에 중요하다는 것을 알고 있기 때문에 쉬운 코스를 제공하고 관대하게 채점하려는 인센티브가 생깁니다(Birnbaum, 2000; Keng, 2018; Moore & Trahan, 1998; Ryan et al., 1980; Simpson & Siguaw, 2000). 인센티브가 강할수록 부서에서 사용하는 비교 수준이 더 엄격해집니다(예: 강사는 부서 평균 이상의 점수를 받아야 하는가, 아니면 70번째 백분위수 이상의 점수를 받아야 하는가?). 비교 그룹은 학과입니까, 교수진입니까, 아니면 대학 전체입니까?). 이 과정의 가장 근거리적인 결과는 SET가 종종 부실한 강의와 관대한 채점에 대해 보상한다는 것입니다. 이러한 하위권 경쟁의 보다 원초적인 효과는 성적 인플레이션입니다. 
Teachers not only like their courses to receive good SETs but also know that good SETs are important for promotion and merit increases, which creates an incentive to offer easy courses and to grade leniently (Birnbaum, 2000; Keng, 2018; Moore & Trahan, 1998; Ryan et al., 1980; Simpson & Siguaw, 2000). The stronger the incentive, the stricter the comparison levels used in a department (e.g., Are instructors required to score above the mean of the department, or even above the 70th percentile? Is the comparison group the department, the faculty, or the whole university?). The most proximal result of this process is that SETs often reward poor teaching and lenient grading. The more distal effect of this race to the bottom is grade inflation.

이 모델은 미국 대학교육의 가장 큰 역설, 즉 GPA는 수십 년 동안 증가했지만(Rojstaczer, 2015) 대학생들이 더 열심히 일하거나 대학에 더 적합한 자격을 갖추지 못했다는 사실에 대한 설명을 제공합니다.3 반대로 SAT 점수는 하락 추세를 보이고 있으며(예: Adams, 2015; Washington Post, 2015) 오늘날 학생들은 수십 년 전보다 학업에 더 적은 시간을 소비하고 있습니다(예: Arum & Roksa, 2011; Babcock & Marks, 2011). 심지어 대학 교육이 수십 년 전보다 오늘날 비판적 사고, 복잡한 추론, 작문 능력의 향상을 저해한다는 증거도 있습니다(Arum & Roksa, 2011; Pascarella 외., 2011). 여기에 제시된 간단한 프로세스 모델에 따르면, SET의 광범위한 사용은 이러한 효과의 주요 원인입니다. 
This model offers an explanation for the great paradox of American university education—namely, that GPAs have increased for decades (Rojstaczer, 2015), yet university students have not become more hardworking or better qualified for college.3 On the contrary, SAT scores show a downward trend (e.g., Adams, 2015; Washington Post, 2015), and students spend less time on academic pursuits today than they did a few decades ago (e.g., Arum & Roksa, 2011; Babcock & Marks, 2011). There is even evidence to suggest that a college education results in a lower gain in critical thinking, complex reasoning, and writing skills today than it did several decades ago (Arum & Roksa, 2011; Pascarella et al., 2011). According to the simple process model suggested here, the widespread use of SETs is a major cause of these effects.

편향의 원인: 증거
Causes of bias: the evidence

이 섹션에서는 좋은 성적과 쉬운 코스에 대한 학생의 선호가 어떻게 SET를 편향시키고 코스 선택에 영향을 미치는지에 대해 설명합니다. Stroebe(2016)의 연구를 바탕으로 다음의 네 가지 명제에 대한 증거가 제시됩니다. 

  • (a) 학생은 좋은 성적에 긍정적인 SET를 보상한다,
  • (b) 학생은 쉬운 코스에 긍정적인 SET를 보상한다,
  • (c) 학생은 좋은 성적을 약속하는 코스를 선택한다,
  • (d) 교수자는 좋은 SET를 원한다(필요로 한다)

This section discusses how students’ preference for good grades and easy courses biases SETs and influences course choices. Building on Stroebe (2016), evidence for four propositions is presented:

  • (a) Students reward good grades with positive SETs,
  • (b) students reward easy courses with positive SETs,
  • (c) students choose courses that promise good grades, and
  • (d) instructors want (need) good SETs.

학생은 좋은 성적에 대해 긍정적인 SET로 보상합니다.
Students reward good grades with positive SETs

Anderson 등(1975)은 간단한 연구를 통해 이러한 편향을 입증했습니다. 그들은 한 수업에서 두 번, 즉 수업의 첫 번째 세션이 끝날 때와 마지막 세션이 끝날 때, 그리고 기말 시험 전에 기대 성적과 SET를 모두 평가했습니다. 그런 다음 참가자들을 성적 기대치가 더 나빠진 그룹, 좋아진 그룹, 동일하게 유지된 그룹으로 나누었습니다. 편향 해석을 뒷받침하는 결과, 강사와 코스에 대한 전반적인 평가는 성적 기대치가 높아질수록 향상되었고, 성적 기대치가 낮아질수록 크게 감소했습니다. 학부 경영학 과정 학생 499명을 대상으로 한 Clayson 등(2006)의 연구에서도 동일한 패턴이 보고되었습니다. 10주차에 그리고 16주차에 학생들은 강사와 기대 성적을 평가하도록 요청받았습니다. Anderson 등의 연구 결과와 마찬가지로, Clayson 등은 기대 성적의 변화가 강사에 대한 학생의 평가 변화와 연관되어 있음을 발견했습니다. 
Anderson et al. (1975) demonstrated this bias with a simple study. They assessed both grade expectations and SET twice in a class, once at the end of the first session of a class and again in the last session, but before the final exam. They then divided their participants into those whose grade expectations became worse, improved, or remained the same. In support of a bias interpretation, the overall ratings of instructor and course improved with improving grade expectations and decreased substantially with decreasing grade expectations. The same pattern was reported by Clayson et al. (2006) in a study of 499 students of undergraduate business courses. At Week 10 and again at Week 16, students were asked to evaluate their instructors and their expected grades. In line with the findings of Anderson et al., Clayson et al. found changes in expected grades to be associated with corresponding changes in students’ evaluation of their instructor.

웰슬리 대학이 관대한 학점을 부여하는 학과에 성적 상한선을 도입했을 때도 비슷한 패턴이 관찰되었습니다(Butcher 외., 2014). 2000년대 초, 웰슬리의 교수진과 행정부는 성적 인플레이션으로 인해 학교의 신뢰도가 위협받고 있다고 판단했습니다. 일반적으로 학점 인플레이션은 주로 인문사회과학 분야에서 문제가 되었지만 이공계 학과에는 영향을 미치지 않았습니다. 이 대학은 입문 및 중급 과정에서 평균 학점이 B+(3.33)를 넘지 않아야 한다는 규칙을 제정했습니다. 성적 상한제는 평균 학점을 낮추는 데는 효과적이었지만 교수 평가도 낮아지는 예상치 못한 부작용을 낳았습니다. 교수를 강력 추천하는 학생의 비율이 5% 감소하고, 중립 및 추천하지 않음 항목이 증가했습니다. Butcher 등(2014)은 "채점 정책으로 인해 평균 학점이 낮아지자 학생들이 교수에 대한 만족도가 낮아졌다는 결과가 강력하게 나타납니다."(200페이지)라고 결론지었습니다. 2019년에 이 대학은 이 채점 정책을 폐지했습니다 (https://www.wellesley.edu/registrar/grading/grading_policy). 

A similar pattern was observed when Wellesley College introduced a grade ceiling for lenient-grading departments (Butcher et al., 2014). In the early 2000s, the faculty and administration at Wellesley decided that the credibility of the institution was threatened by grade inflation. As is generally the case, grade inflation was mainly a problem in the humanities and social sciences but did not affect science departments. The college instituted the rule that the average grade must not exceed a B+ (3.33) in introductory and intermediate courses. Although the grade ceiling was effective in lowering average grades, it had the unexpected side effect that it also lowered faculty ratings. The percentage of students strongly recommending their professor decreased by 5%, and there was an increase in neutral and do not recommend categories. As Butcher et al. (2014) concluded, “The results strongly indicate that students were less pleased with their instructors, when the grading policy lowered average grades” (p. 200). In 2019, the college rescinded this grading policy (https://www.wellesley.edu/registrar/grading/grading_policy).

경영대학원 필수 수업에 성적 상한선을 도입한 한 대형 주립대학에서 실시한 연구에서도 비슷한 결과가 보고되었습니다(Gorry, 2017). 성적 상한선은 입문 과정에서는 2.8점, 중급 과정에서는 3.2점으로 설정되었습니다. 두 상한선 모두 평균 성적을 낮추는 데 효과적이었습니다. 그러나 상한선을 2.8로 설정하면 코스 평가가 크게 낮아지고 자퇴 횟수도 증가한 반면, 상한선을 높게 설정하면 코스 평가에 미치는 영향은 훨씬 작았습니다. 
Similar findings were reported from a study conducted at a large state university where grade ceilings were introduced in required business school classes (Gorry, 2017). The grade ceiling was set at 2.8 in introductory courses and at 3.2 in intermediate courses. Both ceilings were effective in lowering average grades. But while the 2.8 ceiling significantly lowered course evaluations and also increased the number of withdrawals, the effect of the higher ceiling on course evaluation was much smaller.

SET가 성적 기대치에 의해 편향된다는 가설에 대한 추가 지원은 Greenwald와 Gillmore(1997a)의 연구에서 나옵니다. 이 연구자들은 교수의 질과는 관련이 없는 세 가지 항목을 SET에 추가했습니다. 학생들은 강사의 필체의 가독성, 목소리의 명료성, 강의실 시설의 질을 평가해야 했습니다. 편향 해석에 따라 연구진은 기대 성적과 이러한 항목에 대한 평가의 긍정성 간에 양의 상관관계가 있음을 발견했습니다. 모든 학생이 같은 목소리를 듣고, 같은 글을 읽고, 같은 교실에서 수업을 들었기 때문에 이러한 학급 내 상관관계가 발견되었다는 것은 성적에 대한 기대치가 이러한 평가에 편향성을 가졌음을 시사합니다. 또한 학급 간 분석에서는 이러한 상관관계를 관찰할 수 없었으며, 이는 이러한 자질이 교수 효과와 관련이 없다는 가정을 더욱 뒷받침합니다. 
Further support for the hypothesis that SETs are biased by grade expectations comes from a study by Greenwald and Gillmore (1997a). These researchers added three items to an SET that were fairly unrelated to teaching quality. Students had to rate the legibility of the instructor’s handwriting, the audibility of his or her voice, and the quality of classroom facilities. In line with a bias interpretation, they found a positive correlation between expected grades and the positiveness of ratings on these items. Because all students heard the same voice, read the same writing, and worked in the same classroom, the finding of this within-class correlation suggests that grade expectations biased these evaluations. Furthermore, this correlation could not be observed for between-class analyses, which further supports the assumption that these qualities were unrelated to teaching effectiveness.

편향성 설명에 대한 보다 직접적인 증거는 올리바레스(2001)에 의해 제공되었는데, 그는 채점에 대한 관대함을 SET와 연관시켰습니다. 149명의 학생과 동일한 강사가 가르치는 두 학부 과정의 7개 섹션을 대상으로 한 연구에서 다음과 같은 질문을 통해 인식된 채점 관대함을 직접 측정했습니다: "지금까지 수강한 다른 모든 대학 강사와 비교했을 때, 이 강사의 채점을 어떻게 평가하시겠습니까?" 응답 척도는 매우 엄격함/엄격함부터 매우 쉬움/관대함까지 다양했습니다. 학기 말에 실시한 측정에서 채점 관용도는 교수자의 전체 평점(r = .45)과 여러 항목으로 구성된 SET 척도(r = .45) 모두와 상관관계가 있는 것으로 나타났습니다. 그리핀(2004)은 39개 교육 과정에 등록한 754명의 학부생을 대상으로 한 연구에서 이보다 다소 낮은 상관관계를 보고했습니다. 채점 관대함은 "이 교수자는 관대하거나 쉬운 채점자이다(매우 동의함부터 매우 동의하지 않음까지)"라는 문항으로 평가되었습니다. 모든 SET 평점의 평균과의 상관관계는 r = .23으로 Olivares(2001)의 연구보다 낮았습니다. 그러나 두 연구에서 모두 채점에 대한 관대함이 교수자 평가와 양의 상관관계를 보였으며, 이는 교수자가 관대하게 채점함으로써 강의 평가를 개선할 수 있어야 함을 시사합니다. 
Even more direct evidence for a bias explanation has been provided by Olivares (2001), who related perceived grading leniency to SETs. In a study based on 149 students and seven sections of two undergraduate courses taught by the same instructor, perceived grading leniency was measured directly with the following question: “Compared to all other college instructors you have had, how would you rate this instructor’s grading?” The response scale ranged from much harder/strict grader to much easier/lenient grader. In measures taken at the end of the semester, grading leniency correlated with both the global rating of the instructor (r=.45) and the multiple-items SET scale (r=.45). A somewhat lower correlation was reported by Griffin (2004) in a study based on 754 undergraduate students enrolled in 39 education courses. Grading leniency was assessed with the statement, “This instructor is a lenient/easy grader (strongly agree to strongly disagree).” The correlation with the average of all SET ratings was r=.23 and thus lower than in the study of Olivares (2001). However, in both studies, perceived grading leniency was positively correlated with instructor evaluation, suggesting that instructors should be able to improve their teaching ratings by grading leniently.

교수자가 관대하게 채점하거나 코스 요구 사항을 낮추고 싶지 않은 경우 다른 전략을 사용하여 SET를 개선할 수 있습니다. Youmans와 Jee(2007)의 연구에 따르면, 한 세트의 수업 중 절반은 세트에 응답해야 하는 날 초콜릿 바를 받았습니다. 초콜릿 바를 제공한 사람은 수업 강사와는 무관한 사람으로, 다른 기능에서 초콜릿 바를 가져온 것으로 추정됩니다. 초콜릿을 받은 학급의 평균 SET 점수가 더 높았습니다(4.07점 대 3.85점). 수업의 절반에게 첫 번째 세션에서 쿠키를 제공한 후 해당 세션의 강의 품질을 평가하도록 한 연구에서도 비슷한 평가 차이가 관찰되었습니다(Hessler et al., 2018). 
If instructors do not want to grade leniently or lower their course requirements, they can use other strategies to improve their SETs. In a study by Youmans and Jee (2007), half of a set of classes were treated with chocolate bars on the day they had to respond to the SET. The person giving the chocolate bars was independent of the class instructor and (allegedly) had these bars over from another function. The average SET score was higher for the classes receiving chocolate (4.07 vs. 3.85). A similar difference in ratings was observed in a study where half of the classes were given cookies during a first session and then had to evaluate the teaching quality of that session (Hessler et al., 2018).

학생들은 쉬운 코스에 좋은 SET로 보상
Students reward easy courses with good SETs

이 제안에 대한 지지는 주로 앞서 설명한 RMP 웹사이트의 연구에서 비롯됩니다. 이 웹사이트에서는 관대한 채점이라는 측면에서 '쉬움'이 명확하게 정의되어 있습니다. 학생들은 스스로에게 "이 교수가 가르치는 수업이 얼마나 쉬운가? 많은 노력 없이도 A를 받을 수 있는가?"라고 질문하도록 되어 있습니다. Easiness은 RMP 연구에서 교수 효과 평가의 강력한 예측 인자로 일관되게 밝혀졌습니다(Boehmer & Wood, 2017; Felton et al., 2008; Johnson & Crews, 2013; Rosen, 2018). 앞서 설명한 Felton 등(2008)의 연구에서 품질과 Easiness은 r = .62의 상관관계를 보였습니다. 학생들은 많은 노력 없이도 우수한 성적을 받을 수 있는 코스를 많은 시간과 노력이 필요한 코스보다 더 긍정적으로 평가했습니다. 뛰어난 교사가 아무리 어려운 내용도 쉽게 이해할 수 있도록 가르친다면 난이도가 교육의 질에 따른 결과일 수 있다고 주장할 수도 있지만, 이러한 해석은 난이도를 정의하는 방식과 일치하지 않을 수 있습니다. 또한 RMP에서는 학생이 교수에 대한 코멘트를 작성하여 자신의 평가를 정당화할 수 있으며, "'Easiness' 점수가 높은 교수는 일반적으로 업무량이 적고 학점이 높다는 코멘트를 받았습니다."(Felton 외., 2008, 40쪽). 이러한 결과는 Rosen(2018)에 의해 전반적인 품질과 Easiness 간의 상관관계가 r = .61로 나타나 펠튼 등이 보고한 상관관계와 거의 동일하게 재현되었습니다. Boehmer와 Wood(2017)와 Johnson과 Crews(2013)의 RMP 연구에서도 유사한 상관관계(각각 .66 및 .62)가 보고되었습니다. 앞서 설명한 RMP 연구에서 Timmerman(2008)이 보고한 난이도 평가와 교수자를 추천하는 학생의 비율 간의 상관관계는 r = .35로 다소 낮았습니다. 
Support for this proposition comes mainly from studies of the RMP website described earlier. On that website, easiness is clearly defined in terms of lenient grading. Students are instructed to ask themselves, “How easy are the classes this professor teaches? Is it possible to get an A without much work”? Easiness is consistently found to be a strong predictor of the evaluation of teaching effectiveness in RMP studies (Boehmer & Wood, 2017; Felton et al., 2008; Johnson & Crews, 2013; Rosen, 2018). In the study by Felton et al. (2008), described earlier, quality and easiness correlated at r = .62. Students rated courses that enabled them to get excellent grades without doing much work more positively than courses that required a great deal of time and effort. Although one could argue that easiness might be a consequence of quality, with brilliant teachers making even the most difficult material easy to understand, this interpretation would be inconsistent with the way easiness is defined. Furthermore, RMP allows students to write comments about a professor to justify their ratings and “professors with high ‘Easiness’ scores usually received comments regarding a low workload and high grades” (Felton et al., 2008, p. 40). These findings were replicated by Rosen (2018) with a correlation between overall quality and easiness of r = .61 that is practically identical to the correlation reported by Felton et al. RMP studies by Boehmer and Wood (2017) and Johnson and Crews (2013) reported similar correlations (.66 and .62, respectively). A somewhat lower correlation of r=.35 between easiness ratings and the percentage of students recommending an instructor was reported by Timmerman (2008) in the RMP study described earlier.

3,799개 대학의 교수 85,306명의 데이터를 사용한 또 다른 RMP 연구에서는 상위권 대학에서 Easiness과 품질 간의 상관관계가 다소 약한 것으로 나타났습니다(Chiu et al., 2019). 이 연구자들은 2016년 Forbes의 미국 상위 200개 대학 분류(http://www.forbes.com/top-colleges)를 사용하여 표본의 대학을 상위 또는 비상위 기관으로 분류했습니다. 연구진은 쉬운 코스가 더 높은 수준으로 평가된다는 강력한 주 효과를 재현했지만, 대학 분류와 상호작용하기 쉬운 정도도 발견했습니다: 상위권 대학의 학생들은 비 상위권 대학의 학생들보다 쉬운 코스의 질에 대해 약간 덜 긍정적으로 평가했지만(각각 4.0점 대 4.13점), 어려운 코스는 약간 더 긍정적으로 평가했습니다(각각 3.37점 대 3.27점). 이러한 (소소한) 효과에 대한 가장 그럴듯한 해석은 상위권 대학이 더 열심히 노력하려는 학생들을 끌어들여 더 어려운 과목에 더 잘 대처할 수 있게 한다는 것입니다. 
The association between easiness and quality was found to be somewhat weaker at top universities in another RMP study using data of 85,306 professors from 3,799 colleges and universities (Chiu et al., 2019). These researchers used the 2016 Forbes classification of top 200 U.S. colleges and universities (http://www.forbes.com/top-colleges) to classify the colleges and universities of their sample into top or nontop institutions. Although they replicated the strong main effect that easy courses were rated as having a higher quality, they also found easiness to interact with their college classification: Students at top colleges evaluated easy courses slightly less positively on quality than students from nontop colleges (4.0 vs. 4.13, respectively) but rated difficult courses slightly more positively (3.37 vs. 3.27, respectively). The most plausible interpretation of these (minor) effects is that top colleges attract students who are more willing to work hard, which enables them to cope better with more difficult courses.

일부 연구자들은 RMP 등급이 대학 SET 등급과 동등한지 의심하기 때문에(예: Legg & Wilson, 2012; Murray & Zdravkovic, 2016), 이러한 동등성이 여기에 제시된 주장에 필수적인 것은 아니라는 점에 유의하는 것이 중요합니다. 학생 평가에서 'Easiness'이 코스의 '품질'에 대한 평가와 높은 상관관계가 있는 것으로 나타났다는 사실은 이 두 가지 차원이 학생들의 마음속에 밀접하고 긍정적으로 연관되어 있다는 충분한 증거입니다. 
Because some researchers doubt that RMP ratings are equivalent to ratings on university SETs (e.g., Legg & Wilson, 2012; Murray & Zdravkovic, 2016), it is important to note that this equivalence is not essential for the argument presented here. The fact that “easiness” has been found to be highly correlated with evaluations of the “quality” of a course in students’ ratings is sufficient evidence that the two dimensions are closely and positively associated in the minds of these students.

학생들은 좋은 성적을 약속하는 코스를 선택합니다.
Students choose courses that promise good grades

경제학자 새뮤얼슨(1948)이 개척한 공개 선호 이론에 따르면 소비자의 선호도는 구매 행동으로 드러날 수 있습니다. 이 이론은 코스 선택에도 적용되어야 하므로, 관대하게 채점하는 교사의 코스에 대한 학생의 선호도는 코스 선택을 통해 드러나야 합니다. 초기 연구에서 Sabot과 Wakeman-Linn(1991)은 학생들이 한 학과에서 두 번째 과목을 수강할 가능성을 첫 번째 과목에서 받은 성적의 함수로 평가했습니다. 경제학을 전공할 의향이 없었지만 해당 학과의 과목을 수강한 적이 있는 학생 중 경제학 입문 과목에서 A가 아닌 B를 받은 경우 두 번째 과목을 수강할 확률이 18% 낮았고, C를 받은 경우 28% 낮았습니다. 
According to the revealed preference theory pioneered by the economist Samuelson (1948), the preferences of consumers can be revealed by their purchasing behavior. Because this theory should also apply to course choices, the preference of students for courses of teachers who grade leniently should be revealed by their course choice. In an early study, Sabot and Wakeman-Linn (1991) assessed the likelihood that students took a second course in a department as a function of the grades they received in their first course. Of students who did not intend to major in economics but had taken a course in that department, the probability of taking a second course was 18% lower if they received a B rather than an A and 28% lower if they received a C in an introductory course in economics.

마찬가지로 Johnson(2003)은 이전 학기에 수강한 과목의 평균 성적에 대한 정보를 제공한 종단 연구에서 이러한 정보가 학생의 향후 선택에 영향을 미친다는 사실을 발견했습니다. 한 학생이 두 명의 강사가 가르치는 과목 중 한 과목의 평균 학점이 A-이고 다른 과목의 평균 학점이 B인 경우, 학생이 두 번째 과목보다 첫 번째 과목을 선택할 확률은 2대 1이었습니다. 마지막으로, 물리 및 생명 과학 분야의 졸업에 대한 지속성에 대한 연구에서 Ost(2010)는 과학 과목보다 비과학 과목에서 더 높은 성적을 받은 학생이 선택한 과학 분야에서 더 높은 성적을 받은 학생보다 과학을 전과할 가능성이 더 높다는 것을 발견했습니다.
Similarly, in a longitudinal study that provided information about the extent to which students informed themselves about the average grade of courses taught in the previous semesters, Johnson (2003) found that this information influenced students’ future choices. If a student had a choice between courses taught by two instructors, one course having a GPA of A– and the other having a GPA of B, the odds that a student would choose the first course over the second were 2 to 1. Finally, in a study of persistence toward graduating in the physical and life sciences, Ost (2010) found that students who received higher grades in their nonscience courses than their science courses were more likely to transfer out of the sciences than were students who received higher grades in their chosen science field.

관대하게 채점된 코스에 대한 학생들의 "드러난 선호도"에 대한 추가 증거는 코넬 대학교의 연구에서 나옵니다(Bar 외., 2009). 이 대학은 1998년부터 모든 과목의 중간 성적을 웹사이트에 게시하고 학생의 성적표에 이를 기재하기로 결정했습니다. 이 대학은 "성과에 대한 정확한 인식을 통해 학생들이 중간 성적이 상대적으로 낮은 과목을 수강하도록 장려할 수 있을 것"이라고 기대했습니다(94페이지). 하지만 이 희망은 실현되지 않았습니다. 실제로 이 웹사이트를 도입한 후 중앙값이 A인 과목의 비율이 16% 증가했습니다. 그러나 더욱 놀라운 것은 이러한 강좌에 등록한 학생의 비율이 42% 증가했다는 것입니다. 그러나 이러한 증가는 주로 평균 이하의 학생들 때문이었습니다. SAT 점수 기준 상위 20%에 해당하는 고능력 학생은 이러한 관대한 채점 방식의 강좌에 매력을 느끼지 못했습니다. 
Further evidence for students’ “revealed preference” for leniently graded courses comes from a study at Cornell University (Bar et al., 2009). This university decided as of 1998 to publish median grades for all courses on a website and to mention them in students’ transcripts. The university hoped that a more “accurate recognition of performance may encourage students to take courses in which the median grade is relatively low” (p. 94). This hope was not supported. In fact, the proportion of courses with an A median increased by 16% after the introduction of this website. But even more striking, the proportion of students who enrolled in such courses increased by 42%. However, this increase was mainly due to students of average or lower ability. High-ability students—in the top 20% according to their SAT scores—were less attracted by these leniently graded courses.

교수자가 좋은 SET 점수를 원한(필요로 한)다
Instructors want (need) good SETs

좋은 성적과 적은 학습량을 약속하는 코스에 대한 학생의 선호가 코스 성적에 영향을 미치려면 교수자가 이러한 선호를 채택하여 교수자의 선호로 전환해야 합니다. 앞서 언급했듯이 이러한 전환의 매개체는 바로 SET입니다. 학생과 교수진은 암묵적인 협상 상황에 놓여 있으며, 양측 모두 상대방에게 가치 있는 '좋은 것'을 가지고 있습니다. 교수진은 좋은 성적과 쉬운 코스를 제공할 수 있고, 학생은 긍정적인 SET를 제공할 수 있습니다. 교육의 질은 교수 평가의 중요한 측면이며, 앞서 언급했듯이 SET는 종종 교육의 질을 나타내는 주요 지표로 사용됩니다. 학생들이 좋아하고 많은 것을 배울 수 있는 코스를 만들기 위해 최선을 다했을 가능성이 높은 교사에게 낮은 평가를 받는 것은 불쾌한 경험이 될 수 있습니다. 낮은 SET는 교사의 종신 재직 또는 성과급 인상 기회를 감소시킬 수 있다는 사실 때문에 이러한 경험을 더욱 불쾌하게 만듭니다. 따라서 바람직한 행동에 대한 보상과 바람직하지 않은 행동에 대한 처벌이라는 SET의 분배 권한은 학생들이 교사의 행동을 형성할 수 있도록 합니다. 
For students’ preferences of courses that promise good grades and low workloads to influence course grades, these preferences must be adopted by faculty members and transformed into faculty preferences. As mentioned earlier, the medium of this transfer is the SET. Students and faculty are in an implicit negotiation situation, where each side has a “good” that is valuable to the other side. Faculty can provide good grades and easy courses, and students can provide positive SETs. Teaching quality is an important aspect of faculty evaluation and, as mentioned earlier, SETs are often used as major indicator of teaching quality. Receiving poor ratings is an unpleasant experience for teachers who are likely to have done their best to produce courses that students enjoy and in which they learn a great deal. The fact that poor SETs might decrease a teacher’s chance of tenure or of a merit salary increase makes this experience even more unpleasant. Thus, the power of dispensing SETs—to reward desirable and to punish undesirable behavior—enables students to shape faculty behavior.

불안정한 지위에 있는 교수진(예: 젊은 테뉴어 트랙 교수진)은 특히 관대한 채점을 통해 자신의 강의에 대한 평점을 개선하려는 동기를 갖게 된다는 증거가 있습니다. 한 중형 주립대학의 연구에 따르면 종신직과 비종신직이 가르치는 수업의 평점 차이는 0.5점 정도였으며, 비종신직이 더 좋은 성적을 받은 것으로 나타났습니다(Moore & Trahan, 1998). 대만 대학에서 실시한 연구에서 Keng(2018)도 비슷한 결과를 보고했습니다. 
There is evidence that faculty members in precarious positions (e.g., young tenure track faculty) will be particularly motivated to improve the ratings they receive for their course by grading leniently. A study at a medium-sized state university showed a difference in the GPA of classes taught by tenured versus untenured staff of half a grade point, with untenured staff giving better grades (Moore & Trahan, 1998). Similar results were reported by Keng (2018) in a study conducted at a Taiwan university.

긍정적인 SET에 대한 교수진의 선호도는 의도적 경로와 비의도적 경로라는 두 가지 경로를 통해 교수자의 교육에 영향을 미칠 수 있습니다. 교수자를 대상으로 한 설문조사에 따르면 많은 교수자가 학생들이 관대하게 채점되고 쉬운 코스를 선호한다는 사실을 알고 있습니다(예: Birnbaum, 2000; Ryan et al., 1980; Simpson & Siguaw, 2000). 예를 들어, 캘리포니아 주립대 풀러턴 캠퍼스에서 Birnbaum(2000)이 실시한 소규모 설문조사에 응답한 교수진의 65%는 기준을 높이고 내용을 늘리면 교수 평가가 낮아진다고 생각했지만, 45%는 학생 학습이 향상될 것이라고 생각했습니다. 심지어 일부는 SET를 개선하기 위해 전략적으로 업무량을 줄이고 채점에 관대함을 사용했다고 인정했습니다. 72%는 SET를 사용하면 교수진이 강의 내용을 축소할 것이라고 생각했습니다. 
Faculty preference for positive SETs can influence faculty teaching by two routes—namely, a deliberate and a nondeliberate route. Surveys of instructors indicate that many teachers are aware of students’ preference for leniently graded, easy courses (e.g., Birnbaum, 2000; Ryan et al., 1980; Simpson & Siguaw, 2000). For example, 65% of the faculty members who responded to a small survey conducted by Birnbaum (2000) at the California State University, Fullerton, believed that raising standards and increasing content lowered teaching evaluation, even though 45% thought that it would increase student learning. Some even admitted using strategic workload reduction and grading leniency to improve their SETs. Seventy-two percent believed that the use of SETs would encourage faculty members to water down the content of their course.

실제로 위스콘신대학교 라크로스 캠퍼스에서 실시한 소규모 설문조사에 응답한 교수진의 22%는 SET의 도입으로 인해 코스에서 다루는 자료의 양을 줄이게 되었다고 답했으며, 38%는 난이도를 낮췄다고 인정했습니다(Ryan et al., 1980). 마지막으로, 안타깝게도 응답률이 매우 낮았던 마케팅 과학 아카데미 회원을 대상으로 한 웹 기반 설문조사에서는 응답자에게 동료가 SET에 영향을 미치기 위해 사용한 전략의 이름을 말하도록 요청했습니다. 가장 자주 언급된 전략은 관대한 채점이었습니다. 시험 당일에 쿠키, 스낵, 피자를 제공하는 것도 자주 언급되었습니다. 앞서 설명한 것처럼 이러한 전략은 모두 효과적일 가능성이 높습니다. 교사들이 자신의 평가를 높일 수 있는 기법을 충분히 알고 있다면, 특히 낮은 평가를 받은 교사들 중 일부는 이러한 전략을 채택하고 싶은 유혹을 받을 것입니다. 
In fact, 22% of faculty respondents to a small survey conducted at the University of Wisconsin–La Crosse indicated that the introduction of SETs had induced them to decrease the amount of material covered in their course, and 38% admitted to lowering the difficulty level (Ryan et al., 1980). Finally, a web-based survey of members of the Academy of Marketing Science, which unfortunately had an extremely low response rate, asked respondents to name strategies that their colleagues had used to influence SETs. The most frequently mentioned strategy was grading leniency. Another frequently mentioned technique was serving cookies, snacks, or pizza on the day of the exam. As discussed earlier, all of these strategies are likely to be effective. If teachers are fully aware of techniques that could raise their evaluations, some of those receiving poor evaluations will be tempted to adopt these strategies, particularly if they are still untenured.

또한 학생은 교수자와 학생 중 어느 한쪽이 완전히 인식하지 못하는 사이에 원하는 방향으로 교수자의 행동을 변화시킬 수 있습니다.

  • 코스에 대한 낮은 평가를 받은 교수자는 평가를 개선하기 위해 어떻게 해야 하는지 몇 명의 학생에게 물어볼 수 있습니다. 학생은 너무 많은 자료가 제시되고 토론 시간이 너무 짧았다고 불평할 수 있습니다. 또한 수강 중인 다른 수업에 비해 이 특정 코스에 너무 많은 독서가 필요하다고 언급할 수도 있습니다.
  • 교수진은 '올해의 교사상'을 받은 동료가 이론과 연구 결과를 생생하게 보여주기 위해 몇 편의 영화를 보여준다는 사실을 더 알아차릴 수도 있습니다. 따라서 교수진은 자신의 SET를 개선하기 위해 강의에 제시되는 자료를 줄여 토론 시간을 만들고, 읽기 요구 사항을 줄이며, 강의를 더 매력적으로 만들기 위해 영화를 상영하기로 결정할 수 있습니다.

이러한 모든 변화는 학생들의 작업량을 상당히 줄여주고 훨씬 적은 양의 자료를 다루는 시험에서 좋은 성적을 거둘 가능성을 높여줍니다. 
Students can also shape the behavior of faculty members in a desired direction without either side being fully aware of doing so.

  • After receiving poor evaluations for a course, a faculty member might ask a few students what he or she should do to improve ratings. Students might complain that too much material was presented and there was too little time for discussion. They might also mention that too much reading was required for this particular course compared with other classes they were taking.
  • The faculty member might further realize that colleagues who receive “Teacher of the Year” awards show a few films to bring theories and findings to life. To improve his or her SETs, the faculty member might therefore decide to reduce the material presented in lectures to create time for discussion, to reduce reading requirements, and to show films to make lectures more attractive.

All of these changes will considerably reduce students’ workload and increase the chances that they will do well in exams that will cover much less material.

Uttl 등(2017)이 논의한 것처럼, 실제로 일부 SET 지지자들이 염두에 두고 있던 것이 바로 이 점이라는 점이 흥미롭습니다. 아브라미와 아폴로니아(1990)가 주장했듯이,
It is interesting to note that, as Uttl et al. (2017) discussed, this is actually what some proponents of SETs had in mind. As Abrami and Apolonia (1990) argued,

너무 높은 학업 기준은 너무 낮은 학업 기준만큼이나 학생의 학습에 해로울 수 있습니다. 좋은 교수법의 과학적 기술은 학생들이 배울 수 있는 것과 학생들이 기대할 수 있는 것 사이의 균형을 찾는 것입니다. 평가는 이를 잘 수행하는 강사를 식별하는 데 도움이 된다고 믿습니다. (p. 520) 
academic standards that are too high may be as detrimental to the learning of students as academic standards that are too low. The art of science of good teaching is finding the balance between what students might learn and what students are capable of leaning. We believe that ratings help identify those instructors who do this well. (p. 520)

따라서 한 과목에서 가르쳐야 할 양을 결정해야 하는 것은 대학의 학문적 수준이나 학문을 습득하는 데 필요한 지식이 아니라 학생들이 과목에 기꺼이 노력을 투자하려는 의지와 그 내용을 습득할 수 있는 능력입니다. 그리고 이러한 지침을 기꺼이 따르는 교사만이 좋은 교수 평가를 받을 수 있습니다. 
So it is not the academic standard of a university or the knowledge that is required for mastering a discipline that should determine the amount that needs to be taught in a course but students’ willingness to invest effort in a course and their ability to master the material. And only teachers, who are willing and able to follow these guidelines will be rewarded with good teaching evaluations.

성적 인플레이션: 증거
Grade inflation: the evidence

대규모 사립 및 공립 대학 표본의 GPA 변화에 대한 광범위한 연구에서 Rojstaczer(2015; Rojstaczer & Healy, 2010)는 1930년대와 1940년대 이후 성적이 서서히 상승하고 있다는 사실을 발견했습니다. 그러나 1960년대에 가파른 상승세를 보이다가 1970년대에 평준화되었습니다(그림 3). 이러한 증가는 베트남 전쟁과 성적이 저조한 학생들이 징집되지 않도록 보호하고자 하는 바람 때문인 경우가 많았습니다(Rojstaczer & Healy, 2010). 1980년대에는 SET가 교수 평가의 주요 정보원이 되면서(Seldin, 1998), 10년에 0.10~0.15점의 비율로 성적이 다시 상승하기 시작했습니다. 이러한 증가는 공립 대학보다 사립 대학에서 훨씬 더 가파르게 나타났습니다. 로이스타처는 이러한 증가의 원인을 세 가지로 꼽았습니다:

  • (a) 수업에 대한 학생 평가가 의무화되었고,
  • (b) 학생들이 점점 더 진로에 집중하게 되었으며,
  • (c) 등록금 상승률이 가계 소득을 앞질렀습니다.

In an extensive study of changes in GPAs of a large sample of private and public universities, Rojstaczer (2015; Rojstaczer & Healy, 2010) found that grades have been slowly rising since the 1930s and 1940s. However, there was a steep increase in the 1960s that leveled off in the 1970s (Figure 3). This increase has often been attributed to the Vietnam War and the wish to protect poorly performing students from being drafted (Rojstaczer & Healy, 2010). In the 1980s, the time when SETs became major information sources in faculty evaluations (Seldin, 1998), grades began to rise again at a rate of 0.10 to 0.15 GPA points per decade. These increases were much steeper for private than for public universities. Rojstaczer attributed this increase to three factors:

  • (a) Student evaluation of classes became mandatory,
  • (b) students became increasingly career focused, and
  • (c) tuition rises outpaced family incomes.

학생들은 고객이 되었고, (돈을 지불하는) 고객으로서 좋은 최종 결과물, 즉 취업 시장에서 경쟁력을 갖출 수 있는 성적을 받은 기말고사를 기대했습니다. 이러한 해석은 높은 등록금을 부과하는 유럽 국가 중 하나인 영국에서 고등 교육에 성적 인플레이션이 발생하는 이유도 설명할 수 있습니다(Bachan, 2017). 
Students became customers and, as (paying) customers, expected a good end product—namely, a final exam with a grade that would allow them to be competitive on the job market. This interpretation would also explain why there is grade inflation in higher education in the United Kingdom (Bachan, 2017), the one European country that charges high tuition rates.



최근 수십 년 동안 학생들이 더 똑똑해지거나 더 열심히 일하게 되었다는 증거는 없습니다. 오히려 증거는 반대 방향을 가리키고 있습니다. 1969년과 1993년 사이에 SAT 평균 총점은 5% 감소했습니다(Rosovsky & Harley, 2002). 이러한 추세가 계속되고 있다는 것은 워싱턴 포스트(2015)에 실린 SAT 점수의 하락 추세가 계속되고 있다는 보고서에 의해 시사됩니다. 또한 학생들이 공부하는 데 더 많은 시간을 소비한다는 증거도 없습니다. 오히려 1960년에는 학생들이 학업에 주당 40시간을 투자했지만, 2003년에는 27시간, 2008년에는 15시간을 투자했습니다. 공부하는 시간, 실험실 시간, 수업 시간을 모두 합쳐도 오늘날 학생들은 학업에 보내는 시간은 16%에 불과합니다(Arum et al., 2011). 
 
There is no evidence that students have become more intelligent or hardworking in recent decades. If anything, the evidence points in the opposite direction. Between 1969 and 1993, the average combined score on the SAT declined by 5% (Rosovsky & Harley, 2002). That this trend has continued is suggested by a report in the Washington Post (2015) that SAT scores had continued their downward trend. There is also no evidence that students spend more time studying. On the contrary, whereas students spent 40hr per week on academic work in 1960, they devoted 27hr in 2003 and 15hr in 2008. Combining time for studying, for labs, and in classes, students today spend only 16% of their time on academic pursuits (Arum et al., 2011).

금전적 인플레이션에 비해 성적 인플레이션의 문제점은 성적이 5점 응답 척도로 표시된다는 점입니다. 성적이 상향 평준화되면 곧 상위권으로 쏠림 현상이 심해집니다. 성적 인플레이션은 주로 A의 증가에 의해 주도되었습니다. 2006년에는 전체 문자 성적 중 43%가 A였으며, 이는 1960년 이후 28% 포인트, 1988년 이후 12% 포인트 증가한 수치입니다(Rojstaczer & Healy, 2010). 성적 인플레이션의 가장 강력한 영향은 사립 대학에서 발생했으며, 사립 대학은 공립 대학보다 A와 B가 훨씬 더 많았습니다. 하버드 대학교에서는 학부 과정의 A 비율이 1966년 22%에서 1996-1997년 46%로 증가했습니다(B.P. Wilson, 1998). 가장 놀라운 점은 2013년에는 학부생의 평균 학점이 A-가 되었다는 점입니다(Bernhard, 2014). 
The problem with grade inflation as compared with monetary inflation is that grades are expressed on a 5-point response scale. With the upward shift in grading, it soon becomes very crowded at the top. The grade inflation was mainly driven by an increase in As. In 2006, 43% of all letter grades were As, an increase of 28 percentage points since 1960 and of 12 percentage points since 1988 (Rojstaczer & Healy, 2010). The strongest effect of grade inflation occurred for private universities, where As and Bs became even more prevalent than at public universities. At Harvard, the percentage of As for undergraduate courses increased from 22% in 1966 to 46% in 1996–1997 (B.P. Wilson, 1998). Most striking, by 2013, A– had become the median grade for undergraduates (Bernhard, 2014).

성적 인플레이션은 주로 인문학과 사회과학(경제학 제외)에 영향을 미친 것으로 보입니다. 물리학, 화학, 수학에서는 성적 인플레이션이 훨씬 적은 것으로 보입니다. 그 이유는 명확하지 않습니다. 앞서 보고된 바와 같이, 이러한 "어려운 과학" 분야의 학생들이 좋은 성적을 받는 데 관심이 없다는 징후는 확실히 없습니다(Uttl & Smibert, 2017). 그렇다면 왜 이러한 교수들은 코스 부하를 완화하고 더 관대하게 채점하지 않을까요? 한 가지 설명은 어려운 과학과 수학 수업의 교육 목표가 훨씬 더 명확하게 정의되어 있기 때문일 수 있습니다. Lodahl과 Gordon(1972)은 이러한 차이를 설명하기 위해 Kuhn(1964)의 패러다임 개념을 사용합니다: "패러다임 개념의 본질은 이론, 방법론, 기술 및 문제에 대한 과학 분야 내 신념의 합의 또는 공유 정도입니다."(Lodahl & Gordon, 1972, 58쪽). 따라서 패러다임이 높은 분야일수록 코스 내용에 대한 합의가 더 높습니다. 교수자는 심리학 입문 수업에서 학생의 학습량을 자유롭게 결정할 수 있지만 수학, 물리학 또는 화학을 가르치는 수업에서는 그렇지 않을 수 있습니다. 
Grade inflation appears to have mainly affected the humanities and social sciences (with the exception of economics). There appears to be much less grade inflation in physics, chemistry, and mathematics. It is not clear why this is the case. As reported earlier, there certainly is no indication that students in those “hard science” areas are uninterested in receiving good grades (Uttl & Smibert, 2017). So why do these professors not ease course loads and grade more leniently? One explanation could be that classes in hard sciences and mathematics have much more clearly defined teaching goals. Lodahl and Gordon (1972) use Kuhn’s (1964) concept of paradigm to describe this difference: “The essence of a paradigm concept is the degree of consensus or sharing of beliefs within a scientific field about theory, methodology, techniques and problems” (Lodahl & Gordon, 1972, p. 58). High paradigm fields will therefore have greater agreement about the content of a course. Whereas instructors have a great deal of freedom in deciding how much a student has to learn in an introductory psychology class, this might not be the case in a class teaching mathematics, physics, or chemistry.

성적 인플레이션의 어두운 면
The dark side of grade inflation

학점 인플레이션이 서로 윈윈하는 상황이라고 주장할 수도 있습니다. 학생은 좋은 성적을 받고 강사는 좋은 SET를 받으니 모두가 만족할 수 있습니다. 안타깝게도 성적 인플레이션에는 어두운 면이 있으며 실제 효과는 훨씬 덜 긍정적입니다. 성적 인플레이션은 우수한 성과를 내거나 합리적으로 열심히 일하려는 인센티브를 감소시킵니다. 모두가 A를 받는다면 학생이 왜 수업에 많은 시간을 투자해야 할까요? 따라서 성적이 관대하게 매겨진 수업에서 학생들이 덜 열심히 노력하는 것으로 밝혀진 것은 놀라운 일이 아닙니다(Babcock, 2010; Greenwald & Gillmore, 1997b). 
One could argue that grade inflation is a win-win situation. Students receive good grades and instructors receive good SETs and everybody is happy. Unfortunately, there is a dark side to grade inflation and the actual effects are much less positive. Grade inflation reduces the incentive to excel, or even to work reasonably hard. Why should a student invest a great deal of time in working for a class, if everybody gets an A? It is therefore not surprising that students have been found to work less hard in leniently graded classes (Babcock, 2010; Greenwald & Gillmore, 1997b).

예를 들어, Greenwald와 Gillmore(1997b)는 표준 SET에 코스에서 예상되는 성적과 작업량(학생이 코스에 투자한 시간 수)에 관한 질문을 추가했습니다. 학생이 코스에서 좋은 성적을 기대하는 경우 더 열심히 노력할 것이라고 생각할 수 있지만, 이러한 성적 기대가 채점 관용에 대한 지식에 기반한 것이라면 이는 적용되지 않을 것입니다. 이 후자의 가설과 일치하는 Greenwald와 Gillmore(1997b)의 연구에 따르면 작업량과 기대 성적 간에 음의 상관관계가 있는 것으로 나타났습니다. 이 효과는 상대적 기대 성적을 상관관계로 사용했을 때 더욱 강해졌습니다. 학생들이 평소 성적과 비교하여 현재 코스에서 더 나은 성적을 기대할수록 코스 활동에 투자하는 시간이 줄어드는 것으로 나타났습니다. 이 결과는 2003년부터 2007년까지 약 8,000개의 수업을 대상으로 한 Babcock(2010)에 의해 재현되었습니다. Babcock은 기대 성적이 1점 상승하면 주당 학습 시간이 0.94시간 감소할 것으로 추정했습니다.
For example, Greenwald and Gillmore (1997b) added questions about expected grades in a course and about workload (numbers of hours students spent on a course) to a standard SET. Whereas one would think that students would work harder if they expected a good grade in a course, this should not apply if this grade expectation is based on knowledge about grading leniency. Consistent with this latter hypothesis, Greenwald and Gillmore (1997b) found a negative correlation between workload and expected grades. This effect became even stronger when relative expected grade was used as a correlate. The better students expected to do in the present course compared with their usual performance, the less time they invested in coursework. This finding was replicated by Babcock (2010) with nearly 8,000 classes covering the years 2003 to 2007. Babcock estimated that a 1-point increase in expected grade would reduce weekly study time by 0.94hr.

학생들이 성적이 관대할수록 과목을 더 긍정적으로 평가하지만(예: Griffin, 2004; Olivares, 2001), 동시에 그러한 과목에서 더 적게 학습한다면, 학생들이 더 긍정적으로 평가하는 과목에서 더 적게 학습할 것으로 예상할 수 있습니다. 이는 적어도 '나쁜 강의'를 학생이 많이 배우지 못하는 강의로 정의한다면 좋은 강의 평가가 실제로는 나쁜 강의에 대한 보상일 수 있음을 시사합니다(Stroebe, 2016). 코스 성적이 더 이상 학습의 유효한 지표로 간주될 수 없다는 사실은 교수 효과를 측정할 수 없게 만듭니다. Johnson(2003)은 후속 과정에서의 학생의 성과를 학습의 척도로 삼는 훌륭하지만 간단한 해결책을 제안했습니다. 즉, 학생들이 통계 입문 과목에서 학습한 양은 입문 과목에서 습득한 지식을 기반으로 하는 고급 통계 과목에서 받는 성적과 관련이 있어야 한다는 것입니다. 
If students evaluate a course more positively the more leniently they are graded (e.g., Griffin, 2004; Olivares, 2001), but at the same time work less in such courses, one could expect that students learn less in their more positively evaluated courses. This would suggest that good teaching evaluations may, in fact, reward bad teaching, at least if one defines “bad teaching” as courses in which students do not learn a great deal (Stroebe, 2016). The fact that course grades can no longer be considered a valid indicator of learning leaves us without a measure of teaching effectiveness. Johnson (2003) suggested the brilliant but simple solution to take students’ performance in follow-up courses as a measure of learning. Thus, the amount students learned in an introductory statistics course should be related to the grades they receive in an advanced statistics course that builds on the knowledge acquired in the introduction.

이 패러다임을 사용한 6개의 연구가 수행되었습니다(Braga et al., 2014; Carrell & West, 2010; Johnson, 2003; Keng, 2018; Weinberg et al., 2009; Yunker & Yunker, 2003). 대부분은 많은 수의 코스 섹션에 의존할 수 있습니다. 이는 SET가 익명으로 처리되고 개별 학생에 대한 평가가 알려지지 않기 때문에 중요합니다. 따라서 SET와 동시 코스의 성적 간의 연관성은 일반적으로 한 섹션의 평균 SET와 해당 섹션의 평균 성적의 상관관계로 계산됩니다. Yunker와 Yunker(2003)의 연구는 12명의 교수자가 가르치는 46개 섹션만을 대상으로 한 것이지만, 미국 공군사관학교에서 수행된 Carrell과 West(2010)의 보다 일반적인 연구는 421명의 교수자가 2,820개의 개별 코스 섹션에서 가르치는 10,534명의 학생을 대상으로 표본 크기를 설정했습니다. 이 연구와 Braga 등(2014)의 연구 역시 학생들이 무작위로 섹션에 배정되었다는 장점이 있습니다. 6개의 연구 모두에서 SET는 동시 수강한 과목의 학생 성적과 양의 상관관계가 있었습니다. 그러나 후속 심화 과정의 성적을 기준으로 삼았을 때 5개의 연구에서 코스 평가는 음의 상관관계를 보였습니다(Braga et al., 2014; Carrell & West, 2010; Johnson, 2003; Keng, 2018; Yunker & Yunker, 2003).4 Weinberg 등(2009)의 연구에서는 현재 코스에 대한 학생 평가가 후속 코스에서의 성과와 무관한 것으로 나타났습니다. 
Six studies that used this paradigm have been conducted (Braga et al., 2014; Carrell & West, 2010; Johnson, 2003; Keng, 2018; Weinberg et al., 2009; Yunker & Yunker, 2003). Most of them could rely on large numbers of course sections. This is important, because SETs are anonymous and ratings are not known for individual students. Therefore, the association of SETs to grades in concurrent courses is typically computed as correlation of the average SET of a section with the average grades of that section. Although the study by Yunker and Yunker (2003) is based on only 46 sections taught by 12 faculty members, the more typical study of Carrell and West (2010)—conducted at the U.S. Air Force Academy—had a sample size of 10,534 students taught in 2,820 separate course sections by 421 faculty members. This study and the study by Braga et al. (2014) also have the advantage that students were randomly assigned to sections. In all six studies, SETs were positively correlated with students’ grades in the concurrent course. However, when performance in subsequent—more advanced—courses was used as criterion, course ratings were negatively correlated in five of the studies (Braga et al., 2014; Carrell & West, 2010; Johnson, 2003; Keng, 2018; Yunker & Yunker, 2003).4 In the Weinberg et al. (2009) study, student evaluations of the current course were found unrelated to the performance in a subsequent course.

요약하면, Weinberg 등(2009)의 연구를 제외하고 이 연구들은 학생들이 많은 것을 배우지 못한 코스를 더 긍정적으로 평가하는 경향이 있다는 증거를 제시합니다. 또는 Braga 등(2014)의 결론처럼 "미래의 성과를 촉진하는 데 더 효과적인 교사가 학생들로부터 더 나쁜 평가를 받는다"(81쪽)는 결론을 내릴 수도 있습니다. 
In summary, then, with the exception of the study by Weinberg et al. (2009), these studies present evidence that students tend to evaluate more positively the courses in which they did not learn a great deal. Or, as Braga et al. (2014) concluded, “teachers, who are more effective in promoting future performance receive worse evaluations from their students” (p. 81).

일반적인 결론
General conclusion

이 글에서 검토한 증거를 통해 도출할 수 있는 주요 결론은 SET가 교수 효과성의 유효한 측정 기준이 아니므로 학장이나 학과장이 교수진을 평가하는 데 사용해서는 안 된다는 것입니다. 여전히 SET의 증거에 근거하여 인사 결정을 내리는 대학 관리자는 법정에서 자신의 결정에 이의를 제기할 수 있는 위험을 감수해야 합니다. 교수 효과성의 척도로서 SET가 무효라는 증거가 있고, Ryerson 대학의 사례에서 알 수 있듯이 이러한 법정 소송에서 승소할 가능성은 그리 높지 않습니다. 
The main conclusion to be derived from the evidence reviewed in this article is that SETs are not valid measures of teaching effectiveness and should therefore not be used by deans or chairpersons to evaluate faculty members. University administrators, who still base personnel decisions on evidence from SETs, run the risk that their decisions could be challenged in court. Given the evidence that SETs are invalid as measures of teaching effectiveness—and as the example of Ryerson University suggests—the chances of winning such court cases are not very good.

교수 능력은 성과급 인상이나 승진에 대한 결정에 중요한 요소이므로 대학 관리자는 다른 정보원을 사용할 수 있습니다. SET를 사용하는 대신 교사에게 강의 개발 방법과 강조하는 문제에 대한 자세한 설명을 담은 강의 포트폴리오를 작성하도록 요청할 수 있으며, 포트폴리오에는 권장 도서 목록과 시험 문제도 포함되어야 합니다. 이렇게 하면 적어도 특정 영역에 대한 강좌가 해당 영역의 핵심으로 간주되는 콘텐츠(예: 이론, 연구)를 다루고 최신 문헌에 기반하고 있음을 보장할 수 있습니다. 또한 이러한 포트폴리오에는 일부 주요 강의의 파워포인트 프레젠테이션이 포함될 수 있습니다(예: Goss & Bernstein, 2015). 테뉴어 결정의 경우, 선배 동료의 평가를 위해 몇 개의 강의를 비디오로 녹화할 수 있습니다. 강의에 대한 결정은 매우 저조한 성과를 확인하는 것만 포함하므로 이러한 평가에서 합의에 도달할 수 있어야 합니다. 
Because teaching ability is an important factor in decisions about merit increases or promotions, university administrators could use alternative sources of information. Instead of using SETs, they could ask teachers to compile teaching portfolios in which they give detailed descriptions of how they develop their courses and which issues they emphasize; the portfolio should also contain lists of recommended reading and exam questions. This would at least ensure that a course on a given area covers the content (i.e., theories, research) considered central to that area and is based on up-to-date literature. In addition, such a portfolio could include the PowerPoint presentations of some of the main lectures (e.g., Goss & Bernstein, 2015). In the case of tenure decisions, one could video record a few lectures for evaluation by senior colleagues. Because the decision about teaching would only involve identifying a very poor performance, it should be possible to reach agreement in such evaluations.

SET 정보는 평가를 받는 교수자에게만 제공되어야 합니다. 이렇게 하면 교수자가 SET에서 높은 점수를 받아야 한다는 압박을 크게 줄일 수 있습니다(예: 기준을 낮추고 채점을 관대하게 함). SET가 편향되어 있기는 하지만, 이를 완전히 폐지하면 학생뿐만 아니라 교수자가 유용하게 활용할 수 있는 정보를 얻을 수 있는 기회를 박탈당하게 됩니다. 그러나 교수자는 SET에 영향을 미치는 다양한 편향의 원인을 인식하고 자신의 강의 평가를 평가할 때 이를 고려해야 합니다. 채점을 까다롭게 하고, 많은 독서를 요구하며, 학생에게 열심히 노력하는 모습을 보이는데도 최고 평점을 받는 영감을 주는 교사가 있습니다. 그러나 대부분의 교수자에게 이러한 전략은 적어도 학부 과정을 가르칠 때는 일반적으로 최적의 세트에 미치지 못하는 결과를 초래합니다. 그러나 대학 캠퍼스의 학부 학습에 대한 대규모 연구를 바탕으로 Arum과 Roksa(2011)는 "상당한 양의 읽기(일주일에 40페이지 이상)와 쓰기(한 학기 동안 20페이지 이상)가 모두 필요한 과목을 수강한 학생들의 학습률이 더 높았다"(205페이지)고 결론지었습니다. 
SET information should be provided only to the instructors who are evaluated. This would substantially reduce the pressure on faculty members to receive top SET scores (e.g., by lowering standards and lenient grading). Although SETs are biased, totally abandoning them would deprive not only students of their voice with regard to teaching quality but also instructors of information they might find useful. However, instructors should be aware of the various sources of bias that affect SETs and take them into account when assessing the evaluation of their own teaching. There are some inspired teachers who receive top ratings even though they are tough graders, require a lot of reading, look for hard work from their students. However, for most instructors such strategies will typically result in less-than-optimal SETs, at least when they teach undergraduate courses. Yet, based on a large study of undergraduate learning at college campuses, Arum and Roksa (2011) concluded “that students, who took courses requiring both significant reading (more than 40 pages a week) and writing (more than 20 pages over the course of the semester) had higher rates of learning” (p. 205).

적어도 사회과학과 인문학에서는 학생들이 좋은 학점을 받는 데 익숙해져 있기 때문에 학점 인플레이션을 없애기 위해서는 근본적인 대책이 필요합니다. 성적 상한제 도입은 효과적인 전략 중 하나입니다(Butcher et al., 2014; Gorry, 2017). 안타깝게도 학점 상한제는 이 정책을 시행하는 대학 학생들의 경쟁력을 떨어뜨린다는 단점이 있습니다. 고용주들은 프린스턴의 학점 상한제를 알지 못할 수도 있기 때문에, B+가 A-보다 취득하기 더 어려웠을지라도 프린스턴 졸업생보다 A-를 받은 하버드 졸업생을 선호할 수 있습니다. 이것이 프린스턴이 2014년에 이 제도를 폐지한 이유일 것입니다(Windemuth, 2014). 그리고 웰슬리 칼리지가 2019년에 이 제도를 폐지한 이유일 것입니다. 따라서 성적 상한제는 사립 및 공립 대학의 전체 시스템에 도입되는 경우에만 허용될 수 있습니다. 미국에서는 그런 일이 일어날 가능성이 거의 없습니다. 대신, 일반적으로 도입될 수 있고 잠재적 고용주에게 더 많은 정보를 제공할 수 있는 덜 야심 찬 조치는 성적표에 학생의 개별 성적과 함께 수업의 중간 성적을 표시하는 것입니다. 그러나 대학 교사에게 자신의 강의가 학생들에게 어떻게 인식되었는지에 대한 정보를 제공하여 개선에 도움을 주기 위한 SET가 성적 인플레이션뿐만 아니라 교육의 질 저하를 초래한 것은 아이러니한 일입니다. 
Because students have become used to getting good grades, at least in the social sciences and humanities, radical measures would be needed to eliminate grade inflation. The introduction of grade ceilings is one effective strategy (Butcher et al., 2014; Gorry, 2017). Unfortunately, grade ceilings have the disadvantage of lowering the competitiveness of students from universities practicing this policy. Because employers might not be aware of the Princeton grade ceiling, they might prefer a Harvard graduate with an A– to a Princeton graduate with a B+, even if the B+ might have been more difficult to get than the A–. This is probably the reason why Princeton dropped this measure in 2014 (Windemuth, 2014), and why Wellesley College dropped it in 2019. Thus, grade ceilings would be acceptable only if they were introduced by the whole system of private and public universities. In the United States, something that is unlikely to happen. Instead, a less ambitious measure that could generally be instituted and would make grades more informative for potential employers would be to indicate the median grade of a class with students’ individual grades on their transcripts. It is ironic, though, that SETs intended to provide university teachers with information about how their teaching was perceived by students and thus help them to make improvements resulted not only in grade inflation but also in a deterioration of teaching quality.

참고
Notes

1 2016년 5월에 RateMyProfessors.com은 평가 방식을 변경했습니다. 명확성 및 유용성 점수를 삭제하고 이제 학생들에게 교수의 전반적인 질을 명시적으로 평가하도록 요청했습니다. 2018년 6월에는 성차별적이라는 불만에 대응하여 인기도 평가도 삭제했습니다.
1 In May 2016, RateMyProfessors.com changed their rating scheme. They dropped the clarity and helpfulness scores and now ask students to explicitly rate the overall quality of professors. In June 2018 they also dropped the hotness ratings, responding to complaints that it was sexist.

2 이 기사의 연구에 대한 설명이 완전히 명확하지 않습니다. 저자들은 보충 자료를 언급하고 있지만 제가 접근할 수 없었습니다. 기사에 제공된 보충 자료 주소는 항상 기사만 불러올 뿐 자료는 불러오지 않았습니다. 미첼 박사에게 보낸 이메일에는 답변이 없었습니다.
2 The description of the study in the article is not totally clear. The authors refer to supplementary material, which I was unable to access. The address for supplementary material given in the article always brought up the article but not the material. An email to Dr. Mitchell was not answered.

3 이러한 역설은 미국만의 현상은 아닐 수 있습니다. 영국에서도 성적 인플레이션에 대한 증거가 있습니다(Adams, 2019; Bachan, 2017; Stroebe, 2016). 그러나 근본적인 과정에 대한 연구는 훨씬 적습니다.
3 This paradox may not be a uniquely American phenomenon. There is also evidence of grade inflation in Great Britain (Adams, 2019; Bachan, 2017; Stroebe, 2016). However, there is much less research about underlying processes.

4 학생의 성적은 능력 요인에도 크게 영향을 받기 때문에 Yunker와 Yunker(2003)는 전체 GPA와 ACT 점수를 대조군으로 사용했습니다. Weinberg 등(2009)은 현재 수강 중인 과목의 성적을 통제했는데, 이는 문제가 있습니다. 4 Because students’ grades are also strongly influenced by ability factors, Yunker and Yunker (2003) used the overall GPA as well as the ACT score as controls. Weinberg et al. (2009) controlled for grades in the current course, which is problematic.

 

 

 


Abstract

Student Evaluations of Teaching (SETs) do not measure teaching effectiveness, and their widespread use by university administrators in decisions about faculty hiring, promotions, and merit increases encourages poor teaching and causes grade inflation. Students need to get good grades, and faculty members need to get good SETs. Therefore, SETs empower students to shape faculty behavior. This power can be used to reward lenient-grading instructors who require little work and to punish strict-grading instructors. This article reviews research that shows that students (a) reward teachers who grade leniently with positive SETs, (b) reward easy courses with positive SETs, and (c) choose courses that promise good grades. The study also shows that instructors want (and need) good SETs.

+ Recent posts