커크패트릭 모델 평가에 대한 비판적 분석: 선행의 원칙(Evaluation and Program Planning, 2004)

A critical analysis of evaluation practice: the Kirkpatrick model and the principle of beneficence

Reid Bates

Louisiana State University, Baton Rouge, LA, USA





불가피하게, 평가모델과 그것들이 사용되는 방식에 있어서는 언제나 윤리적 영역이 존재한다. 따라서 사용하는 모델에 대해서 지속적으로 성찰하고 다른 관점에서 바라보아 분석하는 것이 중요하다. 그러한 성찰은 평가에 대한 근본적 윤리적 질문에 답하게 해준다 "우리는 옳은 것을 하는가? 그리고 그것을 제대로 하고 있는가?"

Inevitably there are also ethical dimensions to the models and the ways in which they are used. It is therefore important to subject our models to ongoing reflection and analysis from different perspectives. Such reflection should help answer a fundamental ethical question about evaluations: “Are we doing the right thing,and are we doing it well?” (Schwandt, 1998, p. 11). 



1. 훈련 평가의 네 가지 접근법

1. The four level approach to training evaluation


지금까지 가장 유명한 평가모델은 커크패트릭의 네 '단계' 준거이다.

By far the most popular approach to the evaluation of training in organizations today is Kirkpatrick’s (1976) framework of four ‘levels’ of criteria.


1.1. 4단계 모델의 명성

1.1. The popularity of the four level model


 

이 모델의 명성에는 몇 가지 요인이 있다. 첫째, 이 모델은 전문직 훈련하는 사람이 훈련에 대한 평가를 systematic way로 하는 것을 이해하게 도와준다. 훈련의 성과를 논하는데 직관적straightforward인 시스템 또는 언어를 제공해주었으며, 어떤 훈련프로그램이 얼마나 목표를 달성하였는지를 평가하는데 필요한 정보의 유형을 알려준다.

The overwhelming popularity of the model can be traced to several factors. First, the model addressed the need of training professionals to understand training evaluation in a systematic way(Shelton & Alliger, 1993). It has provided straightforward system or language for talking about training outcomes and the kinds of information that can be provided to assess the extent to which training programs have achieved certain objectives.


둘째로, 커크패트릭은 네 단계에 해당하는 정보가 훈련에 대해서 얻을 수 있는 가장 valuable or descriptive 한 정보라고 주장하였다.

Second, Kirkpatrick insisted that information about level four outcomes is perhaps the most valuable or descriptive information about training that can be obtained.


4단계 모델은 따라서 트레이너들에게 그들이 하는 일의 결과를 '사업적 용어'로 couch할 수 있는 수단을 제공해주었다. 

The four-level model has therefore provided a means for trainers in organizations to couch the results of what they do in business terms.


마지막으로, 4단계 모델의 명성은 복잡한 훈련평가의 프로세스를 단순화하는 기능 때문이다. 이 모델은 몇 가지 방식으로 이것을 달성한다.

Finally, the popularity of the four-level model is also a function of its potential for simplifying the complex process of training evaluation. The model does this in several ways.

  • 첫째, 이 모델은 어떤 질문을 해야하는지 어떤 준거가 적합한지에 대한 직관적 가이드를 준다.
    First, the model represents a straightforward guide about the kinds of questions that should be asked and the criteria that may be appropriate.

  • 둘째, 이 모델은 훈련 평가에 대한 측정의 부담을 줄여준다. 이 모델은 보통 훈련을 마친 이후에 수집하게 되는 네 단계의 성과자료에 초점을 두기 때문에 훈련-전 측정의 필요성을 없애준다 (적어도 없어도 된다고 암시한다).
    Second, the model reduces the measurement demands for training evaluation. Since the model focuses the evaluation process on four classes of outcome data that are generally collected after the training has been completed it eliminates the need for—or at least implies—that pre-course measures of learning or job performance measures are not essential for determining program effectiveness.

  • 추가적으로, 훈련의 효과성에 대한 결과가 성과척도에만 의존하기 때문에 훈련평가자들이 고려해야 하는 변수를 크게 줄여준다. 실제로, 모델에서는 훈련프로세스와 상호작용하거나 훈련프로세스를 둘러싼 복잡한 요인들의 네트워크를 설명하거나 측정해야 할 필요성을 제거해버린다.
    In addition, because conclusions about training effectiveness are based solely on outcome measures, the model greatly reduces the number of variables with which training evaluators need to be concerned. In effect, the model eliminates the need to measure or account for the complex network of factors that surround and interact with the training process.


커크패트릭 모델이 훈련평가에 대해서 가치있는 기여를 했음에는 의심의 여자기 없다. 이 모델은 훈련평가를 성과에 초점을 맞추게 하였고, single outcome measure로는 훈련프로그램의 복잡성을 적절히 반영할 수 없다는 인식을 촉진하였고, 훈련 효과성을 위해 다양한 측정을 해야 할 필요성을 강조하였다. 이 모델은 훈련에 대한 사고와 평가를 비지니스적 용어로 인지하는 중요성을 촉진하였다. 2단계와 3단계를 구분한 것은 훈련이 진정으로 효과가 있기 위해서는 학습의 전이에 관심을 가져야 한다는 것을 보여주었다. 이 모델은 훈련평가자들에게  유용한 heuristics가 되었고, 다수의 다른 평가모델을 낳았다.

There is no doubt that Kirkpatrick’s model has made valuable contributions to training evaluation thinking and practice. It has helped focus training evaluation practice on outcomes (Newstrom, 1995), fostered the recognition that single outcome measures cannot adequately reflect the and complexity of organizational training programs, underscored the importance of examining multiple measures of training effectiveness. The model promoted awareness of the importance of thinking about and assessing training in business terms (Wang, 2003). The distinction between learning (level two) and behavior (level three) has drawn increased attention to the importance of the learning transfer process in making training truly effective. The model has also served as a useful—if preliminary— heuristic for training evaluators (Alliger & Janak, 1989) and has been the seed from which a number of other evaluation models have germinated (e.g. Holton, 1996; Jackson & Kulp, 1978; Kaufman & Keller, 1994).


 

 


1.2. 4단계 모델의 한계

1.2. Limitations of the four-level model


1.2.1. 모델은 불완전하다

1.2.1. The model is incomplete


4단계 모델은 지나치게 단순화된 모델이며, 개인적, 맥락적 영향을 고려하지 않고 있다. 지난 20년의 연구를 보면 조직적, 개인적, 훈련설계적, 전달요인적 부분이 훈련의 효과성에 영향을 줄 수 있다. 이 연구는 조직의 특성과 근무환경과 개인 피훈련자의 특성이 훈련의 효과성에 결정적 input factor임을 새롭게 이해하게 하였다. 예컨대 아래와 같은 것들이 훈련의 프로세스 효과성과 성과 효과성에 모두 영향을 준다.

The four-level model presents an oversimplified view of training effectiveness that does not consider individual or contextual influences in the evaluation of training. A broad stream of research over past two decades (Cannon-Bowers,Salas, Tanenbaum, &Mathieu, 1995; Ford &Kraiger, 1995;Salas &Cannon-Bowers, 2001; Tannenbaum&Yukl, 1992)has documented the presence of a wide range of organizational, individual, and training design and delivery factors that can influence training effectiveness before,during, or after training. This research has led to a new understanding of training effectiveness that considers‘characteristics of the organization and work environment and characteristics of the individual trainee as crucial input factors’ (Cannon-Bowers, Salas, & Tannenbaum, 1995,p. 143). For example,

  • contextual factors such as the learning culture of the organization (Tracy, Tannenbaum, &Kavanaugh, 1995),

  • organizational or work unit goals and values (Ford, Quinones, Sego, & Sorra, 1992),

  • the nature of interpersonal support in the workplace for skill acquisition and behavior change (Bates, Holton, Seyler, & Carvalho,2000) the climate for learning transfer (Rouiller & Gold-stein, 1993), and

  • the adequacy of material resources such as tools, equipment, and supplies

...have been shown to influence the effectiveness of both process and outcomes of training.




1.2.2. 인과관계를 가정함

1.2.2. The assumption of causal linkages


커크패트릭은 최근의 출판물에서 '훈련이 효과가 있으려면, 피훈련자들이 긍정적으로 반응해야 한다'라고 말했다. 그리고 '학습이 없이는 행동의 변화가 없을 것이다'라고 했다. 그러나 연구결과들은 이러한 인과관계를 보여주는데 실패하고 있다. 두 개의 메타분석을 보면 각 단계 간 상관관계나 선형적 상관관계가 거의 없음을 보여주준다.

In one of Kirkpatrick’s more recent publications he states that “if training is going to be effective, it is important that trainees react favorably” (Kirkpatrick, 1994, p. 27), and that “without learning, no change in behavior will occur” (p. 51). Research, however, has largely failed to confirm such causal linkages. Two meta-analyses of training evaluation studies using Kirkpa- trick’s framework (Alliger & Janak, 1989; Alliger, & Tannenbaum, Benett, Traver, Shotland, 1997) have of evidence either substantial found little correlations between measures at different outcome levels or evidence of the linear causality suggested by Kirkpatrick (1994).



1.2.3. 단계 상승에 따른 정보의 중요성 상승을 가정

1.2.3. Incremental importance of information


커크패트릭 모델은 각 단계가 직전 단계보다 더 informative함을 가정한다. 이 가정은 훈련평가자들로 하여금 훈련프로그램의 효과성에 관한 정보에 있어 4단계가 가장 유용하다는 인식을 갖게 하였다.

Kirkpatrick’s model assumes that each level of evalu- ation provides data that is more informative than the last (Alliger & Janak, 1989). This assumption has generated the perception among training evaluators that establishing level most useful four results will provide the information about training program effectiveness.



1.3. 윤리적 함의

1.3. Ethical implications


HRD 조직에서 훈련담당자는 개인과 조직의 welfare를 advance 시켜야 할 의무가 있다. 이에 따라 고객과 이해관계자들은 훈련담당자/평가자의 노력에 의해 도움을 받을 것이라는 기대를 갖게 되었다. 이는 '선행의 원칙'이라는 윤리원칙에 따른다. 이것은 핵심적 윤리 쟁점이 되어야 한다. 다른 말로 하면, 우리는 '다른 사람을 이롭게 한다는 것의 의미가 무엇인지에 대해서 잘 생각하고 현명하게 생각해야 한다'

Training practitioners in organizations as members of the human resource development (HRD) profession have taken on the obligation to advance the welfare of individuals and organizations for whom they work. As such, we have created the expectation among our clients and stakeholders that they will benefit from our efforts. It follows from this that the ethical principle of beneficence—doing good for others—is or should be a central ethical concern. In other words, we have an obligation to “think well and wisely about what it means to benefit others…” (Kitchener, 1984, p. 43).




2. 선행의 개념

2. The concept of beneficence


 

자율성, 악행금지, 정의, 신의(fidelity)와 함께, '선행beneficence'는 다른 사람을 돕는 전문직의 주된 다섯 가지 윤리적 원칙 중 하나가 되었다. '선행'은 'the quality of doing good, taking positive steps to help others, or the notion that one ought to do or promote action that benefits others'으로 정외될 수 있다. 가장 일반적인 형태로서 이 원칙은 "타인이 자신에게 중요하고 정당한legitimate 관심interests를 추구할 수 있도록 돕는"윤리적 의무를 강조하며, 고객/스폰서/이해관계자의 이득benefit을 confer할 의무를 강조한다.

Along with autonomy, nonmaleficence, justice and fidelity, beneficence has been advanced as one of the five prima facie ethical principles of helping professions (Beauchamp & Childress, 1983). Beneficence can be defined as the quality of doing good, taking positive steps to help others, or the notion that one ought to do or promote action that benefits others. In its most general form, this principle asserts that it is an ethical duty to “help others further their important and legitimate interests” (Beauchamp & Childress, 1983, p. 148) and to confer benefits on clients, sponsors, and stakeholders when possible.


예를 들어, 많은 사람이 훈련평가자의 역할은 평가대상이 되는 조직이 'important and legitimate interests'를 추구할 수 있게 돕는 것이라고 여기며, 이를 위한 두 가지 평가목표가 있다. (a)프로그램이 효과적이었는가, (b)훈련프로세스를 향상시키기 위해서 할 수 있는 것은 무엇인가

For example, many now believe that those assuming the role of training evaluators should help organizations further their important and legitimate interests by striving to fulfill two fundamental evaluation goals: determining (a) if the program was effective and (b) what can be done to improve the training process.


Beauchamp and Childress 는 '선행'의 개념은 '악행금지(do no harm)의 개념을 넘어서는 것이라고 주장하며, 그렇게 할 수 있는 위치에 있으면서도 이득benefit을 주는데 실패하는 것은 (어떤 조건하에서는) 전문직 윤리를 위반한 것이라 주장했다.

Beauchamp and Childress (1983) suggest that the beyond of concept of beneficence goes the principle nonmaleficence (do no harm) and argue that the failure to provide a benefit when in a position to do so represents a violation of professional ethics when certain conditions are met.



2.1. 커크패트릭의 모델과 선행의 원칙

2.1. Kirkpatrick’s model and the principle of beneficence


 

선행의 원칙은 어떤 행동의 위험risk와 이득benefit에 관한 의문이 생겼을 때 훈련평가와 관련된 윤리적 문제에도 적용될 수 있다. (커크패트릭 모델과 같은) 평가모델의 잠재적 위험을 평가하는 것은 그러한 모델이 선행의 원칙과 일관된 practice를 촉진하는 역량을 갖추었는지에 대한 통찰을 줄 수 있다.

The principle of beneficence can be applied to ethical problems in training evaluation when questions arise about the risks and benefits of certain actions. Examining the potential risks associated with the evaluation models such as Kirkpatrick’s can provide some insight into the capacity of those models to foster practice consistent with the principle of beneficence.


이득benefit이란 'some process, activity, or information that promotes the welfare and interests of clients and stakeholders (Beauchamp & Childress, 1983)'을 말한다. 조직의 훈련평가에서 이것은 기술적, 판단적 정보가 systematic하게 수집되어 (a)프로그램의 효과성을 평가하고 (b)프로그램이 그 목적을 달성할 수 있도록 개선하는데 도움이 되게 한다면 가장 잘 되었다고 볼 수 있다. 따라서 커크패트릭 모델의 잠재적 이득을 살펴보는 한 가지 일반적인 방법은 그 모델이 '총괄적 질문(훈련이 효과적이었는가?)'와 형성적 질문(어떻게 훈련 프로세스가 효과성을 향상시키는 방향으로 개선될 수 있는가?'의 두 가지 질문에 대답할 수 있는 능력을 더 향상시켜주는지 아니면 더 제한하는지를 따져보는 것이다.

Benefits typically refer to some process, activity, or information that promotes the welfare and interests of clients and stakeholders (Beauchamp & Childress, 1983). For training evaluations in organizations, this is best done when descriptive and judgmental information is systematically collected that (a) assesses program effectiveness, and (b) helps improve the program relative to its goals (Goldstein & Ford, 2002; Holton, 1996; Swanson & Holton, 2000). Thus one general way of to examine the potential benefits Kirkpatrick’s model as a guide to training evaluation is to analyze the extent to which it furthers or limits the ability to answer both the summative question (Was training effective?) and the formative question (How can the training process be modified in ways that increase its potential for effectiveness?).



앞서 언급된 커크패트릭 모델의 한계는 고객과 이해관계자에게 누적될 수도 있는 몇 가지 유의미한 위험과 이득에 대한 함의를 보여준다. 성과에 exclusive하게 초점을 두면서, 이 모델은 훈련평가자가 네 단계 중 하나 혹은 그 이상의 성과를 측정하기만 한다면 적절한 평가 정보를 얻은 것이다라고 생각하게 한다.

The limitations of Kirkpatrick’s model noted earlier carry with them some meaningful implications for risks and benefits that may accrue to clients and stakeholders in the evaluation process. With its exclusive focus on training outcomes, the model promotes the view that if training evaluators measure one or more of the four levels of outcomes then this will provide adequate evaluative information.


이러한 접근법의 문제는, 프로그램 성과에 대한 정보를 얻는게 도움이 되긴 하지만, 네 단계에만 국한될 뿐이며, 왜 어떤 훈련이 효과적이고 어떤 것은 그렇지 않았는지에 대한 formative data가 없다.

The problem with this approach is that, although it may provide some beneficial information about program outcomes (given the effective selection and measurement of criteria), when measurement is restricted to one or more of the four criterion levels no formative data about why training was or was not effective is generated (Goldstein & Ford, 2002).


좀 더 맥락적인 정보가 없는 상태에서 훈련 프로그램이 효과적인 transfer를 촉진하는 방향으로 설계되었는지 아니면 다른 input factor가 학습한 스킬의 적용을 가로막고 있는지를 알 수 없다.

It is unclear, in the absence of more contextual information, whether the training program was not designed in ways that fostered effective transfer or whether other input factors blocked skill application.


핵심적 input factor가 고려되지 않은 상태에서 훈련의 이득과 효과성에 대한 판단은 잘못될 가능성이 있다. 훈련에 대한 잘못된, 부정확한 평가가 훈련의 효과성에 대한 '잘못된 판단poor decision'으로 이어진다면, 미래에 일어난 훈련이 효과성과 신뢰성도 훼손된다. 고객과 이해관계자는 훈련프로그램의 성공 또는 실패가 맥락적 요인에 따른 것인지를 아는 것도 중요하다(proper equipment, adequate resources, organizational culture, performance consequences, managerial expectations and support 등). 그러한 정보 없이는 조직은 동일하거나 비슷한 프로그램이 다른 사람/단위/부서에 적용되었을 때 달성할 수 있는 결과에 대한 결정을 내릴 토대가 거의 없는 것과 같다.

When key input factors are not taken into account, the potential for misleading or inaccurate judgments about the merit and effectiveness of training increases. When misleading or inaccurate evaluations lead to poor decisions about training effectiveness, the credibility and effectiveness of future training efforts is undermined. It is also of general benefit to clients and stakeholders to know whether a training program’s success or failure is a function of contextual factors such as proper equipment, adequate resources, organizational culture, performance consequences, managerial expectations and support, or other key input factors. In the absence of such information, organizations have little foundation upon which to make decisions about the extent to which the results of the same or a similar training program can be achieved with other individuals in other units or departments.


'인과관계'를 가정하는 것도 잠재적 위험의 하나이다. 첫째로, 이 가정은 '반응reaction'을 측정하는 것이 훈련성과의 다른 영역(학습, 행동변화)를 대체surrogate하거나 인접proxy한 측정으로 인식되게끔 한다. 이러한 인식은 '반응' 척도를 훈련 효과성의 유일한 평가척도로 과다하게 사용되게 만드는 결과를 낳았다. 예컨대 94%의 기업체가 만족도 척도를 활용하며, 학습이나 행동변화 관련 정보를 수집하기 위한 노력은 매우 낮다. 실제로 대부분의 훈련평가는 전통적으로 '반응'척도 수집에만 초점을 맞춰왔다.

There is evidence that the causal linkage assumption present potential risks to evaluation clients and stakeholders. First, this assumption has bred the perception that reaction measures can be used as legitimate surrogates or proxy measures for training outcomes in other domains (e.g. learning or behavior change). This perception has contributed to the overuse of reaction measures as the sole evaluative measures of training effectiveness. For example, over 94% of business organizations evaluate training using reaction measures (Bassi, Benson, & Cheney, 1996) while far fewer efforts are made to collect information about learning or behavior change on the job (Goldstein & Ford, 2002). In fact, most training evaluations in organizations has historically focused on collecting only reaction measures (Grider, Capps, & Toombs, 1988).


인과관계를 가정하는 것과 지나치게 반응 척도에 의존하는 것은 훈련자의 관심사를 '훈련이 진정으로 효과를 내는 것'이 아니라 '참가자가 즐겁게 느끼게 만드는 재밌고, 웃기고, 쉽게 진행되는 훈련'을 개발하는데 초점을 맞추게 만들었다. 종종, 참가자로부터 긍정적인 반응을 내게 만드는 훈련프로그램을 만드는 것이 진정으로 학습과 행동변화를 가져오는 프로그램을 만드는 것보다 쉽다. 이는 조직이 "시간을 즐겁게 보내는 것이 훈련의 수월성의 척도가 되고, 교육이 아니라 엔터테인먼트를 중시하는" 관점을 갖게끔 만드는 함정이 된다.

The causal linkage assumption and the over-reliance on reaction measures also diverts trainers’ attention away from efforts to make training truly effective to a focus on developing entertaining, amusing, and easy-going training that participants find enjoyable. It is often easier to develop a training program that will elicit positive reactions from participants than one that will lead to true learning and behavior change on the job. This presents a significant hazard for organizations to the extent it fosters a view that “having a good time becomes the mark of excellence [in training], a valuing of entertainment over education” (Michalski & Cousins, 2000, p. 249)


또한 이것은 '학습은 종종 어려운 것'이다 라는 점과, 효과적인 학습은 참가자들이 경험하는 것을 '불편하게' 느끼게 만들어야 한다는 점을 무시하게끔 한다.

It also ignores the fact that learning is often difficult, and that effective learning often challenges participants to the point that they may experience training as uncomfor- table (Knowles, Holton, &Swanson, 1998; Rodin &Rodin, 1972).


훈련자들은 훈련평가를 스스로의 퍼포먼스에 대한 평과와 등치시켜 보는 경우가 있어서 비싼costly and high profile 프로그램을 (단순히 '좋은 반응'보다 달성하기 어려운) 'higher level outcome'에 대해서 평가될 경우 personal risk가 더 높아진다.

Because trainers view the evaluation of training as parallel to the evaluation of their own performance (Michalski &Cousins, 2000), the level of personal risk rises substantially when a costly or high profile programis evaluated at higher level outcomes that are often more difficult to achieve than ‘good’ participant reactions.


고객과 이해관계자들은 '반응 척도'가 더 높은 단계의 surrogate로 사용될 때 발생할 수 있는 misleading and inaccurate information으로 인해서 손해를 볼 가능성이 더 커진다.

Evaluation clients and stakeholders are also in greater jeopardy in these situations because of the increased potential for loss or damage that may ensue from the misleading or inaccurate information that comes when reaction measures are used instead of or as surrogates for higher level outcomes.



4단계 성과 척도가 조직 수준의 재정 정보 형태로 수집된다는 가정은 훈련프로그램의 평가에 있어 세 가지 주된 잠재적 위험을 낳았다.

The assumption that level four outcome measures in the form of organizational level financial information is the most useful for evaluating training has generated at least three elements of substantial risk for clients and stakeholders in the training process.

 

첫째, 훈련자와 훈련평가자로 하여금 "고객과 이해관계자들은 훈련의 유용성을 다른 organizational initiative를 판단하는데 사용되는 financial metrics와 동일한 것으로 판단하고 싶을 것이다"라고 믿게끔 했다.

First, it has fostered the belief among trainers and training evaluators that clients and stakeholders want to judge the utility of training using the same financial metrics they would use to judge other organizational initiatives. 


개인의 학습과 조직의 성과를 연결하는 인과관계가 복잡하다는 점 외에도, 이러한 경향은 대부분의 훈련이 조직 수준의 목표 달성과 직접적으로 연결되어 설계되지 않았음을 무시하게끔 하였다. 이 때문에 훈련의 가치나 영향이 크게 잘 못 계산되거나 훈련의 효과에 관한 타당한 자료를 거의 수집할 수 없게 된다. 또한 4단계 자료는 훈련에 관한 어떠한 prescriptive information도 주지 않는다. 이 단계의 평가는 훈련의 구조나 프로세스를 향상시킬 수 있는 formative data는 사실상 무시한다. 결국 ROI와 같은 4단계의 financial measure에 빠지는 것은 종종 self-serving하거나 관심을 훈련의 향상이 아닌 다른 것으로 돌리게 만든다. 또한 지속적이고 ongoing improvement를 할 수 있는 훈련시스템을 개발하는 조직의 능력을 손상시킨다.

Aside from the complex causal connections linking individual learning to organizational outcomes, the tendency has been to disregard the fact that most training is not designed to directly address organiz- ational level goals. This results in evaluations that provide relatively little valid data about training effects or which may grossly miscalculate and inflate the influence and value of training. In addition, level four data does not provide any kind of prescriptive information about training. Evaluations at this level virtually ignore formative data that could be used to improve training structures and process. In effect, a preoccupation with level four financial measures such as ROI is often self-serving and can divert attention from a focus on improving training. It also impairs the ability of organizations to develop training systems that are capable of continuous and ongoing improvement.



둘째로, 커크패트릭 모델에서 만들어진 평가자료는 훈련이 조직 수준에서의 성과의 변화를 이끌어냈다는 결론을 타당하게 보장해주지 않는다. 사실, 4단계 자료가 가장 유용하다는 가정은 misleading or inaccurate results 의 위험을 높이는데, 왜냐하면...

Second, the evaluation data generated by the Kirkpatrick model does not provide a reasonable warrant for validly making the conclusion that training causes changes in outcomes at the organizational level. In fact, the assumption that level four data is the most useful increases the risk of misleading or inaccurate results because

  • (a) training initiatives rarely directly target costs or other financial metrics at the organizational level;

  • (b) any number of factors can confound changes in financial and other performance measures at the organizational level; and

  • (c) most training efforts have little capacity to directly affect level four criteria.

 

예를 들어, 대부분의 훈련 프로그램은 하루나 이틀 정도로 짧고, 참가자들에게 제한적으로 영향을 미칠 뿐이다

For example, most training programs in organiz- ations are of short or modest duration (e.g. 1 or 2 days) and are meant to have only a limited impact on the participants involved.


'훈련'과 '조직의 성과'를 연결해주는 근거는 커크패트릭 모델을 통해서 발견하기에는 너무 약하다. 훈련 프로세스와 조직의 맥락은 너무 복잡하고 커크패트릭 모델은 논리적인 근거나 결론의 증거를 제시하기엔 지나치게 poorly specified 되어있다.

the evidentiary linkage from training to organizational results is likely to be too weak to be detected using the inferential chain provided by Kirkpatrick’s model. The training process and the organiz- ational context are just too complex and the causal linkages too poorly specified in Kirkpatrick’s model to provide reasonable evidence or proof of conclusions of this nature.



요약하자면, 훈련이 스킬 습득에만 책임이 있는지, 아니면 더 확장해서 조직의 생산성과 finanacial perfomance에도 영향이 있는지는 "지나치게 포괄적이고 부정확하다. 무수한 잠재적으로 중요한 개입 변수와 만일의 사태를 모두 무시한다" 

In short, the question of whether training is solely responsible for skill acquisition and, by extension, organizational productivity or financial perform- ance is “just too broad and imprecise; it neglects a myriad of potentially important intervening variables and contingen- cies” (Baldwin & Danielson, 2002, p. 27).


마지막으로, Michalski and Cousins 의 연구에 따르면, 고객이나 이해관계자는 훈련의 성과에 대한 관점이 모두 다르고 훈련 효과성 평가를 위해 무엇을 측정하는 것이 중요한지에 대한 의견도 다르다. 커크패트릭이 4단계 자료가 가장 유용하다고 가정한 것은 이러한 인식과 기대의 차이를 무시한 것이다.

Finally, recent research by Michalski and Cousins (2000) suggests that different clients and stakeholder groups in organizations have appreciably divergent views about training outcomes and what is important to measure in assessing training effectiveness. Kirkpatrick’s assumption that level four data are the most useful ignores the potential perceptual and expectation differences about training and training outcomes that may exist among key stakeholders groups (e.g. trainees, managers, trainers) in organizations.



 

3. 결론과 고찰

3. Discussion and conclusion


 

개선되고 발전된 훈련평가법을 활용하지 않는 것은 윤리적으로 문제이다. 예컨대 의학에서 질병을 예방하기 위한 방법이 새로 나왔을 때 그것을 통해 benefit을 제공하지 않는 것은 비도덕적이다.

Along these same lines, it is also important to note that the principle of beneficence suggests that training evaluators may be at ethical risk if they fail to take advantage of advances in training evaluation methods, models, and tools when the opportunity arises. This proactive dimension of beneficence is well established in other helping professions. For instance, in medicine when methods of preventing certain diseases were discovered, there was universal agreement that not taking positive steps to provide this benefit through preventive programs would be immoral.


훈련평가자들은 고객과 이해관계자들에게 더 유의미한 benefit을 줄 수 있도록 평가모델과 평가행위를 개선시킬 의무가 있다. 지난 십년간 새로운 것들이 개발되었다. 

This perspective suggests that training evaluators have an ethical obligation to improve their models and practice in ways that will enhance the capacity to more meaningfully benefit clients and stakeholders. Fortunately, research into training effectiveness over the last decade has generated new insights and has led to the development of more complete models of evaluation that have the potential to more effectively assess training outcomes and provide information needed to improve the training process (e.g. Holton, 1996).



For instance, recent research has led to

  • the development of instruments measuring key pre-training factors (Weinstein et al., 1994),

  • factors affecting learning transfer (Holton, Bates, & Ruona, 2000), and

  • other contextual factors influencing training effectiveness (e.g. Tracy et al., 1995).

  • Kraiger, Ford and Salas (1993) have forwarded a multidimensional model of learning outcomes from training and

  • have described a process training evaluators could use to developing learning evaluation measures (Kraiger & Jung, 1997).

  • Kraiger, Salas, and Cannon-Bowers (1995) developed and used a method for the assessment of an individual trainee’s domain-specific knowledge and skills.

  • Other researchers have provided tools for more accurately assessing the multi-dimensionality of participant reaction measures (Morgan & Casper, 2000) and

  • models for thinking more clearly about the multiple dimensions of job performance (Campbell, McHenry, & Wise, 1990; Cannon-Bowers & Salas, 1997).





A critical analysis of evaluation practice: the Kirkpatrick model and the principle of beneficence

  • Louisiana State University, Baton Rouge, LA, USA

Abstract

This chapter describes Kirkpatrick's four-level training evaluation model and the reasons for its popularity in organizations. Several fundamental limitations of the model are outlined and the potential risks these limitations raise for evaluation clients and stakeholders are discussed. It is argued that these risks, plus the inability of the model to effectively address both the summative question (Was training effective?) and the formative question (How can training be modified in ways that increase its potential for effectiveness?), limits the capacity of training and HRD professionals to fulfill the core ethical duty of beneficence.

Keywords

  • Kirkpatrick model
  • Training
  • Casual linkage
  • Training evaluationz


+ Recent posts