0 8과 동일한 유효성 계수가 고려됩니다. 측정 신뢰도 및 타당도

정신 진단 기술을 실제 목적으로 사용하기 전에 높은 품질과 효과를 입증하는 여러 공식 기준에 따라 테스트를 거쳐야 합니다. 정신 진단의 이러한 요구 사항은 테스트 및 개선 작업 과정에서 수년에 걸쳐 발전했습니다. 그 결과 진단기법이라고 주장하는 온갖 무식한 위조로부터 심리학을 보호할 수 있게 되었다.

신뢰성과 타당성은 정신 진단 기술을 평가하는 주요 기준 중 하나입니다. 외국 심리학자들은 이러한 개념의 발전에 큰 기여를 했습니다(A. Anastasi, E. Giselli, J. Guilford, L. Cronbach, R. Thorndike 및 E. Hagen 등). 그들은 공식-논리적 및 수학적-통계적 장치(우선 상관 방법 및 요인 분석)를 개발하여 언급된 기준에 대한 방법의 준수 정도를 입증했습니다.

정신 진단에서 기술의 신뢰성과 유효성의 문제는 밀접하게 연관되어 있지만, 그럼에도 불구하고 이러한 가장 중요한 특성을 별도로 제시하는 전통이 있습니다. 다음으로 기술의 신뢰성을 살펴보는 것으로 시작하겠습니다.

신뢰할 수 있음

전통적인 시험학에서 용어 "신뢰성"이라 함은 동일한 피험자의 초기 사용 및 반복 사용 시 시험 결과의 상대적인 불변성, 안정성, 일관성을 의미합니다. A. 아나스타시(A. Anastasi)가 [10, vol. 1] 에서 썼듯이 아이가 한 주의 시작에 110, 말에 80의 지표를 가졌다면 자신 있게 지능 검사와 관련짓기가 거의 불가능하다. 유사한 견적을 제공합니다. 동시에 결과 자체와 그룹 내 주제가 차지하는 서수(순위)가 어느 정도 일치할 수 있습니다. 두 경우 모두 경험을 반복할 때 약간의 불일치가 있을 수 있지만 동일한 그룹 내에서는 중요하지 않습니다. 따라서 기술의 신뢰성은 심리적 측정의 정확성을 나타내는 기준, 즉 얻은 결과가 얼마나 신뢰할 수 있는지 판단하는 기준이라고 말할 수 있습니다.

기술의 신뢰성 정도는 여러 가지 이유에 따라 다릅니다. 따라서 실제 진단의 중요한 문제는 측정의 정확도를 떨어뜨리는 요인을 명확히 하는 것입니다. 이러한 요인을 분류하려는 시도가 있었습니다. 그 중 다음이 가장 자주 명명됩니다.

1) 진단된 자산의 불안정성;

2) 진단 기술의 불완전성(지시 사항이 부주의하게 작성됨, 작업의 성격이 이질적임, 대상자에게 기술을 제시하는 방법에 대한 지침이 불분명함 등);

3) 조사의 변화하는 상황 (실험이 수행되는 하루 중 다른 시간, 방의 다른 조명, 외부 소음의 유무 등);

4) 실험자 행동의 차이(경험에서 실험에 이르기까지 다양한 방식으로 지침을 제시하고 다양한 방식으로 과제 수행을 자극함 등)

5) 피험자의 기능적 상태의 변동(한 실험에서는 건강이, 다른 실험에서는 피로 ​​등);

6) 결과를 평가하고 해석하는 방법에서 주관성의 요소(피험자의 응답을 기록할 때 응답은 완전성, 독창성 등의 정도에 따라 평가됨).

이러한 모든 요소를 ​​고려하고 각각의 측정 정확도를 감소시키는 조건을 제거하려고 시도하면 허용 가능한 수준의 테스트 신뢰성을 얻을 수 있습니다. 정신 진단 방법의 신뢰성을 높이는 가장 중요한 수단 중 하나는 검사 절차의 균일성, 엄격한 규정입니다. 조사 대상 표본에 대해 동일한 환경 및 작업 조건, 동일한 유형의 지침, 모든 사람에 대한 동일한 시간 제한 , 피험자와의 접촉 방법 및 특징, 과제 제시 순서 등 연구 절차의 표준화로 외부 무작위 요인이 테스트 결과에 미치는 영향을 크게 줄여 신뢰성을 높일 수 있습니다.

연구된 표본은 방법의 신뢰도 특성에 큰 영향을 미칩니다. 이 지표를 줄이거나 과대평가할 수 있습니다. 예를 들어 표본에 결과가 약간 분산되어 있는 경우, 즉 결과가 값 측면에서 서로 가까울 경우 신뢰도가 인위적으로 과대평가될 수 있습니다. 이 경우 재검사 시 새 결과도 가까운 그룹에 배치됩니다. 피험자 순위의 변경 가능성은 미미하므로 방법의 신뢰도가 높을 것입니다. 매우 높은 점수를 가진 그룹과 매우 낮은 테스트 점수를 가진 그룹으로 구성된 표본의 결과를 분석할 때도 신뢰성에 대한 정당하지 않은 과대평가가 발생할 수 있습니다. 그러면 무작위 요인이 실험 조건을 방해하더라도 이러한 멀리 제거된 결과가 겹치지 않습니다. 따라서 매뉴얼은 일반적으로 방법의 신뢰성이 결정된 샘플을 설명합니다.

현재 가장 균질한 샘플, 즉 성별, 연령, 교육 수준, 전문 교육 등이 유사한 샘플에서 신뢰도가 점점 더 결정되고 있습니다. 이러한 각 샘플에 대해 자체 신뢰도 계수가 제공됩니다. 주어진 신뢰도 지표는 그것이 결정된 그룹과 유사한 그룹에만 적용 가능합니다. 신뢰성이 테스트된 것과 다른 샘플에 기술을 적용하는 경우 이 절차를 반복해야 합니다.

신뢰도는 독립적으로 얻은 두 개의 지표 시리즈의 일관성 정도를 반영하므로 방법의 신뢰도를 설정하는 수학적 및 통계적 기술은 다음과 같습니다. 상관 관계(Pearson 또는 Spearman에 따르면). 얻어진 상관계수가 1에 가까울수록 신뢰도가 높아집니다.

이 책에서는 신뢰성의 유형을 설명할 때 K.M.의 작업에 중점을 둡니다.

♦ 측정 도구 자체의 신뢰성;

♦ 연구된 형질의 안정성;

♦ 불변성, 즉 실험자의 성격에 따른 결과의 상대적 독립성.

그는 주요 지표를 다음과 같이 지정할 것을 제안했습니다.

♦ 측정 도구를 특성화하는 지표는 신뢰성 요인;

♦ 측정된 특성의 안정성을 나타내는 지표 - 안정성 계수;

♦ 실험자의 성격 영향을 평가하는 지표 - 상수 계수.

이 순서대로 방법의 신뢰성을 확인하는 것이 좋습니다. 먼저 측정 기기를 확인하는 것이 좋습니다. 얻은 데이터가 만족스러우면 측정된 속성의 안정성 측정을 설정하고 필요한 경우 그 후에야 불변성 기준을 다룰 수 있습니다.

다양한 측면에서 정신 진단 기술의 신뢰성을 특징 짓는 이러한 지표에 대한보다 자세한 조사에 대해 살펴 보겠습니다.

측정 도구의 신뢰성 결정.모든 심리적 측정의 정확성, 객관성은 방법론이 구성되는 방식, 상호 일관성의 관점에서 작업이 얼마나 정확하게 선택되는지, 얼마나 균질한지에 달려 있습니다. 방법론의 내부 동질성은 그 작업이 하나의 동일한 속성, 기호를 실현한다는 것을 보여줍니다.

균질성(또는 균질성)을 말하는 측정기의 신뢰성을 확인하기 위해 소위 "분할" 방법이 사용됩니다. 일반적으로 작업은 짝수와 홀수로 나누어 별도로 처리한 다음 얻은 두 시리즈의 결과를 서로 연관시킵니다. 이 방법을 사용하려면 모든 작업을 해결(또는 해결하려고 시도)할 수 있도록 주제를 이러한 조건에 배치해야 합니다. 방법론이 균질하다면 그러한 절반에 대한 솔루션의 성공에는 큰 차이가 없으므로 상관 계수가 상당히 높을 것입니다.

다른 방법으로 작업을 나눌 수 있습니다. 예를 들어, 테스트의 전반부를 두 번째와, 첫 번째와 세 번째 분기를 두 번째와 네 번째와 비교할 수 있습니다. 그러나 이 방법이 짝수 및 홀수 작업으로 "분할"하는 것이 가장 적절한 것 같습니다. 작업성, 훈련, 피로 등과 같은 요인의 영향과 가장 독립적입니다.

이 방법은 얻어진 계수가 0.75-0.85 이상일 때 신뢰할 수 있는 것으로 인식됩니다. 신뢰도 테스트 측면에서 최고는 0.90 이상의 계수를 제공합니다.

연구 된 특성의 안정성 결정.기술 자체의 신뢰성을 결정한다고 해서 해당 응용 프로그램과 관련된 모든 문제를 해결하는 것은 아닙니다. 또한 연구자가 측정하고자 하는 형질이 얼마나 안정적이고 안정적인지를 확립하는 것이 필요하다. 심리적 특성의 절대적인 안정성에 의존하는 것은 방법론적 실수일 것입니다. 측정된 특성이 시간이 지남에 따라 변한다는 사실에서 신뢰성에 위험한 것은 없습니다. 요점은 동일한 주제에 대한 실험마다 결과가 달라지는 한계가 있다는 것입니다. 이러한 변동으로 인해 어떤 알 수 없는 이유로 주제가 이제 시작, 이제 중간, 이제 끝이라는 사실로 이어지지 않습니까? 샘플 끝. 그러한 주제에서 측정된 특성의 표현 수준에 대해 구체적인 결론을 도출하는 것은 불가능합니다. 따라서 기능의 변동을 예측할 수 없어야 합니다. 급격한 변동의 이유가 명확하지 않으면 그러한 징후를 진단 목적으로 사용할 수 없습니다.

진단된 특성, 속성의 안정성을 확인하기 위해 다음과 같은 기술이 사용됩니다. 시험 재시험.동일한 기법을 사용하여 주제를 재검토하는 것으로 구성됩니다. 형질의 안정성은 1차 조사와 2차 조사 결과의 상관계수로 판단한다. 그것은 표본에 있는 일련번호의 각 주체에 의한 보존 또는 비보존을 증언할 것이다.

안정성의 정도, 진단된 속성의 안정성은 다양한 요인에 의해 영향을 받습니다. 그들의 수는 상당히 많습니다. 우리는 이미 실험 절차의 균일성에 대한 요구 사항을 준수하는 것이 얼마나 중요한지 언급했습니다. 예를 들어, 첫 번째 테스트가 아침에 수행된 경우 두 번째 테스트는 아침에 수행되어야 합니다. 첫 번째 실험에 할당의 예비 표시가 동반된 경우 이 조건은 재시험 중에도 충족되어야 하는 식입니다.

형질의 안정성을 결정할 때 1차 조사와 2차 조사 사이의 시간 간격이 매우 중요합니다. 첫 번째 검사에서 두 번째 검사까지의 기간이 짧을수록(다른 조건은 동일) 진단된 증상이 첫 번째 검사의 수준을 유지할 확률이 높아집니다. 시간 간격이 증가함에 따라 특성에 영향을 미치는 외부 요인의 수가 증가하기 때문에 특성의 안정성이 감소하는 경향이 있습니다. 따라서 결론은 첫 번째 직후에 다시 테스트하는 것이 좋습니다. 그러나 여기에는 몇 가지 어려움이 있습니다. 첫 번째와 두 번째 실험 사이의 기간이 짧으면 일부 피험자가 기억에서 이전 답변을 재현할 수 있으므로 과제를 완료한다는 의미에서 멀어질 수 있습니다. 이 경우 두 가지 기술 프레젠테이션의 결과가 더 이상 독립적인 것으로 간주될 수 없습니다.

반복 실험에 최적이라고 할 수 있는 기간이 얼마인지에 대해서는 명확한 답변을 드리기 어렵습니다. 방법론의 심리적 본질, 수행 조건, 피험자 샘플의 특성에서 진행하는 연구원 만이이 기간을 결정해야합니다. 더욱이 그러한 선택은 과학적으로 입증되어야 합니다. 시험 문헌에서는 몇 개월(6개월 이하)의 시간 간격이 가장 자주 호출됩니다. 어린 아이들을 검사할 때 연령 관련 변화와 발달이 매우 빠르게 발생하는 경우 이러한 간격은 몇 주 정도일 수 있습니다.

방법의 안정성 계수는 ​​충분히 높아야 합니다(0.80 이상).

불변성의 정의(실험자의 성격에 따른 결과의 상대적 독립성). 진단 목적으로 개발된 기술은 제작자의 손에 영원히 남을 의도가 아니므로 결과가 실험자의 성격에 어느 정도 영향을 받는지 알아야 합니다. 진단기법은 항상 상세한 사용법, 규칙, 실험방법 등을 제공하고 있지만, 실험자의 행동, 말의 속도, 어조, 멈춤, 표정 등을 조절하는 것은 매우 어렵다. 경험에 대한 그의 태도의 주제는 항상 실험자 자신이 이 경험과 어떻게 관련되는지 반영할 것입니다(과실을 인정하거나 절차의 요구 사항에 따라 정확히 행동하고, 엄격함, 인내 또는 통제 부족을 보여줌 등).

테스트 론적 실습에서 불변성 기준은 거의 사용되지 않지만 이것이 과소 평가의 근거가 될 수는 없습니다. 방법의 저자가 진단 절차의 결과에 대한 실험자의 성격의 가능한 영향에 대해 의심이 있는 경우 이 기준에 따라 방법을 확인하는 것이 좋습니다. 다음 사항을 염두에 두는 것이 중요합니다. 새로운 실험자의 영향으로 동일한 정도의 모든 피험자가 조금 더 낫거나 조금 더 나빠지기 시작했다면 이 사실 자체(주의를 기울일 만한 가치가 있음에도 불구하고)는 방법의 신뢰성에 영향을 미치지 않을 것입니다. 신뢰도는 실험자가 피험자에 미치는 영향이 다를 때에만 변경됩니다. 일부는 더 잘 작동하기 시작했고, 다른 일부는 더 나빴고, 다른 일부는 첫 번째 실험자와 동일한 방식으로 작동했습니다. 즉, 새로운 실험자와 함께 피험자가 표본에서 서수 위치를 변경한 경우입니다.

불변성 계수는 ​​동일한 피험자 샘플에 대해 비교적 동일한 조건에서 다른 실험자가 수행한 두 실험의 결과를 상호 연관시켜 결정됩니다. 상관 계수는 0.80보다 낮아서는 안됩니다.

따라서 정신 진단 기술의 신뢰성에 대한 세 가지 지표가 고려되었습니다. 메소드를 생성할 때 각각을 확인해야 합니까? 이 질문은 긍정적으로 대답해야 합니다.

따라서 "신뢰성" 장의 "교육 및 심리 테스트에 대한 표준 요구 사항"의 저자는 신뢰성 계수가 여러 유형을 포함하는 일반적인 개념이며 각 유형마다 고유한 의미가 있음에 주목합니다. KM Gurevich는 이러한 관점을 공유합니다. 그의 견해로는 그들이 신뢰성을 결정하는 다양한 방법에 대해 이야기할 때 그들은 더 좋거나 더 나쁜 척도가 아니라 본질적으로 다른 신뢰성의 척도를 다루고 있습니다. 과연 그 자체가 측정기로서 신뢰성이 있는 것인지, 측정된 성질의 안정성이 확립되어 있지 않은 것인지 불분명하다면 그 기술이 무슨 가치가 있겠는가? 누가 실험을 하느냐에 따라 결과가 달라질 수 있는지 알 수 없다면 진단기법의 비용은 얼마인가? 각 개별 지표는 다른 검증 방법을 어떤 식으로든 대체하지 않으므로 신뢰성의 필요하고 충분한 특성으로 간주될 수 없습니다. 완전한 신뢰성 특성을 가진 기술만이 진단 및 실제 적용에 가장 적합합니다.

타당성

신뢰성 다음으로 방법의 품질을 평가하는 또 다른 핵심 기준은 유효성입니다. 신뢰할 수 없는 방법은 유효할 수 없기 때문에 방법의 유효성에 대한 질문은 충분한 신뢰성이 확립된 후에만 결정됩니다. 그러나 그 타당성을 모른 채 가장 신뢰할 수 있는 기술은 사실상 무용지물이다.

최근까지 타당성 문제가 가장 어려운 문제 중 하나인 것 같습니다. 이 개념에 대한 가장 뿌리 깊은 정의는 A. Anastasi의 책에서 제공한 것입니다. "테스트의 유효성은 테스트가 무엇을 측정하고 테스트를 얼마나 잘 수행하는지 알려주는 개념입니다."

유효성은 본질적으로 한편으로는 기술이 만들어진 목적을 측정하는 데 적합한지, 다른 한편으로는 그 효과, 효율성, 실용적인 유용성에 대한 정보를 포함하는 복잡한 특성입니다.

이러한 이유로 유효성을 결정하는 단일한 보편적인 접근 방식은 없습니다. 연구자가 고려하고자 하는 타당성의 측면에 따라 다양한 증명 방법이 사용됩니다. 즉, 유효성의 개념에는 고유한 의미가 있는 다양한 유형이 포함됩니다. 기술의 유효성을 확인하는 것을 유효성 검사라고 합니다.

첫 번째 의미의 유효성은 방법 자체와 관련이 있습니다. 즉, 측정 도구의 유효성입니다. 이 검사는 이론적 검증.두 번째 의미의 유효성은 이미 기술이 아니라 사용 목적을 나타냅니다. 이것은 실용적인 검증입니다.

요약하면 다음과 같이 말할 수 있습니다.

♦ 이론적 검증에서 연구자는 방법으로 측정된 속성 자체에 관심이 있습니다. 이것은 본질적으로 실제 심리적 검증이 수행되고 있음을 의미합니다.

♦ 실용적인 검증을 통해 측정 대상(심리적 속성)의 본질이 보이지 않습니다. 주요 강조점은 방법론에 의해 측정된 것이 특정 실천 영역과 관련이 있음을 증명하는 것입니다.

지휘하다 이론적 검증, 실용주의와 달리 때로는 훨씬 더 어려운 것으로 판명됩니다. 아직 구체적인 세부 사항에 들어가지 않고 실용적인 타당성을 확인하는 방법에 대해 일반적인 용어로 설명하겠습니다. 특정 활동(교육적, 전문적 등)의 성공을 결정하는 방법론과 무관한 외부 기준이 선택되고 그 결과와 함께 진단 기술을 비교합니다. 그들 사이의 연결이 만족스러운 것으로 인식되면 진단 기술의 실질적인 중요성, 효율성, 효과에 대한 결론이 내려집니다.

이론적 타당성을 결정하기 위해 방법론 외부에 있는 독립적인 기준을 찾는 것이 훨씬 더 어렵습니다. 따라서 타당도의 개념이 막 형성되고 있던 시험학 발전의 초기 단계에서 시험은 다음을 측정한다는 직관적인 생각이 있었습니다.

1) 측정하는 것이 간단하기 때문에 메서드가 유효하다고 불렸습니다.

2) 타당성 증명은 자신의 방법이 주제를 이해할 수 있다는 연구원의 확신을 기반으로 합니다.

3) 그 기술이 구축된 기초 이론이 매우 우수하기 때문에 그 기술이 유효한 것으로 간주되었습니다(즉, 이러한 테스트가 이러한 품질을 측정한다는 진술이 수용됨).

방법론의 유효성에 대한 근거 없는 진술을 수용하는 것은 오래 지속되지 않습니다. 진정한 과학적 비판의 첫 번째 표현은 이러한 접근 방식을 폭로했습니다. 과학적 근거에 대한 검색이 시작되었습니다.

따라서 방법의 이론적 검증은 기술이 연구자의 의도에 따라 측정해야 하는 속성, 품질을 정확히 측정한다는 것을 증명합니다.

따라서 예를 들어 테스트가 어린이의 정신 발달을 진단하기 위해 개발된 경우 다른 특성(예: 성격, 성격 등)이 아닌 이 발달을 실제로 측정하는지 분석해야 합니다. 따라서 이론적 검증을 위해 근본적인 문제는 이러한 심리적 현상이 인식하려고 하는 심리적 현상과 그 지표 간의 관계입니다. 이는 저자의 의도와 방법론의 결과가 얼마나 일치하는지를 보여준다.

이 속성을 측정하는 유효성이 입증된 방법이 이미 있는 경우 새로운 방법을 이론적으로 검증하는 것은 그리 어렵지 않습니다. 새로운 방법론과 이미 입증된 유사한 방법론 사이에 상관 관계가 있다는 것은 개발된 방법론이 참조 방법과 동일한 심리적 품질을 측정한다는 것을 나타냅니다. 그리고 새로운 방법이 결과를 수행하고 처리하는 데 있어 동시에 보다 컴팩트하고 경제적인 것으로 판명되면 정신 진단은 이전 도구 대신 새 도구를 사용할 기회를 얻습니다.

그러나 이론적 타당성은 관련 지표들과의 비교뿐만 아니라 가설에 근거하여 유의미한 연관성이 없어야 하는 지표들과의 비교를 통해서도 입증됩니다. 따라서 이론적 타당성을 확인하기 위해서는 한편으로는 관련 방법론과의 연결 정도를 설정하는 것이 중요하다. (수렴타당도)다른 이론적 근거를 가진 기술과의 이러한 연결 부족 (판별 유효성).

그러한 검증 방법이 불가능할 때 방법의 이론적 검증을 수행하는 것은 훨씬 더 어렵습니다. 이것은 연구자가 가장 자주 직면하는 상황입니다. 이러한 상황에서 연구 된 속성에 대한 다양한 정보의 점진적인 축적, 이론적 전제 및 실험 데이터 분석, 기술에 대한 상당한 경험만으로도 심리적 의미를 밝힐 수 있습니다.

지표를 실제 활동 형태와 비교하여 방법론 측정이 수행되는 것을 이해하는 데 중요한 역할. 그러나 여기서 방법론이 이론적 용어로 철저하게 해결되는 것, 즉 견고하고 입증된 과학적 기반이 있다는 것이 특히 중요합니다. 그런 다음 방법론을 일상 생활에서 가져온 외부 기준과 비교할 때 측정 대상에 따라 본질에 대한 이론적 아이디어를 뒷받침하는 정보를 얻을 수 있습니다.

이론적 타당성이 입증되면 얻은 지표의 해석이 더 명확하고 모호하지 않으며 방법의 이름이 적용 범위에 해당한다는 것을 기억하는 것이 중요합니다. 에 관하여 실용적인 검증,다음의 관점에서 방법론을 점검하는 것을 의미한다. 실용적인 효율성, 중요성, 유용성,측정 된 속성이 특정 생활 상황, 특정 유형의 활동에서 나타나는 것으로 입증 된 경우에만 진단 기술을 사용하는 것이 합리적이기 때문입니다. 그들은 특히 선택의 문제가 발생하는 경우 그것을 매우 중요하게 생각합니다.

시험학 발전의 역사로 다시 돌아가면 시험의 과학적 내용과 이론적 수하물이 덜 관심이 있었던 그러한 기간 (XX 세기의 20-30 대)을 구별 할 수 있습니다. 가장 준비된 사람들을 신속하게 선택하는 데 도움이 되도록 테스트가 작동하는 것이 중요했습니다. 시험 항목을 평가하는 경험적 기준은 과학 및 응용 문제를 해결하는 유일한 올바른 지침으로 간주되었습니다.

명확한 이론적 근거 없이 순전히 경험적 정당성을 가진 진단 기술을 사용하면 종종 사이비 과학적 결론, 정당하지 않은 실제 권장 사항으로 이어집니다. 테스트에서 드러난 특성, 특성을 정확히 언급하는 것은 불가능했습니다. 그들은 본질적으로 블라인드 테스트였습니다.

테스트 타당성 문제에 대한 이러한 접근 방식은 1950년대 초반까지 특징적이었습니다. XX 세기. 미국뿐만 아니라 다른 나라에서도요. 검증에 대한 경험적 방법의 이론적 약점은 테스트를 개발할 때 단순한 경험주의와 실천뿐만 아니라 이론적 개념에 의존할 것을 요구한 과학자들로부터 비판을 받을 수밖에 없었습니다. 이론 없는 실천은 맹목이며, 실천 없는 이론은 죽은 것이다. 현재로서는 방법의 타당성에 대한 이론적이고 실제적인 평가가 가장 생산적인 것으로 인식되고 있습니다.

독립 외부 기준- 일상 생활에서 연구 된 속성의 표현 지표. 이러한 기준은 학업 성취도(학습 능력 테스트, 성취도 테스트, 지능 테스트용) 및 생산 성취도(전문적인 오리엔테이션 방법용) 및 실제 활동의 효율성(그림, 모델링 등)(테스트용)이 될 수 있습니다. 특수 능력), 주관적 평가(인격 테스트용).

미국 연구원 D. Tiffin과 E. McCormick은 유효성을 입증하기 위해 사용된 외부 기준을 분석한 후 그 유형을 4가지 유형으로 구분합니다[각각 31개).

1) 성과 기준(수행한 작업량, 학업 성과, 훈련에 소요된 시간, 자격 성장률 등을 포함할 수 있음)

2) 주관적 기준(어떤 대상이나 누군가에 대한 개인의 태도, 의견, 견해, 선호도를 반영하는 다양한 유형의 답변을 포함합니다. 일반적으로 주관적 기준은 인터뷰, 설문지, 설문지를 통해 얻음);

3) 생리학적 기준(환경 및 기타 상황적 변수가 인체 및 정신에 미치는 영향을 연구하는 데 사용되며 맥박, 혈압, 피부의 전기 저항, 피로 증상 등을 측정함);

4) 사고 기준(연구 목적이 사고에 덜 민감한 사람을 작업에 선택하는 문제와 관련된 경우 적용됨).

외부 기준은 세 가지 기본 요구 사항을 충족해야 합니다.

♦ 관련성이 있어야 합니다.

♦ 간섭이 없습니다.

♦ 신뢰할 수 있습니다.

아래에 관련성진단 도구와 독립적인 필수 기준의 의미적 일치를 의미합니다. 다시 말해서, 진단 방법에 의해 측정되는 개인 정신의 특징이 기준에 정확히 관련되어 있다는 확신이 있어야 합니다. 외부 기준과 진단 기술은 내부 의미 론적으로 서로 일치해야하며 심리적 본질에서 질적으로 균질해야합니다. 예를 들어 테스트가 사고의 개별 특성, 특정 대상, 개념으로 논리적 행동을 수행하는 능력을 측정하는 경우 기준에서 이러한 기술의 표현을 정확하게 찾아야합니다. 이것은 전문적인 활동에도 동일하게 적용됩니다. 그것은 하나가 아니라 몇 가지 목표, 작업을 가지고 있으며, 각각은 구체적이며 구현을 위한 자체 조건을 제시합니다. 이것은 전문 활동의 수행에 대한 몇 가지 기준이 있음을 의미합니다. 따라서 진단 기술의 성공을 일반적으로 생산 효율성과 비교할 필요가 없습니다. 수행되는 작업의 특성에 따라 방법론과 상관관계가 있는 기준을 찾는 것이 필요합니다.

측정 된 속성과 관련이 있는지 여부가 외부 기준과 관련하여 알려지지 않은 경우 정신 진단 기술의 결과를 그것과 비교하는 것은 실질적으로 쓸모가 없습니다. 방법의 타당성을 평가할 수 있는 결론에 도달하는 것을 허용하지 않습니다.

요구 사항 간섭으로부터의 자유예를 들어, 교육적 또는 산업적 성공은 두 가지 변수에 달려 있다는 사실에 기인합니다. 즉, 개인 자신, 방법으로 측정한 개인의 특성, 그리고 장애를 유발할 수 있는 상황, 학습 조건, 작업 조건, "오염 "를 적용한 기준입니다. 이를 어느 정도 피하기 위해서는 거의 동일한 조건에 있는 사람들의 그룹을 연구를 위해 선택하는 것이 필요합니다. 다른 방법을 사용할 수 있습니다. 간섭의 영향을 수정하는 것으로 구성됩니다. 이 조정은 일반적으로 본질적으로 통계적입니다. 예를 들어, 생산성은 절대적인 용어가 아니라 유사한 조건에서 일하는 근로자의 평균 생산성과 관련하여 취해야 합니다.

기준이 통계적으로 유의해야 한다고 말할 때 신뢰할 수 있음,이는 연구 중인 기능의 불변성과 안정성을 반영해야 함을 의미합니다.

적절하고 쉽게 식별할 수 있는 기준을 찾는 것은 검증의 매우 중요하고 어려운 작업입니다. 서양의 시험학에서는 많은 방법들이 시험에 적합한 기준을 찾지 못해서 부적격 판정을 받습니다. 예를 들어, 대부분의 설문지의 경우 측정 대상에 해당하는 적절한 외부 기준을 찾기가 어렵기 때문에 유효성에 대한 데이터가 의심스럽습니다.

방법의 타당성에 대한 평가는 본질적으로 양적 및 질적일 수 있습니다.

계산하려면 정량적지표 - 유효성 계수 - 진단 방법을 사용할 때 얻은 결과를 동일한 사람의 외부 기준에 따라 얻은 데이터와 비교합니다. 다양한 유형의 선형 상관 관계가 사용됩니다(Spearman에 따르면, Pearson에 따르면).

타당도를 계산하기 위해 얼마나 많은 과목이 필요합니까?

실습에 따르면 50개 이상이어야 하지만 200개 이상이 가장 좋습니다. 타당성 계수가 허용 가능한 것으로 간주되려면 유효성 계수의 값이 얼마여야 하는 지에 대한 질문이 자주 발생합니다. 일반적으로 타당성 계수가 통계적으로 유의하면 충분하다는 점에 유의하십시오. 0.20~0.30 정도의 유효성 계수는 ​​낮음, 0.30~0.50은 중간, 0.60 이상은 높음으로 인식됩니다.

그러나 A. Anastasi, K.M. Gurevich 등이 강조한 것처럼 유효성 계수를 계산하기 위해 선형 상관을 사용하는 것이 항상 적절한 것은 아닙니다. 이 기술은 일부 활동의 성공이 진단 테스트 수행의 성공에 정비례한다는 것이 입증된 경우에만 정당화됩니다. 외국 테스터, 특히 전문적 적합성과 전문 선택에 종사하는 테스터의 위치는 대부분 테스트에서 더 많은 작업을 완료한 사람이 해당 직업에 더 적합하다는 무조건적인 인식으로 귀결됩니다. 그러나 성공적인 활동을 위해서는 테스트 솔루션의 40% 수준에 속성이 있어야 할 수도 있습니다. 테스트에서 더 이상 성공하는 것은 더 이상 직업에 의미가 없습니다. K.M. Gurevich의 논문에서 실례가 됩니다. 우편 배달부는 읽을 수 있어야 하지만 정상 속도로 읽든 매우 빠른 속도로 읽든 더 이상 전문적인 의미가 없습니다. 방법론의 지표와 외부 기준의 이러한 비율로 인해 차이의 기준이 타당성을 확립하는 가장 적절한 방법이 될 수 있습니다.

다른 경우도 가능합니다. 직업이 요구하는 것보다 높은 수준의 품질은 직업적 성공을 방해합니다. 따라서 XX 세기의 새벽에도. 미국 연구원 F. Taylor는 생산 분야에서 가장 발달된 노동자의 노동 생산성이 낮다는 것을 발견했습니다. 즉, 정신적 발달 수준이 높기 때문에 생산성이 높은 작업을 수행할 수 없습니다. 이 경우 타당성 계수를 계산하기 위해서는 분산 분석이나 상관비 계산이 더 적합할 것이다.

외국 검사의 경험에서 알 수 있듯이 통계적 절차는 개별 평가의 다양성을 완전히 반영할 수 없습니다. 따라서 임상 평가와 같은 방법의 유효성을 입증하기 위해 다른 모델이 종종 사용됩니다. 이것은 아무것도 아니지만 품질연구 된 재산의 본질에 대한 설명. 이 경우 통계 처리에 기반하지 않은 기술의 사용에 대해 이야기하고 있습니다.

질문 및 작업

1. "기술의 표준화" 개념에 대한 정의를 내리십시오.

2. 대표 샘플이란? 어떻게 만들어졌나요?

3. 이 장에 제공된 진단 테스트 결과를 평가하기 위한 기준의 이름을 지정하십시오.

4. 기술의 신뢰성은 무엇입니까? 신뢰성의 유형은 무엇입니까?

5. 방법의 유효성은 무엇입니까? 주요 유형은 무엇입니까?

1. 아나스타지 A.심리 테스트: 2권. / 에드. K. M. Gurevich, V. I. Lubovsky. 책. 1.-M., 1982.

2. 벌라척 L.F.정신 진단. - SPb., 2003.

3. Burlachuk L.F., Morozov S.M.심리 진단에 대한 사전 참조 도서. - 1989년 키예프.

4. Gaida V.K., Zakharov V.P.심리 테스트. - 엘., 1982.

5. 구레비치 K.M.정신 생리 학적 지표의 신뢰성 // 차별적 정신 생리학 문제. T. 6. - M., 1969.

6. 구레비치 K.M.심리 테스트의 신뢰성 // 심리 진단. 그녀의 문제와 방법. - 엠., 1975.

7. 구레비치 K.M.통계 - 심리 진단을 증명하는 장치 // 심리 진단의 문제. - 탈린, 1977.

8. 구레비치 K.M.심리 진단이란 무엇입니까? - 엠., 1985.

9. 구레비치 K.M.미분 심리학 문제. - 미디엄 .; 보로네시, 1998.

10. 노스 I.N.정신 진단 기술 소개. - 엠., 2003.

11. 일반 정신 진단 / Ed. A. A. 보달레바, V. V. 스톨린. - 엠., 1987.

12. 정신 진단의 기초 / Ed. A.G. 슈멜레바. - 로스토프 n / a, 1996.


2부

진단

인지

구체

개별 지표, 요약 지표(지표) 및 척도의 품질은 신뢰성과 유효성에 따라 결정됩니다.

측정 신뢰성은 안정성 및 재현성과 관련이 있습니다.지표는 얻은 추정치가 주어진 측정 대상 세트에서 재현될 수 있는 정도까지 신뢰할 수 있는 것으로 간주될 수 있습니다. 신뢰성의 주요 유형은 신뢰성-반복성(또는 통시성, 재시험 신뢰도).재검사 신뢰도 평가는 다른 시점에서 동일한 사례(응답자) 샘플에 대해 동일한 지표(질문, 검사)를 반복적으로 적용한 결과를 반영합니다. 사람들이 첫 번째, 두 번째 및 후속 경우에 동일한 방식으로 질문에 대답하면 이 질문은 신뢰할 수 있습니다. 같은 그룹의 고등학생을 대상으로 지능 검사를 다시 했을 때 같은 결과가 나온다면 믿을 만한 검사입니다.

측정 기기의 신뢰성은 정확성이나 정확성을 반영하지 않는다는 점에 유의하는 것이 중요합니다. 예를 들어, 소득에 대한 질문에 대한 응답자가 동일한 답변을 두 번 제공하고 약 100% 과대평가된 경우 우리는 절대적으로 신뢰할 수 있지만 부정확한 지표를 다루고 있습니다. 또 다른 경우에 완벽한 신뢰성을 가진 온도계가 피부의 전기 저항을 나타낸다면 측정의 정확성과 적절성에 대해 말할 이유가 없습니다. 신뢰도-반복성 점수는 반복 측정 간의 상관 관계입니다.단일 지표 질문의 경우 1차 조사에서 받은 동일한 집단의 응답과 2주 또는 1개월 후에 주어진 응답을 단순히 비교하고 상관계수를 계산하면 충분하다(제8장 참조). 실제로 좋은 상관관계는 0.8 이상입니다.



신뢰성-반복성 평가의 단점은 첫째, 사회학에서 일반적인 대규모 샘플에 대한 반복 측정의 복잡성에 기인해야 합니다. 둘째, 변수의 진정한 가치는 시간이 지남에 따라 변할 수도 있습니다. 예를 들어 정치적인 동정심은 일부 스캔들 폭로의 결과로 일주일 만에 변할 수 있고 급여는 컨텍스트에서 의무 색인의 도입으로 인해 한 달에 크게 증가할 수 있습니다. 인플레이션의. 후자의 경우, 연구자는 지표의 신뢰성과 관련된 변동에서 변수의 실제 값의 변화로 인한 변동을 분리하는 난해한 작업에 직면하게 됩니다. 따라서 다른 유형의 신뢰성이 매우 중요합니다. 신뢰성 일관성.신뢰성-일관성은 동일한 변수가 다음을 사용하여 측정되는 경우에만 평가될 수 있습니다. 많은 지표.그러나 그러한 평가를 위해서는 단일 측정으로 충분합니다. 예를 들어, 심리 테스트는 하나의 능력 또는 하나의 성격 특성을 측정하기 위한 일련의 테스트를 사용합니다. 사회학자는 충분한 자금과 기술적 능력이 있는 경우 여러 개별 지표 질문으로 구성된 지수와 척도를 사용합니다.

신뢰성-일관성을 평가하는 가장 간단한 방법은 "반감"입니다.예를 들어 정치 활동을 측정하는 것으로 추정되는 12개의 질문이 있고 각 질문에 1점이 할당되고 최대 정치 활동이 총 12점에 해당하는 경우 다음 절차가 적용됩니다.

1. 질문은 무작위로 2개의 동일한 목록(각 6개 질문)으로 나뉘고 한 그룹의 주제에 한 번 제시됩니다.

2. 다음 계산 테스트의 다른 "반쪽"에 대한 동일한 주제의 결과 간의 상관 계수:값이 높을수록 주어진 지표 세트를 사용하여 얻은 정치 활동의 실제 가치에 대한 추정치의 일관성이 높아집니다. 그러나 이러한 방식으로 얻은 신뢰도 추정치는 "반으로 나누기" 방법에 매우 민감할 수 있습니다. 두 목록을 컴파일하는 방법에 따라 상관 계수가 눈에 띄게 변경됩니다.

개별 질문(문, 척도 항목)의 신뢰도를 평가하는 또 다른 기본 절차는 다음과 같습니다. 이것은 총점과의 상관관계를 확인하는 것입니다.즉, 총 인덱스 값입니다. 이 응답자 그룹에 대해 해외 여행 빈도에 대한 별도의 질문과 총 "외국인 혐오 지수" 사이의 상관 계수가 0.3이면 이 질문이 변수 "수준"의 실제 값을 반영하지 않는다고 가정할 수 있습니다. 외국인혐오증'을 포함하며 설문에서 제외될 수 있습니다. 결국 엄격하게 정의된 신뢰도는 측정된 변수의 실제 산포와 관련된 추정치의 측정된 산포 비율(아직 필요한 통계적 개념을 논의하지 않았기 때문에 여기서는 덜 엄격하고 의미 있는 정의를 사용합니다.) 분명히, 총점과의 상관관계는 상당히 단순한 구조를 가진 요약된 지수와 척도에 적용할 수 있는 절차입니다(이 장의 뒷부분에서 예제를 찾을 수 있습니다).

어떤 경우든 명시적으로 명시하는 것이 중요합니다. 측정 모델이론적 변수는 개별 지표 간의 예상 관계가 무엇이며 설명된 신뢰성 평가의 간단한 방법이 얼마나 적용 가능한지를 예측할 수 있기 때문입니다. 이를 확신하기 위해서는 잠재변수의 효과지표 세트가 있는 모델과 인과관계 지표만 포함하는 모델을 비교하는 것으로 충분합니다. (그림 3 참조그리고 4). 분명히 효과 지표는 측정하려는 잠재 속성 변수 및 서로 간에 매우 일관성이 있어야 합니다. 그러나 이것은 인과 지표의 경우 그렇게 분명하지 않습니다. 예를 들어 교육과 소득은 모두 "사회경제적 지위" 개념의 중요한 구성 요소입니다. 그러나 교육이 성장하더라도 소득은 마음대로 행동할 권리가 있다. 즉, 교육과 반드시 ​​높은 상관관계를 보여서는 안 된다. 즉, 신뢰할 수 있는 효과지표("반으로 나누는 방법" 또는 총점과의 상관관계를 사용하는 경우)에서 서로 높은 상관관계를 기대해야 하는 경우 인과지표에 대해 이러한 간단한 신뢰성 평가 접근 방식은 적용할 수 없습니다. . 여기에서는 측정 모델에서 다른 지표와 다른 이론적 변수의 관계를 분석함으로써만 신뢰성을 평가하는 적합한 방법을 개발할 수 있습니다. 이러한 관계의 예상 방향과 크기를 예측하여 연구원은 자신의 예측이 관찰된 데이터와 일치하는 정도를 평가하고 지표의 품질에 대한 결론을 도출할 수 있습니다. 경험적 지표의 신뢰성을 평가하는 가장 보편적인 방법은 다음과 같습니다. 요인 분석 및 경로 분석.이상적으로는 여러 지표(2개 또는 3개)와 최소 2개의 패널 웨이브가 신뢰성을 평가하는 데 사용됩니다.

신뢰성의 개념이 관련되어 있음을 기억하는 것이 매우 중요합니다 무작위 측정 오류,즉, 체계적으로 서로 관련이 없거나 체계적으로 작용하는 외부 변수(예: 응답자의 성별 또는 연령)와 관련이 없는 오류가 있습니다. 전형적인 불안의 근원- 이들은 응답자의 주의 변동, 질문 표현의 모호성과 관련된 임의의 비체계적 요인으로 다른 경우에 인식의 차이를 초래합니다. 인터뷰의 비체계적 차이; 개방형 질문 코딩의 차이 또는 데이터 입력 오류. 예를 들어, 매우 숙련된 전문가에게 이전에 개발된 결제 유형 코딩 체계에 따라 수백 개의 결제를 분류하도록 제안하면 결과 분류에서 최소한 몇 가지 불일치를 찾을 수 있습니다. 일부 불일치는 제안된 규칙에 따라 명확하게 분류할 수 없는 "제한적" 사례의 존재와 관련되며 일부 불일치는 쓰기 또는 부주의의 기계적 오류와 관련됩니다. 사회학적 설문 질문의 신뢰성에 대한 예비 평가는 무엇보다도 사람들이 종종 무작위로 대답하는 불명확하게 공식화된 질문에 대한 "거부"를 요구합니다. 응답자가 제기된 문제에 대해 의견이 없거나 그것에 대해 전혀 알지 못하기 때문에 응답자가 단순히 대답할 수 없는 질문의 신뢰성도 마찬가지로 낮습니다. 관련 없는 질문에 직면했을 때 모든 응답자가 정직하게 "모른다" 또는 "기억이 나지 않는다"라고 대답하지는 않습니다. 많은 사람들이 공손함이나 무지를 보여주고 싶지 않아 무작위로 선택한 대답을 할 것입니다.

행동 양식 신뢰성 증가우리는 이미 논의했습니다(4, 5장 참조). 첫째, 여러 지표를 사용하도록 노력해야 합니다. 이것이 가능하지 않은 경우, 즉 하나의 변수를 다른 방식으로 측정하는 데 이론적 또는 실제적인 어려움이 있는 경우 가장 확립되고 일반적으로 허용되는 지표를 사용해야 합니다(예: 응답자에게 나이에 대해 한 번만 물어볼 수 있는 경우, 그런 다음 국가 인구 조사, 대규모 패널 연구 등에서 사용되는 동일한 질문 문구와 동일한 답변 범주를 정확히 사용하는 것이 가장 좋습니다.

신뢰성을 높이는 다른 방법으로는 관련 없는 질문을 "걸러내기", 질문의 언어적 표현 분석, 면접관 교육 및 감독, 데이터 코딩 및 입력 절차 개선 등이 있습니다.

타당성측정은 가장 일반적인 의미에서 측정이 목적에 부합하는 것을 특징짓습니다. 경험적 지표는 측정되어야 하는 이론적 변수의 값을 실제로 반영하는 정도로 유효합니다(정당화되고 정확합니다). 분명히 지표 자체의 유효성에 대해 이야기하는 것은 의미가 없습니다. 측정 도구의 유효성은 대상의 측정된 속성, 즉 측정 대상과 관련하여 얻은 결과의 명확성과 정확성으로 구성됩니다.타당성은 이론적 구성의 측정의 "순도"를 결정한다고 말할 수 있습니다. 측정이 직접적일 때, 즉 측정된 속성의 참조 단위 수를 직접 계산할 수 있으며 측정 결과는 무작위 오류의 영향만 받고 신뢰도와 유효성은 구별할 수 없으며 측정 도구의 유효성은 신뢰도와 같습니다. 일부 지표를 사용하여 관심 속성을 간접적으로만 측정하면 신뢰성과 유효성 사이에 차이가 발생합니다. 지표는 매우 신뢰할 수 있고(재현 가능), 동시에 우리가 관심을 갖는 사회학적 구성을 측정하는 것은 충분히 "깨끗하지" 않습니다. 이미 직관적인 수준에서 완전히 신뢰할 수 있는 도구가 연구자의 관심 품질(예: 순응주의만큼 정치적 활동이 아닌) 이외의 다른 것을 측정할 수 있다는 것은 분명합니다. 간접 측정에는 일반적으로 무작위 및 비무작위 오류 구성 요소가 모두 포함됩니다. 정확히 비 랜덤 구성 요소,포함 체계적인(상관된) 실수그리고 덜 자주 각 경우에 대해 동일한 값을 가짐 일정한 측정 오류,지표의 유효성을 결정합니다. 사회학적 조사나 실험에서 체계적인 측정 오류의 전형적인 예는 이미 언급된 "기억"의 효과, 사회적 바람직함, 긍정적 또는 부정적 반응에 대한 태도입니다. 그들은 연구자가 관심있는 변수의 지표의 정확성과 유효성뿐만 아니라 데이터 분석 결과의 정확성과 유효성에도 영향을 미칩니다. 상관 측정 오류는 변수 간의 관계에 대한 지표를 포함한 모든 통계 지표에 영향을 미칠 수 있습니다. 및 하위 그룹 간의 차이의 중요성에 대한 추정치. 즉, “잘못된 지표를 사용하는 것의 최종 결과는 잘못된 의미 있는 결론이 될 수 있습니다.

측정의 타당성의 문제는 사회학적 방법론의 가장 어려운 문제이다. 유효한 측정은 주로 유효한 측정 모델,즉, 이론적 개념을 잘 기반으로 명확하게 개념화한 결과입니다. 여기서는 주요 내용만 설명합니다. 유효성 유형그리고 전통적인 검증 방법,즉, 측정의 유효성을 설정합니다.

내용별 유효성연구자가 선택한 지표가 이론적 개념의 다양한 측면을 어느 정도 반영하는지 보여줍니다. 다시 말해, 우리는 에 대해 이야기하고 있습니다. 대표성주어진 측정 세트와 속성 변수의 개념적 구조와의 관계, 이론적 개념의 조작화 완전성. 예를 들어, 통계 시험은 시험 문제가 강의와 교과서의 내용을 반영하기 때문에 학생의 통계 지식을 측정하는 유효한 도구로 볼 수 있습니다. 그러나 모든 질문이 코스의 한 섹션(예: 정규 분포)에만 관련된 경우 시험 결과는 예를 들어 원점수를 표준 성적으로 변환하는 학생의 능력을 반영하지만 지식에 대해서는 아무 말도 하지 않습니다. 상관 관계와 회귀.

콘텐츠 유효성을 평가하는 주요 절차는 다음과 같습니다. 전문가의 판단.어떤 경우에는 이론적 개념과 이를 측정하는 지표 사이의 관계가 너무 명확하여 특별한 정당화가 필요하지 않습니다. 온도계가 온도를 측정한다는 것은 분명합니다. 여기에서 이야기할 수 있는 분명한(때때로- 얼굴 마사지,영어로부터 면 타당도) 메트릭 타당도. 겉보기 타당도가 높을수록 전문 사회학자와 경험이 없는 응답자가 질문, 테스트 또는 기타 지표의 목적에 대한 이해를 더 동일하게 할 수 있습니다. 샴푸 구매 빈도에 대한 질문에는 아마도 더러운 속임수가 포함되어 있지 않으며 질문에 설명된 소비자 행동 유형을 정확히 판단할 수 있습니다. 그러나 더 복잡한 경우에 실질적인 타당성은 결코 명백한 것으로 축소될 수 없습니다. 여가 시간을 선호하는 방식, 선호하는 자동차 브랜드, 권위 있는 잡지를 읽는 빈도 등에 대한 일련의 간단한 질문은 응답자의 "라이프 스타일"을 측정하는 것을 목표로 할 수 있습니다(이 경우 측정을 통해 사람을 할당할 수 있습니다. 명목상의 라이프 스타일 범주 중 하나 - "생존","성취 "," 실존적 "," 사회적 " 등). 전문가만이 이 세트의 완성도와 "라이프스타일" 개념을 측정하기 위한 질문의 상대적 중요성을 판단할 수 있습니다. 이러한 전문가 판단의 기초는 이론적 정의, 연구 변수의 개념화입니다. 일반적으로 내용의 타당성에 대한 전문가의 판단은 연구 결과가 발표된 후 다소 자발적으로 이루어집니다. 때로는 더 조직적인 절차를 사용하는 것이 여전히 가능합니다. 병렬 패널 방식또는 다중 심판 방식... 첫 번째 경우에는 전문가로 구성된 2~3개의 연속 패널이 내용 측면에서 전체 검증 절차를 수행합니다. 즉, 기존 정의를 비교하고 가능한 지표 목록을 만들고 연구 중인 개념 영역과 관련하여 대표성을 평가합니다. . 두 개 이상의 패널에서 독립적으로 선택된 지표를 비교하여 많은 우연의 일치가 발견되면 높은 내용 타당도에 대해 이야기할 수 있습니다.

여러 심사위원(전문가)의 방법은 측정되어야 할 특성변수가 다차원적 구조를 가지는 경우에 유용하다. 예를 들어 사회 학자가 지역의 사회 경제적 복지에 대한 상상의 규모를 개발하는 경우 인구 통계, 사회 정책, 고용, 조세 제도 등과 같은 분야의 전문가에게 문의하는 것이 유용합니다. 관련 경험적 지표를 찾습니다.

기준 유효성(또는 기준 타당도)는 주어진 테스트 또는 지표에 대한 결과가 다른 지표를 측정한 결과와 얼마나 잘 일치하는지를 나타냅니다. 표준.대부분의 경우 기준은 연구자에게 실질적인 관심이 있지만 현재로서는 측정할 수 없는 변수입니다. 예를 들어, 입학 시험의 기준 타당성은 학생들이 이후에 보여줄 학업 성취도에 의해 결정됩니다(즉, 이 경우 학업 성취도가 기준입니다). 또한 청소년의 일탈행동에 대한 도덕적 평가 시험은 실제 일탈행동과 관련하여 기준타당도가 있다고 가정할 수 있다. 기준 타당성이 입증된 지표는 다음과 같이 간주될 수 있습니다. 예측 변수,테스트 변수의 개별 값을 예측할 수 있습니다. ^ 물론 기준 자체를 대체하는 예측 변수의 필요성은 기준으로 추정치를 얻기 어려운 경우, 즉 오래 전에 지났거나 아직 발생하지 않은 이벤트에 대해 이야기하는 경우에만 발생합니다. 기준 변수는 실용적이거나 윤리적인 고려 사항으로 인해 측정하기 어렵습니다. 예측 변수의 유효성은 일반적으로 기준에 가까울수록 높습니다. 예를 들어, 항공 학교의 생도를 선택하는 이상적인 방법은 기말고사에서 실제 항공기 조종 기술 테스트를 포함하는 시범 단기 훈련 과정일 수 있습니다. 이 테스트에 합격한 지원자는 진정한 전문가가 될 수 있는 모든 기회가 있습니다. 그러나 이 방법은 너무 비싸고 실제로는 이전에 기준 타당성을 확립한 지능 테스트, 시각-운동 협응 테스트 및 기타 지표를 사용합니다. 또 다른 경우에는 투사적 성격 테스트(예: TAT, 무한한 플롯이 있는 사진에서 이야기를 구성하는 것을 포함하는 주제 인식 테스트)는 환자의 과거에 정신병 또는 외상성 성적 경험의 징후를 드러낼 것입니다. 완전한 정신과 평가는 시간이 많이 소요될 수 있으며 아동 학대에 대한 데이터를 얻기가 어렵습니다.

기준 유효성의 주요 유형은 다음과 같습니다. 예측, 경쟁력그리고 사후적(예측-역방향) 유효성.

예측 기준 유효성일반적으로 개인 또는 그룹을 특징 짓는 주어진 변수의 값이 다른 변수(예측자)의 현재 값에서 예측될 수 있는 정확도를 설명합니다. 분명히, 그러한 예측 정확도의 가장 좋은 지표는 예측 변수의 값과 기준 변수의 값 사이의 상관 관계입니다. 똑같다견본 추출. 그런 다음 - 샘플링 오류 내에서 - 상관 계수는 예측 유효성 계수와 동일합니다.

기준별 경쟁력 -그것은 테스트 변수의 현재 값과 예측 변수 사이의 대응 정도입니다. 간단히 말해서 연구자는 다른 변수의 값을 추정하기 위해 한 속성에 대한 측정 결과를 사용합니다. 그 이유는 기준변수를 직접적으로 측정하는 것이 어렵고 시간이 너무 많이 걸린다 등이 있을 수 있다. 경쟁타당도의 문제는 많은 행동적 또는 태도적 변수들이 직접적으로 측정되지 않고 자기기술을 통해 측정되는 경험적 사회학에서 매우 중요하다. , 질문에 대한 답변, 즉 언어적 행동을 통해. 예를 들어, 우리는 주어진 그룹의 실제 행동에 대한 일련의 포함된 관찰을 사용하여 우수한 학생들의 디스코 참석 빈도에 대한 설문지의 경쟁 타당성을 평가할 수 있습니다. 사회학에서 사실적 질문의 경쟁적 타당도에 대한 이미 초기 연구에서는 상대적으로 "무해한" 민감하지 않은 지표의 경우에도 경쟁적 타당성이 넓은 범위에 걸쳐 달라질 수 있음을 보여주었습니다.

1947년 S. Stauffer와 공저자들에 의해 수행된 이른바 Denver 타당성 연구에서 사실 질문에 대한 응답자의 답변 데이터와 지역 기관의 공식 통계 데이터를 비교했습니다. 그것은 유권자 등록, 투표, 시 국고 기부, 운전 면허증 및 도서관 카드의 존재 등에 관한 질문의 내용에 따라 거의 50%까지 퍼센트였습니다.

그러나 객관적 지표 기준에 내재된 한계를 염두에 두어야 합니다. 공식 문서의 데이터도 종종 자체 보고서를 기반으로 하고 종종 측정 오류가 발생하기 쉽습니다. 그럼에도 불구하고 첫 번째는 연구원이 기준 값을 측정할 수 있는 순간까지 오랜 시간을 기다릴 필요가 없기 때문에 경쟁 검증 절차가 예측 절차보다 유리한 경우도 있습니다. 예를 들어, 연구자가 성공적인 직업 경력의 예측 변수로 학생들을 위해 설계된 직업 관심 테스트의 기준 타당성을 평가하려는 경우 기준 변수의 값을 측정하기 위해 10년을 기다릴 필요가 없습니다. 이미 작업 중인 전문가로 구성된 두 개의 "극단적" 그룹에 대한 전문적 관심을 테스트하는 것으로 충분합니다. 테스트 점수와 작업 성공 간의 높은 상관 관계(또는 "극단적인" 그룹의 테스트 점수에서 통계적으로 유의한 차이)는 테스트의 경쟁력을 나타냅니다. 지표의 경쟁적 타당성에 대한 결론이 여전히 잘못된 것으로 판명될 수 있는 조건은 다음과 같습니다. 선택적 제거샘플(자가 선택) 및 예측 변수의 반응성.우리의 예에서 자기 선택은 표본에서 탈락한 사람들(이 분야에서 전문 경력을 포기하고 이러한 이유로 테스트에 포함되지 않은 이전 학생) 중에서 의욕이 높거나 낮은 사람들이 과도하게 대표되는 경우 발생할 수 있습니다. , 무작위가 아닌 자연스러운 탈락이 발생합니다. 지표의 반응성의 경우, 우리 과목은 동기 테스트의 질문에 학생 때 대답했던 방식과 다르게 대답할 것입니다(자신에게 영향을 준 전문적인 경험, 사회적 지위의 변화 등으로 인해). 비 반응성 예측 변수, 정당화에 매우 적합한 경쟁 타당도. 예를 들어 IQ 또는 "배경" 변수(사회적 출신, 국적 등)와 같은 안정적인 특성이 있습니다.

마지막으로, 어떤 경우에는 과거에 개인(그룹)에 내재된 일부 기준 기능 또는 특성의 존재를 평가할 수 있는 정확도를 설정하는 데 관심이 있습니다. 어린 시절 외상의 사후 "예측"에 대한 투사 심리 테스트 사용의 예가 위에 나와 있습니다. 이 상황을 평가라고 합니다. 사후적타당성.

연구자가 특정 지표를 이미 존재하거나 실제로 사용되는 기준과 비교하는 작업에 직면한 상황에서 우리가 설명한 유효성 유형은 필수적입니다. 다시 말해, 지표의 기준 타당성은 아마도 "순수한" 경험적 지표인 다른 지표와의 상관관계입니다. 그러나 지표의 평가가 지표의 "행동"이 얼마나 잘 일치하는지를 기반으로 하는 유효성에 대한 또 다른 접근 방식이 있습니다. 이론적 기대.이러한 평가는 이론적 변수, 해당 지표, 무작위 및 비무작위 측정 오류 간의 관계를 설명하는 전체론적 이론 모델의 틀 내에서만 수행할 수 있습니다. 새로운 그룹 응집력 척도의 유효성을 테스트하려고 한다고 가정합니다. 기존의 이론적 개념에 기초하여 집단 응집력이 높을수록 열린 갈등의 빈도가 낮고 의사 소통의 강도가 높다고 가정할 수 있습니다. 그룹 응집력 수준이 다른 그룹을 비교하고 다른 두 변수(갈등의 빈도와 의사 소통의 강도)의 값을 결정하면 우리가 개발한 그룹 응집력의 지표가 얼마나 잘 "행동"하는지 알 수 있습니다. 다른 두 변수와의 관계 패턴이 이론의 예측과 일치하면 새 척도가 유효하다는 결론을 내릴 수 있습니다. 즉, 관심 있는 이론 변수를 정확히 측정합니다. 이러한 종류의 유효성은 일반적으로 용어로 표시됩니다. "타당성 구성". ("개념적 타당성"이라는 용어도 때때로 사용됩니다.)

통계적 관점에서 절대 구성 타당도는 측정값에서 관찰된 모든 변동이 측정되는 이론적 구성과만 관련되어 있다고 가정합니다. 지표 변동의 일부가 다른 변수와 관련되어 있으면(다른 이론적 구성이든 측정 편향이든) 구성 유효성이 낮아집니다.

구성 타당도를 평가하는 것은 의미 있는 이론적 가설을 테스트하는 것과 측정 품질을 테스트하는 것 사이에 일부 연결을 암시한다는 것을 쉽게 알 수 있습니다. 실제로, 연구 중인 변수의 "행동"에 대한 이론적 모델을 지표의 실제 관계와 비교하여 구성 타당성을 평가하려면 다음을 포함해야 합니다. 측정 모델(위 참조) 더 넓은 이론적 모델.

여러 지표로 구성된 "정치 시스템의 민주주의"지수인 일부 총 지표를 사용한다고 가정합니다. (NS 1 ,NS 2 ,NS 3 ), 각각은 민주주의 지수에서 고유한 "가중치"를 가지고 있습니다. 이러한 지표에는 의회의 존재(명목 이분법 변수), 독립 TV 및 라디오 회사의 수 등이 포함될 수 있습니다. 이론적 모델에 기초하여 우리는 "민주주의"의 정도가 무기 현대화에 지출된 GNP의 비율과 반비례할 것으로 예상합니다. 이 모델을 기반으로 합니다(참조. 쌀. 열하나),우리가 발명한 민주주의 지수의 건설적 타당성을 확인할 수 있습니다.

와 함께


쌀. 열하나.변수 "민주주의"에 대한 관계 모델

1. 정의. 기본적인 심리 측정적 불평등

측정된 정신 속성에 대한 테스트의 적합성이라고 합니다. 유효성 테스트... 타당도는 테스트의 가장 중요한 심리 측정 속성입니다. 높은 신뢰도가 테스트가 실제로 무언가를 측정하고 있음을 나타내면 높은 타당도는 테스트가 우리가 측정하고자 하는 것을 정확히 측정하고 있음을 나타냅니다. 물론 무작위 요인도 테스트의 유효성에 부정적인 영향을 미칩니다. 따라서 다음과 같은 기본적인 심리 측정 불평등이 심리 측정에서 허용됩니다.


타당성? 신뢰할 수 있음,

이는 유효성이 테스트의 신뢰성을 초과할 수 없음을 의미합니다.

그러나 신뢰도와 달리 무작위 요인 외에도 체계적인 요인이 테스트의 유효성에 영향을 미칩니다. 그들은 결과에 체계적인 편향을 도입합니다. 이러한 요인들은 검사가 목적하는 속성을 측정하기 위한 속성의 테스트 결과에서 발현을 방해하는 기타 정신적 속성입니다.

예를 들어, 우리는 학습 잠재력(사람의 전반적인 지적 능력의 가장 중요한 구성요소)을 측정하고자 합니다. 우리가 대상에게 엄격한 실행 시간 제한과 실수를 반환하고 수정할 수없는 테스트를 제공하면 원하는 정신 속성이 테스트에서 잘못된 정신 속성-스트레스 저항과 혼합되어 있음이 분명합니다. 스트레스 저항 지표가 높은 피험자는 테스트에서 더 나은 성과를 낼 것입니다. 이것은 체계적인 왜곡의 효과를 나타낼 것입니다.

현대 심리 측정에서는 테스트의 유효성을 확인하기 위한 수십 가지의 다양한 이론 및 실험 방법이 개발되었습니다. 이러한 거의 모든 방법의 주요 요소는 소위 기준입니다. 유효성 기준테스트 외부에서 측정되는 속성에 대한 정보의 테스트 독립적인 소스입니다. 우리는 그 결과를 기준과 함께 측정되는 속성에 대한 실제(또는 분명히 더 유효한) 정보의 출처와 비교할 때까지 테스트의 유효성을 판단할 수 없습니다.

2. 유효성 기준의 종류

과학 연구에서는 특별한 실험실 기준이 우선합니다. 예를 들어, 불안에 대한 컴팩트 테스트 설문지가 구성되고 있습니다. 그리고 그것에 대한 타당성의 기준으로 불안의 실제 상황이 재현되는 특별한 힘들고 객관적인 실험실 실험이 사용됩니다 (자원 대상자는 감전 등으로 잘못된 행동으로 위협받습니다).

실제로, 매우 자주 실용적인 기준이 타당성 기준으로 사용됩니다. 즉 어떤 테스트가 수행되는지 예측하기 위한 활동의 ​​효율성 지표입니다.

종종 전문가의 판단이 타당성의 기준으로 사용됩니다. 예를 들어 단기 훈련 테스트가 유효한지 확인하려고 합니다. 이를 위해 저명학생의 훈육 수준을 대상으로 교사를 대상으로 설문조사를 실시한다. 그 후, 시험 결과와 학과 학생의 전문가 등급을 비교합니다.

이 마지막 예를 자세히 살펴보겠습니다. 여기에 우리는 타당도의 경험적(통계적) 측정을 위한 가장 간단하고 가장 인기 있는 방법 중 하나가 있습니다. 이것은 유명 그룹의 방법입니다. 피험자들은 테스트의 유효성을 확인하기 위해 심리 측정 실험에 참여하도록 초대받았습니다. 훈육시험의 경우 교사의 전문가 평가에 따라 고의적으로 훈육(기준별 높음)과 훈육(기준별 낮음)을 하는 학생을 선발한다. 기준에서 평균 점수를 받은 학생은 시험에 참여하지 않습니다.

테스트 후, 예를 들어 테스트와 기준 사이의 가장 단순한 상관관계가 계산됩니다(표 1).

1 번 테이블테스트와 기준 간의 가장 간단한 상관 관계 계산

이 표에서 "a" 요소는 테스트 및 기준에 따라 상위 그룹에 들어간 피험자 수이고, 요소 "b"는 테스트에 따라 상위 그룹에 진입했지만 하위 그룹에 들어간 피험자 수입니다. 기준 등에 따라

분명히 테스트가 완전히 유효하다면 표의 요소 "b"와 "c"는 0과 같아야 합니다. 학생은 고도로 훈련되어 있습니다 - 사례 "with").

3. 타당성 기준의 수학적 표현(Guildford 계수)

테스트 및 기준에 의한 극단 그룹 간의 일치(상관) 측정은 Guildford의 가장 간단한 파이 계수를 사용하여 평가됩니다.

30명으로 구성된 테스트 그룹의 크기(타당성을 확인하기 위한 최소 샘플)로 테스트와 기준 사이에 통계적으로 유의한 연결을 나타낼 수 있습니다. Ph 1? 0.36. 이것은 매우 낮은 타당도이지만 그럼에도 불구하고 이 경우의 테스트는 무작위 운세보다 훨씬 더 나은 결과를 제공합니다.

그러나 알려진 그룹의 방법에는 심각한 단점이 있습니다. 항상 예측을 위해 테스트를 사용할 수 있는 것은 아닙니다. 사실은 잘 알려진 그룹을 구성할 때 과거에 발생한 행동을 평가하고 미래에 발생할 행동을 예측하는 테스트를 만들고자 합니다. 교육 정신 진단에 사용되는 많은 테스트에는 이러한 단점이 있습니다. 기껏해야 잘 알려진 그룹의 방법에 따라 테스트되며 예측 타당성이 없습니다(또는 이 타당성이 실험적으로 엄격하게 입증되지 않음).

4. 정신 진단 기술의 검증을 위한 기본 계획

대규모 과학 및 방법론 센터만이 예측 타당성 문제를 해결할 수 있습니다. 결국, 예측 타당성을 테스트하기 위해 훨씬 더 많은 피험자가 심리 측정 연구에 참여해야 합니다. 이 300개 중 어느 것이 극단적인 그룹에 속할지 알 수 없기 때문에 30개가 아니라 적어도 300개입니다.

예를 들어, 테스트를 사용하여 학생들이 대학에서 공부할 준비가 되어 있는지 예측하려고 합니다. 이것은 전형적인 예측 정신 진단 작업입니다. 누군가는 이 테스트의 예측 가능성을 테스트하는 힘든 다년간 프로그램에 착수해야 합니다. 300-500 명의 학생을 테스트 한 다음 기다려야합니다. 그 중 누가 대학에 입학하여 성공적으로 공부할 것입니다. 2~3년의 간격을 두고 기준군을 구성할 수 있고, 이들 전학생의 이전 시험지표와의 상관관계를 계산할 수 있다. 이러한 심리 측정 실험 계획을 구현한 후에야 테스트가 예측 타당성 테스트를 통과했다고 주장할 수 있습니다. 이것이 없으면 테스트 개발자의 과학적 직관에 대한 신뢰에서만 진행되며 테스트를 예측에 사용할 수 있다는 독립적인 증거가 없습니다.

일반적인 저렴한 테스트 검증 체계(알려진 그룹에 대한)와 값비싼 예측 테스트 검증 체계 사이의 구별은 심리학자뿐만 아니라 교사 및 정신 진단 정보의 모든 고객을 위한 정신 진단 능력의 필수 요소입니다.

신뢰성 다음으로 방법의 품질을 평가하는 핵심 기준은 타당성입니다. 신뢰할 수 없는 방법은 유효할 수 없기 때문에 방법의 유효성에 대한 질문은 충분한 신뢰성이 확립된 후에만 결정됩니다. 그러나 그 타당성을 모른 채 가장 신뢰할 수 있는 기술은 사실상 무용지물이다.

최근까지 타당성 문제가 가장 어려운 문제 중 하나인 것 같습니다. 이 개념에 대한 가장 뿌리 깊은 정의는 A. Anastasi의 책에서 제공한 것입니다. "테스트의 유효성은 테스트가 무엇을 측정하고 테스트를 얼마나 잘 수행하는지 알려주는 개념입니다."

타당성 본질적으로 이는 기술이 생성된 목적을 측정하는 데 적합한지 여부와 그 효과, 효율성 및 실용적인 유용성에 대한 정보를 포함하는 복잡한 특성입니다.

유효성을 결정하는 일률적인 접근 방식은 없습니다. 연구자가 고려하고자 하는 타당성의 측면에 따라 다양한 증명 방법이 사용됩니다. 즉, 유효성의 개념에는 고유한 의미가 있는 다양한 유형이 포함됩니다. 기술의 유효성을 확인하는 것을 확인.

첫 번째 이해의 타당성(기술이 생성된 대상을 측정하는 데 적합한지 여부)은 기술 자체의 본질과 관련이 있습니다. 그것은 측정 도구의 내부 타당성입니다. 이 검사는 이론적 검증.

두 번째 의미의 타당성(기술의 효율성, 효율성, 실용적인 유용성)은 기술이 아니라 사용 목적을 나타냅니다. 그것 실용적인 검증.

요약하면 다음과 같이 말할 수 있습니다.

  • - 이론적 검증에서 연구자는 방법으로 측정된 속성(구성체) 자체에 관심이 있습니다. 이것은 본질적으로 다음을 의미합니다 심리적 검증
  • - 실용적인 검증으로 측정 대상(심리적 속성)의 본질이 보이지 않습니다. 주요 강조점은 방법론으로 측정된 "무언가"가 특정 실천 영역과 관련이 있음을 증명하는 것입니다.

방법의 이론적 검증은 구성 타당성을 증명함으로써 수행됩니다. 구성 타당성, 1955년 L. Cronbach에 의해 정당화되었으며 이론적으로 입증된 이러한 기능을 측정하는 기술의 능력이 특징입니다( 이론적 구성). 적절한 실용적인 기준을 찾기 어려울 때 측정된 속성에 대한 이론적 가정을 기반으로 공식화된 가설에 대한 방향을 선택할 수 있습니다. 이러한 가설의 확인은 방법의 이론적 타당성을 입증합니다. 첫째, 측정하고자 하는 구성을 가능한 한 충분히 의미 있게 설명해야 합니다. 이것은 그것에 대한 가설을 공식화하고 주어진 구성이 연관되어야 하는 것과 연관되지 않아야 하는 것을 규정함으로써 달성됩니다. 그런 다음 이러한 가설을 테스트합니다. 이 방법은 성격 설문지의 유효성에 대한 단일 기준을 설정하기 어렵기 때문에 성격 설문지의 유효성 검사에 가장 효과적입니다.

지성, 성격 특성, 동기, 태도 등이 하나의 구성 요소로 작용할 수 있습니다. 진단 측정의 결과가 행동을 예측할 뿐만 아니라 피험자가 특정 심리적 특성을 갖는 정도에 대한 결론을 도출하는 데 사용되는 경우 구성 타당성에 대한 호소가 필요합니다. 동시에 측정된 심리적 특성은 관찰 가능한 행동의 특징으로 식별될 수 없으며 이론적인 개념입니다. 구성 타당성은 외부 타당성 기준이 정의되지 않은 근본적으로 새로운 방법의 개발에 중요합니다.

그래서 지출 방법의 이론적 검증 - 구성 타당성을 증명하는 것입니다. 그 기술이 연구자의 의도에 따라 측정해야 하는 구성(속성, 품질)을 정확히 측정한다는 것을 확립하기 위해. 따라서 테스트가 어린이의 정신 발달을 진단하기 위해 개발된 경우 다른 특성(예: 성격, 성격 등)이 아니라 이 특정 발달을 실제로 측정하는지 분석해야 합니다. 따라서 이론적 검증을 위해 근본적인 문제는 심리적 현상과 그 지표 사이의 관계이며, 이를 통해 이러한 심리적 현상이 인식하려고 합니다. 이러한 확인은 저자의 의도와 방법의 결과가 얼마나 일치하는지를 보여줍니다.

대부분의 경우 기술의 구성 유효성은 다음을 통해 결정됩니다. 내적 일관성, 그리고 또한 통해 수렴 그리고 판별 타당성. 구성 유효성을 결정하는 또 다른 방법은 다음과 같습니다. 요인 분석.

내적 일관성 방법론의 재료를 구성하는 작업, 질문이 동일한 현상의 연구에 중점을 둔 전체 측정의 주요 방향에 종속되는 정도를 반영합니다. 내적 일관성 분석은 방법론의 전반적인 결과와 각 작업에 대한 응답을 연관시켜 수행됩니다. 따라서 테스트가 전체 점수와 유의미한 상관 관계를 나타내는 항목으로 구성되어 있으면 모든 작업이 테스트에 제시된 구성에 종속되기 때문에 테스트는 내부 일관성이 있다고 합니다.

내부 일관성의 기준은 또한 기술의 총점과 개별 부분의 구현 결과 간의 상관 관계입니다. 지능이 하나의 구성 요소로 작용하는 테스트는 항상 개별적으로 적용된 하위 테스트(예: 인식, 유추, 분류, 추론 등)로 구성되며 그 결과가 전체 테스트 점수를 합산합니다. 각 소검사의 결과와 전체 점수 사이의 유의한 상관관계는 전체 검사의 내적 일관성도 나타냅니다.

또한 대조 그룹은 가장 높은 총 결과와 가장 낮은 총 결과를 보인 대상으로 구성된 내적 일관성을 증명하는 데 사용됩니다. 결과가 높은 그룹의 방법론의 성과를 낮은 그룹의 성과와 비교하고, 첫 번째 그룹이 두 번째 그룹보다 작업에 잘 대처하면 방법론은 내부적으로 일관성이 있다고 인정합니다.

A. Anastasi가 강조하듯이 방법의 내부 일관성 기준은 균질성의 필수적인 척도입니다. 이 지표는 방법에 의해 선택적으로 테스트되는 행동이나 속성의 영역을 특성화하는 데 도움이 되기 때문에 동질성의 정도는 구성 타당성과 관련이 있습니다. 물론 방법론의 본질적인 일관성만으로는 측정 대상에 대해 거의 말할 수 없습니다. 그러나 방법론을 만들기 위한 철저하게 연구된 이론적 토대, 확고하게 기반을 둔 과학적 기반이 있는 경우 이 절차는 심리적 본질에 대한 이론적 아이디어를 강화합니다.

구성 타당성을 결정하는 또 다른 방법은 두 개의 반대 지표 측면에서 방법론을 평가하는 것입니다. 검증된 방법론의 지표를 한편으로는 동일한 이론적 구성을 가진 방법과 다른 한편으로는 다른 이론적 기반을 가진 방법과 비교하는 것이 중요합니다. 이를 위해 D. T. Campbell과 D. V. Fiske가 제안한 수렴타당도와 판별타당도를 평가하는 절차를 사용한다.

수렴타당도 (위도에서. - 하나의 중심으로 수렴, 변환)은 주어진 방법(기술, 테스트, 측정)과 동일한 목적(수렴, 유사)을 위한 다른 방법의 유사성(동형-동형)에 대한 결론입니다. 개인의 개념적으로 관련된 정신 특성을 측정하는 것을 목표로하는 경우 진단 지표의 통계적 의존성 요구 사항으로 표현됩니다.

판별 타당성 (위도에서. - 차이, 차이) - 이론적으로 첫 번째와 다른 한 방법(방법, 테스트, 측정)의 차이점에 대한 결론. 개념적으로 독립적인 특성을 반영하는 진단 지표 간의 통계적 관계가 없는 경우 표현됩니다.

수렴 및 판별 유효성은 유형입니다. 기준 타당성. 이 범주에는 평가 및 비교 기준인 독립 기준을 사용하여 평가된 모든 유형의 유효성이 포함됩니다.

따라서 수렴타당도와 판별타당도를 평가하는 절차는 이미 알려진 기술로 새로운 기술로 측정한 심리적 현상의 유사성과 차이점을 동시에 확립하는 것이다. 검증된 방법과 함께 검증된 방법과 관련이 있을 것으로 추정되는 방법과 관련되지 않은 방법을 모두 포함하는 방식으로 선택된 제어 방법의 특수 배터리를 사용한다고 가정합니다. 실험자는 검증된 방법과 높은 상관 관계가 있는 방법과 낮은 방법과의 상관 관계를 미리 예측해야 합니다. 이에 따라 수렴타당도(직접 또는 피드백의 친밀도 확인)와 판별타당도(관계가 없는지 확인)가 구분된다. 가정에 따라 검증되는 기술과 높은 상관 관계가 있는 기술을 수렴이라고 하며 상관 관계가 없는 판별식이라고 합니다.

이론적으로 예상되는 관계의 전체성을 확인하는 것은 중요한 구성 타당성 정보 집합을 구성합니다. 영어 정신 진단에서 구성 타당도의 작동 정의는 다음과 같이 표시됩니다. 가정된 유효성

이전에 유효성이 입증된 새로운 디자인 방법론과 유사한 디자인 방법론 사이의 상관 관계가 있다는 것은 개발된 방법론이 참조 방법론과 거의 동일한 심리적 품질을 "측정"한다는 것을 나타냅니다. 그리고 새로운 방법이 결과를 수행하고 처리하는 데 있어 동시에 보다 컴팩트하고 경제적인 것으로 판명되면 정신 진단은 이전 도구 대신 새 도구를 사용할 기회를 얻습니다. 이 기술은 특히 인간 신경계의 기본 특성을 진단하는 방법을 만들 때 차등 정신 생리학에서 자주 사용됩니다. 구성 유효성을 결정하는 절차에서 특별한 위치는 다음과 같습니다. 요인 분석 (요인 타당도). 이를 통해 연구 된 기술의 지표 간의 관계 구조를 엄격하게 통계적으로 분석하고, 요인 구성 및 요인 로딩을 결정하고, 숨겨진 기능과 관계의 내부 패턴을 밝힐 수 있습니다.

따라서 방법의 이론적 검증은 진단되는 구성에 대한 정보의 축적에 기여하는 다양한 실험 절차의 사용을 필요로 합니다. 이러한 데이터가 가설을 확인하면 방법론의 기초가 되는 심리학적 개념과 이 개념을 측정하기 위한 도구로 사용할 수 있는 방법론의 능력이 확인됩니다. 확증이 더 설득력이 있을수록 그 방법의 기초가 되는 심리학적 개념과 관련하여 방법의 유효성에 대해 더 확실히 말할 수 있습니다.

지표를 실제 활동 형태와 비교하여 방법론 측정이 수행되는 것을 이해하는 데 중요한 역할. 그러나 여기서 기술이 이론적 측면에서 철저하게 수행되는 것이 특히 중요합니다. 확고하고 잘 기반을 둔 과학적 기반을 갖습니다. 그런 다음 방법론을 일상 생활에서 가져온 외부 기준과 비교할 때 측정 대상에 따라 본질에 대한 이론적 아이디어를 뒷받침하는 정보를 얻을 수 있습니다.

이론적 타당성이 입증되면 얻은 지표의 해석이 더 명확하고 모호하지 않으며 방법의 이름이 적용 범위에 해당한다는 것을 기억하는 것이 중요합니다.

에 관하여 실용적인 검증, 측정 된 속성이 특정 생활 상황, 특정 유형의 활동에서 나타나는 것으로 입증 된 경우에만 진단 방법을 사용하는 것이 합리적이기 때문에 실용적인 효율성, 중요성, 유용성의 관점에서 방법론을 테스트하는 것을 의미합니다 . 그들은 특히 선택의 문제가 발생하는 경우 그것을 매우 중요하게 생각합니다.

시험학 발전의 역사를 살펴보면 시험의 과학적 내용과 이론적 "수하물"이 덜 관심이 있었던 그러한 기간(1920-1930년대)을 구별할 수 있습니다. 가장 준비된 사람들을 신속하게 선택하는 데 도움이 되도록 테스트가 작동하는 것이 중요했습니다. 시험 항목을 평가하는 경험적 기준은 과학 및 응용 문제를 해결하는 유일한 올바른 지침으로 간주되었습니다.

명확한 이론적 근거 없이 순전히 경험적 정당성을 가진 진단 기술을 사용하면 종종 사이비 과학적 결론, 정당하지 않은 실제 권장 사항으로 이어집니다. 예를 들어 테스트를 통해 드러난 특성, 특성을 정확히 명명하는 것은 불가능했습니다. 당시의 테스트를 분석한 BM Teplov는 이를 "블라인드 테스트"라고 불렀습니다.

방법 타당성 문제에 대한 이러한 접근 방식은 1950년대 초반까지 특징적이었습니다. 미국 뿐만 아니라 다른 나라도 마찬가지입니다. 검증의 경험적 방법의 이론적 약점은 방법의 개발에서 "완전한" 경험주의와 실천뿐만 아니라 이론적 개념에 의존할 것을 요구한 과학자들로부터 비판을 받을 수밖에 없었습니다. 이론 없는 실천은 맹목이며, 실천 없는 이론은 죽은 것이다. 현재 이론 및 실용 평가 방법의 유효성이 가장 생산적인 것으로 인식됩니다.

방법론의 실용적인 검증을 수행하기 위해, 즉 그 효과, 효율성, 실질적인 중요성을 평가하기 위해 독립적 외부 기준 - 특정 실행 영역에서 즉각적인 가치가 있는 지표. 이러한 기준은 학업 성취도(학습 능력 테스트, 성취 테스트, 지능 테스트의 경우) 및 생산 성취도(전문적인 오리엔테이션 방법의 경우) 및 실제 활동의 효율성(그림, 모델링 등)이 될 수 있습니다. (특수 능력 테스트용), 주관적 평가(인격 테스트용).

미국 연구원 D. Tiffin과 E. McCormick은 유효성을 입증하는 데 사용되는 외부 기준을 분석한 후 4가지 유형을 구분합니다.

  • 1) 성과 기준(수행한 작업량, 학업 성과, 훈련에 소요된 시간, 자격 성장률 등을 포함할 수 있음)
  • 2) 주관적 기준(어떤 대상이나 누군가에 대한 개인의 태도, 의견, 견해, 선호도를 반영하는 다양한 유형의 답변을 포함합니다. 일반적으로 주관적 기준은 인터뷰, 설문지, 설문지를 통해 얻음);
  • 3) 생리학적 기준(환경 및 기타 상황적 변수가 인체 및 정신에 미치는 영향을 연구하는 데 사용되며 맥박수, 혈압, 피부 전기 저항, 피로 증상 등을 측정함);
  • 4) 사고 기준(연구 목적이 사고에 덜 민감한 사람을 작업에 선택하는 문제와 관련된 경우 적용됨).

외부 기준은 관련성이 있고 간섭(오염)이 없고 신뢰할 수 있는 세 가지 기본 요구 사항을 충족해야 합니다.

아래에 관련성 진단 도구와 독립적인 필수 기준의 의미적 일치를 의미합니다. 다시 말해서, 진단 방법에 의해 측정되는 개인 정신의 특징이 기준에 정확히 관련되어 있다는 확신이 있어야 합니다. 외부 기준과 진단 기술은 내부 의미 론적으로 서로 일치해야하며 심리적 본질에서 질적으로 균질해야합니다. 예를 들어 테스트가 사고의 개별 특성, 특정 대상, 개념으로 논리적 행동을 수행하는 능력을 측정하는 경우 기준에서 이러한 기술의 표현을 정확하게 찾아야합니다. 이것은 전문적인 활동에도 동일하게 적용됩니다. 그것은 하나가 아니라 몇 가지 목표, 작업을 가지고 있으며, 각각은 구체적이며 구현을 위한 자체 조건을 제시합니다. 이것은 전문 활동의 수행에 대한 몇 가지 기준이 있음을 의미합니다. 따라서 진단 기술의 성공을 일반적으로 생산 효율성과 비교할 필요가 없습니다. 수행되는 작업의 특성에 따라 방법론과 상관관계가 있는 기준을 찾는 것이 필요합니다.

측정 된 속성과 관련이 있는지 여부가 외부 기준과 관련하여 알려지지 않은 경우 정신 진단 기술의 결과를 그것과 비교하는 것은 실질적으로 쓸모가 없습니다. 방법의 타당성을 평가할 수 있는 결론에 도달하는 것을 허용하지 않습니다.

요구 사항 간섭(오염)으로부터의 자유 예를 들어 교육적 또는 산업적 성공은 두 가지 변수에 달려 있다는 사실에 기인합니다. 방법으로 측정한 개인 자신, 개인의 특성, 그리고 간섭을 일으킬 수 있는 상황, 연구 조건, 작업 조건, "오염 " 적용 기준입니다. 이를 어느 정도 피하기 위해서는 거의 동일한 조건에 있는 사람들의 그룹을 연구를 위해 선택하는 것이 필요합니다. 다른 방법을 사용할 수 있습니다. 간섭의 영향을 수정하는 것으로 구성됩니다. 이 조정은 일반적으로 본질적으로 통계적입니다. 따라서 생산성은 절대값으로 ns를 취해야 하지만 유사한 조건에서 일하는 근로자의 평균 생산성과 관련하여 취해야 합니다.

기준이 통계적으로 유의해야 한다고 말할 때 신뢰할 수 있음, 이는 연구 중인 기능의 불변성과 안정성을 반영해야 함을 의미합니다.

적절하고 쉽게 식별할 수 있는 기준을 찾는 것은 검증의 매우 중요하고 어려운 작업입니다. 서양의 시험학에서는 많은 방법들이 시험에 적합한 기준을 찾지 못해서 부적격 판정을 받습니다. 예를 들어, 대부분의 설문지의 경우 측정 대상에 해당하는 적절한 외부 기준을 찾기가 어렵기 때문에 유효성에 대한 데이터가 의심스럽습니다.

방법의 실용적인 타당성에 대한 평가는 양적 및 질적일 수 있습니다.

계산하려면 정량적 지표 - 유효성 계수 - 진단 방법을 사용할 때 얻은 결과를 동일한 사람의 외부 기준에 따라 얻은 데이터와 비교합니다. 다양한 유형의 선형 상관 관계가 사용됩니다(Spearman에 따르면, Pearson에 따르면).

타당도를 계산하기 위해 얼마나 많은 과목이 필요합니까? 실습에 따르면 50개 이상이어야 하지만 200개 이상이 가장 좋습니다. 타당성 계수가 허용 가능한 것으로 간주되려면 유효성 계수의 값이 얼마여야 하는 지에 대한 질문이 자주 발생합니다. 일반적으로 타당성 계수가 통계적으로 유의하면 충분하다는 점에 유의하십시오. 0.20 0.30 정도의 유효성 계수는 ​​낮음, 평균 - 0.30-0.50, 높음 - 0.60 이상으로 인식됩니다.

그러나 A. Anastazi와 K.M. Gurevich 및 다른 저자들이 강조한 것처럼 선형 상관 관계를 사용하여 유효성 계수를 계산하는 것이 항상 합법적인 것은 아닙니다. 이 기술은 일부 활동의 성공이 진단 기술 구현의 성공에 정비례한다는 것이 입증된 경우에만 정당화됩니다. 외국 테스터, 특히 전문적 적합성과 전문 선택에 종사하는 테스터의 위치는 대부분 테스트에서 더 많은 작업을 완료한 사람이 해당 직업에 더 적합하다는 무조건적인 인식으로 귀결됩니다. 그러나 성공적인 활동을 위해서는 테스트 솔루션의 40% 수준에 속성이 있어야 할 수도 있습니다. 테스트에서 더 이상 성공하는 것은 더 이상 직업에 의미가 없습니다. K.M. Gurevich의 논문에서 실례가 됩니다. 우편 배달부는 읽을 수 있어야 하지만 정상 속도로 읽든 매우 빠른 속도로 읽든 더 이상 전문적인 의미가 없습니다. 방법론의 지표와 외부 기준의 이러한 비율로 인해 차이의 기준이 타당성을 확립하는 가장 적절한 방법이 될 수 있습니다.

외국 검사의 경험에서 알 수 있듯이 통계적 절차는 개별 평가의 다양성을 완전히 반영할 수 없습니다. 따라서 임상 평가와 같은 방법의 유효성을 입증하기 위해 다른 모델이 종종 사용됩니다. 이것은 아무것도 아니지만 품질 연구 된 재산의 본질에 대한 설명. 이 경우 통계 처리에 기반하지 않은 기술의 사용에 대해 이야기하고 있습니다.

현대 심리 측정에서는 진단 기술의 특성과 외부 기준의 일시적인 상태로 인해 진단 기술의 유효성을 확인하기 위해 수십 가지 다른 방법이 개발되었습니다. 그러나 다음 메소드가 가장 자주 명명됩니다.

  • 1. "내용별" 유효성 방법이 전문가의 의견에 유효하다는 것을 의미합니다. 이 기술은 예를 들어 성취 테스트에서 사용됩니다. 일반적으로 성취도 시험에는 학생들이 통과한 모든 자료가 포함되지 않고 일부(3-4문항)가 포함됩니다. 이 몇 가지 질문에 대한 정답이 모든 자료의 동화를 나타내는 것이라고 확신할 수 있습니까? 이것이 콘텐츠 유효성 검사가 대답해야 하는 것입니다. 이를 위해 테스트의 성공을 교사의 전문가 평가(이 자료의 경우)와 비교합니다. 내용 타당도는 전문가 방법을 사용하기 때문에 기준 지향 테스트에도 적합합니다. 시험의 목적은 구체적입니다 - 시험의 내용. 평가자는 검증되는 테스트의 내용으로 광고된 정신 재산과의 관련성에 대해 테스트 항목의 내용을 평가해야 합니다. 이를 위해 전문가에게 테스트 사양과 작업 목록이 제공됩니다. 특정 작업이 사양을 완전히 준수하는 경우 전문가는 테스트 내용에 해당하는 것으로 지정합니다. 이 기술은 때때로 논리적 타당성 또는 "정의에 의한"이라고 합니다. ...
  • 2. "동시에" 유효성 또는 현재 유효성, 테스트 된 방법에 따라 실험과 동시에 정보가 수집되는 외부 기준을 사용하여 결정됩니다. 즉, 시험기간 동안의 학업성적, 같은 기간 동안의 성적 등 현재와 관련된 데이터를 수집한다. 테스트 결과는 그들과 비교됩니다.
  • 3. 예측 유효성 (다른 이름 - "예측" 유효성). 또한 외부 기준에 의해 결정되지만, 이에 대한 정보는 테스트 후 일정 시간이 지나면 수집됩니다. 이 기술은 진단 기술의 작업과 가장 일치하지만 미래의 성공을 예측하지만 적용하기가 매우 어렵습니다. 진단의 정확성은 그러한 예측에 주어진 시간과 반비례합니다. 측정 후 시간이 지날수록 기법의 예측 값을 평가할 때 더 많은 요소를 고려해야 합니다. 그러나 예측에 영향을 미치는 모든 요인을 고려하는 것은 거의 불가능합니다.
  • 4. "소급" 유효성. 과거의 사건이나 품질 상태를 반영하는 기준에 따라 결정됩니다. 기술의 예측 기능에 대한 정보를 빠르게 얻는 데 사용할 수 있습니다. 예를 들어 과거 성적, 과거 전문가 의견 등을 비교하여 적성검사 점수가 얼마나 빠른 학습에 해당하는지 테스트할 수 있습니다. 현재 진단 지표가 높고 낮음.

개발된 방법의 유효성에 대한 데이터를 제시할 때 어떤 유형의 유효성이 의미하는지(내용, 동시성 등) 정확하게 표시하는 것이 중요합니다. 또한 검증된 개인의 수와 특성에 대한 정보를 제공하는 것이 좋습니다. 이 정보를 통해 이 방법을 사용하는 심리학자는 이 기법이 적용하려는 그룹에 대해 이 기법이 얼마나 유효한지 결정할 수 있습니다. 신뢰성의 경우와 마찬가지로 한 샘플에서는 방법의 유효성이 높고 다른 샘플에서는 낮을 수 있음을 기억해야 합니다. 따라서 연구자가 타당성 검사를 수행한 것과 상당히 다른 피험자 표본에 대해 방법론을 사용하려는 경우 해당 검사를 다시 수행해야 합니다. 매뉴얼에 제공된 유효성 계수는 ​​결정된 것과 유사한 주제 그룹에만 적용됩니다.

아나스타지 A.심리 테스트: 2권 M, 1982.
  • 구레비치 K.M.법령. Op.
  • 아나스타지 A.심리 테스트: 2권 M., 1982; Burlachuk L.F., Morozov S.M.사전 참고서지만 심리 진단서. 키에프. 1989년; 구레비치 K.M.법령. 씨.; 일반 정신 진단 / ed. L. L. Bodaleva, V. V. 캐피탈.
    • 벡슬러 비탈리 아브라모비치
    • N.G. Chernyshevsky의 이름을 딴 사라토프 주립 대학교
    • 라이델 레오니드 벤체노비치, 이과후보, 부교수, 부교수
    • Sholem Aleichem의 이름을 딴 Priamur State University
    • 타당성
    • 시험론
    • 테스트
    • 결과
    • 테스트됨
    • 교수법
    • 등급

    이 기사에서는 유효성의 개념과 유형에 대해 설명하고 유효성 계수를 사용하여 교육학적 테스트의 품질을 확인하기 위한 계산 알고리즘을 제공합니다.

    • 비표준 시험항목 설계의 특징
    • 교육 실습에서 테스트 소프트웨어 사용

    오늘날 교육학 시험은 교육 과정의 품질 관리를 위한 가장 일반적인 혁신적인 교육학 도구 중 하나가 되었습니다. 어떤 식 으로든 활동에서 교사는 교육적 테스트를 개발해야 할 필요성에 직면합니다. 생성된 테스트의 품질을 확인해야 합니다. 테스트 품질의 지표 중 하나는 유효성을 확인하는 것입니다.

    "유효성"의 개념은 영어에서 왔습니다. "적합한"을 의미하는 "유효한"이라는 단어. 유효성 - 작성된 테스트의 기본 품질 지표 중 하나는 테스트 자체가 수행된 바로 그 목적에 대한 테스트 후 얻은 결과의 적합성을 특징으로 합니다.

    아바네소프 VS. 그의 기사 "Tests: History and Theory"에서 "타당성은 특정 값을 측정하기 위한 테스트의 적합성을 특성화하지만 적용을 지정하지 않고는 유효성에 대해 말할 수 없습니다." 유효성의 의미를 이해하기 위해 예를 들어 보겠습니다. 두 명의 궁수가 목표물을 쏘고 있습니다. 첫 번째 궁수는 70점, 두 번째 궁수는 100점 만점에 80점을 얻었다. 언뜻 보기에 두 번째 궁수가 첫 번째 궁수보다 나은 것 같다. 그러나 결과를 지정할 때 두 번째 궁수가 다른 사람의 목표물을 명중 한 것으로 나타났습니다. 따라서 두 번째 사수는 "유효하지 않음"이며 앞에 설정된 목표를 달성할 수 없습니다.

    A. Mayorov의 과학 저서 "교육 시스템을 위한 테스트 생성 이론 및 실습"은 "타당성은 테스트가 평가해야 하는 것을 반영할 수 있는 정도를 결정해야 합니다."라고 말합니다.

    테스트 유효성 검사는 유효성을 증명하기 위해 증거를 축적하는 과정에 불과합니다. 테스트 이론에는 타당도에 대한 몇 가지 분류가 있습니다. Mayorov A.는 건설적, 기준적 및 실질적 타당성의 세 가지 유형을 구분합니다.

    구성적 타당성 - 측정된 속성의 개념이 추상적 이미지 형태로 존재하는 경우에 결정된다. 기준 또는 경험적 타당성에서 테스트와 독립 기준 간의 연결 값이 추정됩니다. 연결 정도를 평가하기 위해 수학적 통계 수단이 사용됩니다(두 가지 일련의 값의 상관관계: 테스트 점수 및 외부 매개변수에 대한 지표). 이 경우 현재 유효성과 예측 유효성이라는 두 가지 아종을 구별할 수 있습니다. 현재 타당도는 현재 존재하는 기준과의 상관관계를 살펴봅니다(예: 과목 시험을 학교 성적과 비교). 예측 타당도는 결과를 미래에 나타날 것으로 예상되는 기준과 비교하여 결정됩니다(예: 전년도 결과는 다음 연도로 이월됨).

    P. Kline에 따르면 내용 타당도가 높은 테스트는 다음과 같이 정의할 수 있습니다.

    1. 시험 대상자의 범주를 표시하십시오.
    2. 테스트할 지식, 기술 및 능력의 목록을 만드십시오.
    3. 수신 목록의 완전성과 유효성에 대해 외부 검사를 수행합니다.
    4. 목록을 기반으로 작업 목록을 작성하십시오.
    5. 준비된 과제의 외부 검사를 수행합니다.
    6. 이를 기반으로 테스트가 의미 있는 유효 기간 동안 테스트를 구성하는 테스트 작업을 만듭니다.

    시험 유효성의 수치적 계수를 계산한다는 것은 시험 대상자의 수행이 지식에 대해 독립적으로 결정된 다른 평가와 어떻게 관련되는지 경험적으로 설정하는 것을 의미합니다. 유효성을 결정하기 위해서는 독립적인 외부 기준, 즉 전문가(교사)의 평가가 필요합니다. 테스트 측정 결과와 기준 간의 상관 계수를 유효성 계수로 사용합니다. 시험 절차에 관계없이 얻은 과목 지식에 대한 전문가 평가를 일련의 숫자로 나타내는 경우 Y1, Y2, ..., Yn, 테스트 유효성 계수는 ​​Anastazi A., Avanesov V.S의 작업에서 제안된 공식을 사용하여 계산할 수 있습니다.

    여기서 n은 과목 수, 는 i번째 학생의 전문가 평가, 는 전문가 평가의 산술 평균, 는 전문가 평가의 표준편차, 는 i번째 학생의 정답 개수, 는 정답 수의 산술 평균은 정답 수의 표준 편차입니다.

    ,

    결과 해석:

    a) V가 0.6에서 1 사이의 값을 취하는 경우 - 유효성이 높은 것으로 간주됩니다.

    b) V가 0.3에서 0.6 사이의 값을 취하는 경우 - 유효성은 평균으로 간주됩니다.

    c) V가 0.3보다 작은 경우 - 유효성이 낮은 것으로 간주됩니다.

    테스트의 유효성을 계산하는 예를 살펴보겠습니다.

    "Information Processes" 테스트는 7명의 학생 그룹이 수행해야 합니다(이 예에서는 소그룹을 고려할 것입니다. 실제로는 30명 이상의 그룹에서 테스트를 확인하는 것이 좋습니다). 시험은 10문항으로 구성되어 있습니다.

    전문가는 사전에 결과를 평가합니다(전문가는 이 그룹의 학생들을 잘 알고 이 테스트의 수행 결과를 예측할 수 있는 정보 기술 교사일 수 있음).

    전문가 평가 결과는 표 1과 같다.

    표 1. 전문가 평가 결과.

    학생 수

    내장된 계산 기능을 사용하여 Microsoft Excel 스프레드시트에서 계산을 수행할 수 있습니다.

    전문가 평가의 산술 평균을 계산해 보겠습니다.

    .

    Microsoft Office Excel의 AVERAGE 함수는 선택한 범위에 있는 숫자의 산술 평균을 계산합니다. 특히 범위 B4: B15에 숫자 값이 포함된 경우 수식 = AVERAGE(B4: B15)는 해당 숫자의 산술 평균을 반환합니다.

    전문가 추정치의 표준 편차를 찾아봅시다.

    Microsoft Office Excel의 STDEV 함수는 "n-1" 계산 방법을 기반으로 지정된 샘플을 사용하여 표준 편차를 계산합니다. 동시에 우리는 표준 편차가 이러한 데이터의 산술 평균에 비해 데이터가 얼마나 많이 흩어져 있는지에 대한 추정치임을 지적합니다.

    시험 후 결과를 표 2에 나타내었다.

    표 2. 테스트 결과.

    학생 수

    올바른 추정치의 산술 평균을 계산해 봅시다.

    .

    올바른 추정치 수의 표준 편차를 찾자.

    유효성 계수를 계산해 보겠습니다.

    계산을 기반으로 테스트 "정보 프로세스"의 예에서 고려된 유효성이 높다는 결론을 내릴 수 있습니다. 특정 지표를 기반으로 말할 수 있습니다. 테스트가 결과를 달성한다는 것은 테스트 개발자가 자신의 작업, 즉 이 주제에 대한 고품질 테스트 개발에 대처했음을 의미합니다. 테스트의 품질은 유효성 지표뿐만 아니라 다른 많은 추가 지표에 의해 결정됩니다.

    따라서 유효성 계수를 결정하기 위해 고려한 방법은 교사가 사용할 수 있는 계산 옵션 중 하나이며 생성된 테스트가 설정된 교육 조건을 준수하는지 결정할 수 있습니다.

    서지

    1. Avanesov VS 교육학 시험학의 기본 개념 // 지식 시험 통제의 과학적 문제: 초록. 보고서 학교 세미나 참가자. 엠., 2005.
    2. 아바네소프 VS. 시험: 역사와 이론 // 학교 경영, 1999, no.
    3. 아바네소프 VS. 시험 항목의 형태: 학교 교사, lyceum, 대학 교사를 위한 교과서. 2판. 개정 그리고 확장했다. - M .: 테스팅 센터, 2005 .-- 156 p.
    4. Anastazi A., Urbina S., Alekseev A.A. 심리 테스트 - St. Petersburg, 2007. Ser. 심리학 석사 (7th International Edition).
    5. Kline P. 심리 측정 디자인 소개. 테스트 디자인 참조 가이드. – 키예프: PAN Ltd, 1994. –184 p. 12.
    6. 마요로프 A.N. 교육 시스템을 위한 테스트를 만드는 이론과 실습. - M .: "지능 센터", 2001. -296 p.
    7. 사밀키나 N.N. 학습 결과를 평가하는 현대적인 수단: 교과서 - M.: Binom. 지식 연구소, 2012 .-- 197 p.