يعتبر معامل الصلاحية يساوي 0 8. موثوقية القياس وصلاحيته

قبل أن يمكن استخدام تقنيات التشخيص النفسي لأغراض عملية ، يجب اختبارها وفقًا لعدد من المعايير الرسمية التي تثبت جودتها العالية وفعاليتها. تطورت هذه المتطلبات في التشخيص النفسي على مر السنين في عملية العمل على الاختبارات وتحسينها. نتيجة لذلك ، أصبح من الممكن حماية علم النفس من جميع أنواع عمليات التزوير الأميين التي تدعي أنها تسمى تقنيات التشخيص.

الموثوقية والصلاحية من بين المعايير الرئيسية لتقييم تقنيات التشخيص النفسي. قدم علماء النفس الأجانب مساهمة كبيرة في تطوير هذه المفاهيم (A. Anastasi ، E. Giselli ، J. Guilford ، L. Cronbach ، R. Thorndike ، E. Hagen ، وآخرون). لقد طوروا جهازًا إحصائيًا رسميًا ومنطقيًا ورياضيًا (أولاً وقبل كل شيء ، طريقة الارتباط وتحليل العوامل) لإثبات درجة امتثال الطرق للمعايير المذكورة.

في التشخيص النفسي ، ترتبط مشاكل موثوقية وصلاحية الطرق ارتباطًا وثيقًا ، ومع ذلك ، هناك تقليد لتقديم عرض منفصل لهذه الخصائص الأكثر أهمية. بعد ذلك ، لنبدأ بالنظر في موثوقية التقنيات.

مصداقية

في علم الخصية التقليدي ، المصطلح "الموثوقية" تعني الثبات النسبي ، والاستقرار ، والاتساق لنتائج الاختبار أثناء استخدامه الأولي والمتكرر على نفس الموضوعات.كما يكتب أ. أناستازي [10 ، المجلد 1] ، يصعب الربط بين اختبار الذكاء بكل ثقة إذا كان لدى الطفل مؤشر 110 في بداية الأسبوع ، و 80 في النهاية. الطرق تعطي تقديرات مماثلة. في الوقت نفسه ، إلى حد ما ، قد تتطابق النتائج نفسها والمكان الترتيبي (الرتبة) الذي يحتله الموضوع في المجموعة. في كلتا الحالتين ، عند تكرار التجربة ، من الممكن حدوث بعض التناقضات ، لكن من المهم أن تكون غير مهمة ، داخل نفس المجموعة. وبالتالي ، يمكننا القول أن موثوقية التقنية هي معيار يتحدث عن دقة القياسات النفسية ، أي أنه يسمح لنا بالحكم على مدى موثوقية النتائج التي تم الحصول عليها.

تعتمد درجة موثوقية التقنيات على عدة أسباب. لذلك ، هناك مشكلة مهمة في التشخيص العملي وهي توضيح العوامل التي تقلل دقة القياسات. جرت محاولة لتصنيف هذه العوامل. من بينها ، غالبًا ما يتم تسمية ما يلي:

1) عدم استقرار الممتلكات المشخصة ؛

2) النقص في تقنيات التشخيص (يتم وضع التعليمات بلا مبالاة ، والمهام غير متجانسة في طبيعتها ، والتعليمات حول كيفية تقديم التقنية إلى الأشخاص غير واضحة ، وما إلى ذلك) ؛

3) الوضع المتغير للمسح (أوقات مختلفة من اليوم الذي يتم فيه إجراء التجارب ، والإضاءة المختلفة للغرفة ، ووجود أو عدم وجود ضوضاء غريبة ، وما إلى ذلك) ؛

4) الاختلافات في سلوك المجرب (من تجربة إلى أخرى تقدم التعليمات بطرق مختلفة ، وتحفز أداء المهام بطرق مختلفة ، وما إلى ذلك) ؛

5) تقلبات في الحالة الوظيفية للموضوع (في تجربة واحدة ، لوحظ صحة جيدة ، في أخرى - التعب ، وما إلى ذلك) ؛

6) عناصر الذاتية في طرق تقييم النتائج وتفسيرها (عندما يتم تسجيل ردود الموضوعات ، يتم تقييم الإجابات وفقًا لدرجة الاكتمال والأصالة وما إلى ذلك).

إذا تم أخذ كل هذه العوامل في الاعتبار وحاولنا التخلص من الظروف التي تقلل من دقة القياس في كل منها ، فيمكن تحقيق مستوى مقبول من موثوقية الاختبار. إحدى أهم وسائل زيادة موثوقية طرق التشخيص النفسي هي توحيد إجراء الفحص ، وتنظيمه الصارم: نفس البيئة وظروف العمل لعينة الأشخاص الذين شملهم الاستطلاع ، ونفس نوع التعليمات ، ونفس القيود الزمنية للجميع وطرق وخصائص الاتصال بالمواضيع وترتيب عرض المهام وما إلى ذلك. مع مثل هذا التوحيد القياسي لإجراءات البحث ، من الممكن تقليل تأثير العوامل العشوائية الدخيلة على نتائج الاختبار بشكل كبير وبالتالي زيادة موثوقيتها.

العينة المدروسة لها تأثير كبير على خصائص موثوقية الطرق. يمكن أن يقلل ويبالغ في تقدير هذا المؤشر ، على سبيل المثال ، يمكن المبالغة في تقدير الموثوقية بشكل مصطنع إذا كان هناك مبعثر صغير للنتائج في العينة ، أي إذا كانت النتائج قريبة من بعضها البعض في قيمها. في هذه الحالة ، عند إعادة الفحص ، سيتم وضع النتائج الجديدة أيضًا في مجموعة قريبة. ستكون التغييرات المحتملة في تصنيفات الموضوعات غير ذات أهمية ، وبالتالي ، ستكون موثوقية الطريقة عالية. يمكن أن تنشأ نفس المبالغة غير المبررة في تقدير الموثوقية عند تحليل نتائج عينة تتكون من مجموعة ذات درجات عالية جدًا ومجموعة ذات درجات اختبار منخفضة جدًا. ثم لن تتداخل هذه النتائج التي تم إزالتها بعيدًا ، حتى لو كانت العوامل العشوائية تتداخل مع الظروف التجريبية. لذلك ، يصف الدليل عادةً العينة التي تم تحديد موثوقية الطريقة على أساسها.

في الوقت الحاضر ، يتم تحديد الموثوقية بشكل متزايد على العينات الأكثر تجانسًا ، أي على عينات متشابهة في الجنس والعمر ومستوى التعليم والتدريب المهني ، إلخ. لكل عينة من هذه العينات ، يتم تقديم معاملات الموثوقية الخاصة بها. لا ينطبق مؤشر الموثوقية المحدد إلا على مجموعات مماثلة لتلك التي تم تحديدها عليها. إذا تم تطبيق التقنية على عينة تختلف عن تلك التي تم اختبار موثوقيتها عليها ، فيجب تكرار هذا الإجراء.

نظرًا لأن الموثوقية تعكس درجة الاتساق بين سلسلتين من المؤشرات التي تم الحصول عليها بشكل مستقل ، فإن الأسلوب الرياضي والإحصائي الذي يتم من خلاله إنشاء موثوقية الطريقة هو الارتباطات(بحسب بيرسون أو سبيرمان). كلما اقترب معامل الارتباط الذي تم الحصول عليه من واحد ، والعكس صحيح ، زادت الموثوقية.

في هذا الكتاب ، عند وصف أنواع الموثوقية ، ينصب التركيز الرئيسي على عمل K.M. Gurevich ، الذي اقترح ، بعد إجراء تحليل شامل للأدب الأجنبي حول هذه المشكلة ، تفسير الموثوقية على أنها خاصية معقدة ، بما في ذلك:

♦ موثوقية أداة القياس نفسها ؛

♦ ثبات الصفة المدروسة.

♦ الثبات ، أي الاستقلال النسبي للنتائج عن شخصية المجرب.

واقترح تعيين المؤشرات الرئيسية على النحو التالي:

♦ يُقترح استدعاء مؤشر يميز أداة قياس عامل الموثوقية

♦ مؤشر يميز ثبات الخاصية المقاسة - معامل الاستقرار

♦ مؤشر لتقييم تأثير شخصية المجرب- معامل ثابت.

يوصى بهذا الترتيب للتحقق من طريقة الموثوقية: يُنصح أولاً بفحص أداة القياس. إذا كانت البيانات التي تم الحصول عليها مرضية ، فيمكن عندئذٍ المضي قدمًا في إنشاء مقياس ثبات الخاصية المقاسة ، وبعد ذلك فقط ، إذا لزم الأمر ، معالجة معيار الثبات.

دعونا نتعمق في دراسة أكثر تفصيلاً لهذه المؤشرات ، والتي تميز موثوقية تقنية التشخيص النفسي من جوانب مختلفة.

تحديد موثوقية أداة القياس.تعتمد دقة وموضوعية أي قياس نفسي على كيفية تكوين المنهجية ، ومدى اختيار المهام بشكل صحيح من وجهة نظر الاتساق المتبادل ، ومدى تجانسها. يظهر التجانس الداخلي للمنهجية أن مهامها تحقق نفس الخاصية ، التوقيع.

للتحقق من موثوقية أداة القياس ، التي تتحدث عن تجانسها (أو تجانسها) ، يتم استخدام ما يسمى بطريقة "التقسيم". عادةً ما يتم تقسيم المهام إلى مهام فردية وزوجية ، وتتم معالجتها بشكل منفصل ، ثم ترتبط نتائج السلسلتين اللتين تم الحصول عليهما ببعضهما البعض. لاستخدام هذه الطريقة ، تحتاج إلى وضع الموضوعات في مثل هذه الظروف حتى يتمكنوا من حل (أو محاولة حل) جميع المهام. إذا كانت المنهجية متجانسة ، فلن يكون هناك فرق كبير في نجاح الحل لمثل هذه النصفين ، وبالتالي ، سيكون معامل الارتباط مرتفعًا جدًا.

يمكنك تقسيم المهام بطريقة أخرى. على سبيل المثال ، يمكنك مقارنة النصف الأول من الاختبار بالربع الثاني ، والربع الأول والثالث بالربع الثاني والرابع ، إلخ. ومع ذلك ، يبدو أن "التقسيم" إلى مهام فردية وزوجية هو الأنسب ، نظرًا لأن هذه الطريقة هي الأكثر استقلالية عن تأثير عوامل مثل قابلية العمل والتدريب والتعب وما إلى ذلك.

يتم التعرف على الطريقة على أنها موثوقة عندما لا يقل المعامل الذي تم الحصول عليه عن 0.75-0.85. تعطي أفضل اختبارات الموثوقية معاملات من الدرجة 0.90 أو أكثر.

تحديد ثبات الصفة قيد الدراسة.لا يعني تحديد موثوقية التقنية نفسها حل جميع المشكلات المرتبطة بتطبيقها. من الضروري أيضًا تحديد مدى استقرار واستقرار السمة التي ينوي الباحث قياسها. سيكون من الخطأ المنهجي الاعتماد على الاستقرار المطلق للخصائص النفسية. لا يوجد شيء خطير على الموثوقية في حقيقة أن الخاصية المقاسة تتغير بمرور الوقت. بيت القصيد هو إلى أي مدى تختلف النتائج من تجربة إلى أخرى لنفس الموضوع ، وما إذا كانت هذه التقلبات لا تؤدي إلى حقيقة أن الموضوع ، لسبب غير معروف ، هو الآن في البداية ، والآن في المنتصف ، والآن في نهاية العينة. من المستحيل استخلاص أي استنتاجات محددة حول مستوى تمثيل السمة المقاسة في مثل هذا الموضوع. وبالتالي ، يجب ألا تكون التقلبات في الميزة غير متوقعة. إذا كانت أسباب التقلب الحاد غير واضحة ، فلا يمكن استخدام هذه العلامة لأغراض التشخيص.

للتحقق من ثبات السمة المشخصة ، الخاصية ، يتم استخدام تقنية تُعرف باسم اختبار إعادة الاختبار.وهي تتمثل في إعادة فحص الموضوعات باستخدام نفس التقنية. يتم الحكم على ثبات السمة من خلال معامل الارتباط بين نتائج المسح الأول والثاني. ويشهد على حفظ أو عدم حفظ كل موضوع لرقمه التسلسلي في العينة.

تتأثر درجة ثبات واستقرار الخاصية المُشخَّصة بعدة عوامل. عددهم كبير جدا. لقد ذكرنا بالفعل مدى أهمية مراعاة متطلبات توحيد الإجراء التجريبي. لذلك ، على سبيل المثال ، إذا تم إجراء الاختبار الأول في الصباح ، فيجب إجراء الاختبار الثاني في الصباح ؛ إذا كانت التجربة الأولى مصحوبة بعرض أولي للمهام ، فيجب أيضًا استيفاء هذا الشرط أثناء إعادة الاختبار ، وما إلى ذلك.

عند تحديد ثبات سمة ، يكون للفاصل الزمني بين المسح الأول والثاني أهمية كبيرة. كلما كانت الفترة أقصر من الاختبار الأول إلى الاختبار الثاني (تساوي الأشياء الأخرى) ، زادت فرص احتفاظ الأعراض التي تم تشخيصها بمستوى الاختبار الأول. مع زيادة الفاصل الزمني ، يميل استقرار السمة إلى الانخفاض ، حيث يزداد عدد العوامل الخارجية التي تؤثر عليها. لذلك ، يشير الاستنتاج إلى أنه من المستحسن إعادة الاختبار بعد فترة وجيزة من الأول. ومع ذلك ، توجد صعوبات هنا: إذا كانت الفترة بين التجربتين الأولى والثانية قصيرة ، فيمكن لبعض الأشخاص إعادة إنتاج إجاباتهم السابقة من الذاكرة ، وبالتالي الابتعاد عن معنى إكمال المهام. في هذه الحالة ، لم يعد من الممكن اعتبار نتائج عرضين لهذه التقنية مستقلة.

من الصعب الإجابة بوضوح على السؤال عن المدة التي يمكن اعتبارها مثالية لتكرار التجربة. يجب على الباحث فقط ، انطلاقا من الجوهر النفسي للمنهجية ، والظروف التي يتم تنفيذها فيها ، وخصائص عينة الموضوعات ، تحديد هذه الفترة. علاوة على ذلك ، يجب أن يكون هذا الاختيار مثبتًا علميًا. في الأدبيات الخاصة بالخصية ، غالبًا ما يتم استدعاء فترات زمنية من عدة أشهر (ولكن ليس أكثر من ستة أشهر). عند فحص الأطفال أصغر سناعندما تحدث التغيرات والتطورات المرتبطة بالعمر بسرعة كبيرة ، يمكن أن تكون هذه الفترات في حدود عدة أسابيع.

يجب أن يكون معامل ثبات الطريقة مرتفعًا بدرجة كافية (لا يقل عن 0.80).

تحديد الثبات(الاستقلال النسبي للنتائج من شخصية المجرب). نظرًا لأن التقنية التي تم تطويرها لأغراض التشخيص لا تهدف إلى البقاء إلى الأبد في أيدي مبتكريها ، فمن المهم للغاية معرفة إلى أي مدى تتأثر نتائجها بشخصية المجرب. على الرغم من أن تقنية التشخيص يتم تزويدها دائمًا بإرشادات مفصلة لاستخدامها ، والقواعد والأمثلة التي تشير إلى كيفية إجراء التجربة ، إلا أنه من الصعب جدًا تنظيم سلوك المجرب ، وسرعة الكلام ، ونبرة الصوت ، والتوقفات ، وتعبيرات الوجه. سوف يعكس الموضوع في موقفه من التجربة دائمًا كيف يرتبط المجرب نفسه بهذه التجربة (يعترف بالإهمال أو يتصرف وفقًا لمتطلبات الإجراء تمامًا ، ويظهر الدقة أو المثابرة أو عدم التحكم ، إلخ).

على الرغم من أنه نادرًا ما يتم استخدام معيار الثبات في الممارسة التوثيقية ، إلا أن هذا لا يمكن أن يكون بمثابة أساس للتقليل من شأنه. إذا كان لدى مؤلفي الطريقة شكوك حول التأثير المحتمل لشخصية المجرب على نتيجة إجراء التشخيص ، فمن المستحسن التحقق من الطريقة وفقًا لهذا المعيار. من المهم أن تضع في اعتبارك النقطة التالية. إذا بدأ جميع الأشخاص من نفس الدرجة ، تحت تأثير المجرب الجديد ، في العمل بشكل أفضل قليلاً أو أسوأ قليلاً ، فإن هذه الحقيقة في حد ذاتها (على الرغم من أنها تستحق الاهتمام) لن تؤثر على موثوقية التقنية. ستتغير الموثوقية فقط عندما يكون تأثير المُختبِر على الموضوعات مختلفًا: بدأ البعض في العمل بشكل أفضل ، والبعض الآخر أسوأ ، والبعض الآخر لا يزال بنفس الطريقة كما هو الحال مع المجرب الأول. بمعنى آخر ، إذا غير الأشخاص الذين لديهم المجرب الجديد مواضعهم الترتيبية في العينة.

يتم تحديد معامل الثبات من خلال ربط نتائج تجربتين تم إجراؤها في ظل ظروف متطابقة نسبيًا على نفس العينة من الموضوعات ، ولكن بواسطة مجربين مختلفين. يجب ألا يقل معامل الارتباط عن 0.80.

لذلك ، تم النظر في ثلاثة مؤشرات لموثوقية تقنيات التشخيص النفسي. قد يطرح السؤال ، هل من الضروري التحقق من كل منهم عند إنشاء الأساليب؟ يجب الإجابة على هذا السؤال بالإيجاب.

لذلك ، لاحظ مؤلفو "المتطلبات القياسية للاختبارات التربوية والنفسية" في فصل "الموثوقية" أن معامل الموثوقية هو مفهوم عام يتضمن عدة أنواع ، ولكل نوع معنى خاص به. يشارك KM Gurevich وجهة النظر هذه. في رأيه ، عندما يتحدثون عن طرق مختلفة لتحديد الموثوقية ، فإنهم لا يتعاملون مع مقياس أفضل أو أسوأ ، ولكن مع مقاييس موثوقية مختلفة بشكل أساسي. في الواقع ، ما هي قيمة التقنية إذا لم يكن من الواضح ما إذا كانت موثوقة في حد ذاتها كأداة قياس ، أو لم يتم إثبات استقرار الخاصية المقاسة؟ ما هي تكلفة تقنية التشخيص إذا لم يكن معروفًا ما إذا كانت النتائج قد تتغير بناءً على من يقوم بإجراء التجربة؟ لا يحل كل مؤشر فردي بأي حال من الأحوال محل طرق التحقق الأخرى ، وبالتالي لا يمكن اعتباره خاصية ضرورية وكافية للموثوقية. فقط التقنية ذات الخصائص الكاملة للموثوقية هي الأنسب للتطبيقات التشخيصية والعملية.

صلاحية

بعد الموثوقية ، هناك معيار رئيسي آخر لتقييم جودة الأساليب وهو الصلاحية. يتم تحديد مسألة صلاحية الطريقة فقط بعد إثبات موثوقيتها الكافية ، نظرًا لأن الطريقة غير الموثوق بها لا يمكن أن تكون صالحة. لكن الأسلوب الأكثر موثوقية يكون عديم الفائدة عمليًا دون معرفة صلاحيته.

وتجدر الإشارة إلى أن مسألة الصلاحية حتى وقت قريب تبدو من أصعبها. إن التعريف الأكثر تأصلاً لهذا المفهوم هو ذلك الذي ورد في كتاب أ. أناستاسي: "صلاحية الاختبار هي مفهوم يخبرنا بما يقيسه الاختبار ومدى نجاحه".

الصلاحية بطبيعتها خاصية معقدة ، بما في ذلك ، من ناحية ، معلومات حول ما إذا كانت التقنية مناسبة لقياس ما تم إنشاؤه من أجله ، ومن ناحية أخرى ، ما هي فعاليتها وكفاءتها وفائدتها العملية.

لهذا السبب ، لا يوجد نهج عالمي واحد لتحديد الصلاحية. اعتمادًا على جانب الصلاحية الذي يريد الباحث مراعاته ، يتم استخدام طرق مختلفة للإثبات. بعبارة أخرى ، يشمل مفهوم الصلاحية أنواعه المختلفة ، والتي لها معنى خاص بها. التحقق من صحة تقنية ما يسمى التحقق من الصحة.

ترتبط الصلاحية بمعناها الأول بالطريقة نفسها ، أي صلاحية أداة القياس. هذا الشيك يسمى التحقق النظري.لا تشير الصلاحية بالمعنى الثاني بالفعل إلى التقنية بقدر ما تشير إلى الغرض من استخدامها. هذا هو التحقق العملي.

بإيجاز ، يمكننا أن نقول ما يلي:

♦ في التحقق النظري يهتم الباحث بالممتلكات نفسها مقاسة بالطريقة. هذا يعني بشكل أساسي أن التحقق النفسي الفعلي يتم تنفيذه ؛

♦ مع التحقق العملي ، يكون جوهر موضوع القياس (الخصائص النفسية) بعيدًا عن الأنظار. ينصب التركيز الرئيسي على إثبات أن الشيء الذي يتم قياسه بالمنهجية له صلة بمجالات معينة من الممارسة.

سلوك التحقق النظري، على عكس البراغماتية ، في بعض الأحيان يكون الأمر أكثر صعوبة. دون الخوض في تفاصيل محددة حتى الآن ، دعنا نتحدث بعبارات عامة عن كيفية التحقق من الصلاحية الواقعية: يتم اختيار معيار خارجي مستقل عن المنهجية الذي يحدد النجاح في نشاط معين (تعليمي ، ومهني ، وما إلى ذلك) ، ومعه النتائج من تقنية التشخيص. إذا تم التعرف على العلاقة بينهما على أنها مرضية ، يتم التوصل إلى استنتاج حول الأهمية العملية والكفاءة والفعالية لتقنية التشخيص.

لتحديد الصلاحية النظرية ، من الصعب العثور على أي معيار مستقل يقع خارج المنهجية. لذلك ، في المراحل الأولى من تطور علم الخصية ، عندما كان مفهوم الصلاحية يتشكل للتو ، كانت هناك فكرة بديهية مفادها أن الاختبار يقيس:

1) سميت الطريقة بأنها صالحة ، لأن ما تقيسه واضح بكل بساطة ؛

2) استند إثبات الصدق إلى ثقة الباحث في أن طريقته تسمح بفهم الموضوع.

3) تم اعتبار التقنية صالحة (أي ، تم قبول البيان بأن هذا الاختبار يقيس كذا وكذا الجودة) فقط لأن النظرية التي تم بناء التقنية على أساسها جيدة جدًا.

لا يمكن أن يستمر قبول العبارات التي لا أساس لها حول صحة المنهجية لفترة طويلة. دحضت المظاهر الأولى للنقد العلمي حقًا هذا النهج: بدأ البحث عن الأدلة القائمة على أساس علمي.

وبالتالي ، لإجراء التحقق النظري من الطريقة لإثبات أن التقنية تقيس الخاصية بالضبط ، الجودة التي يجب قياسها وفقًا لنية الباحث.

لذلك ، على سبيل المثال ، إذا تم تطوير اختبار من أجل تشخيص التطور العقلي للأطفال ، فمن الضروري تحليل ما إذا كان يقيس هذا التطور بعينه ، وليس بعض الميزات الأخرى (على سبيل المثال ، الشخصية ، الشخصية ، إلخ). وبالتالي ، من أجل التحقق النظري ، فإن المشكلة الأساسية هي العلاقة بين الظواهر النفسية ومؤشراتها ، والتي من خلالها تحاول هذه الظواهر النفسية إدراكها. يوضح هذا مدى توافق نية المؤلف ونتائج المنهجية.

ليس من الصعب التحقق من صحة طريقة جديدة نظريًا إذا كانت هناك بالفعل طريقة ثبت صحتها لقياس هذه الخاصية. يشير وجود علاقة بين المنهجية الجديدة والمنهجية المماثلة المثبتة بالفعل إلى أن المنهجية المطورة تقيس نفس الجودة النفسية مثل المنهجية المرجعية. وإذا تبين أن الطريقة الجديدة في نفس الوقت أكثر إحكاما واقتصادية في إجراء ومعالجة النتائج ، فإن التشخيص النفسي يحصل على فرصة لاستخدام الأداة الجديدة بدلاً من الأداة القديمة.

لكن تم إثبات الصلاحية النظرية ليس فقط من خلال المقارنة مع المؤشرات ذات الصلة ، ولكن أيضًا مع تلك التي ، بناءً على الفرضية ، لا ينبغي أن تكون هناك روابط مهمة. وبالتالي ، من أجل التحقق من الصلاحية النظرية ، من المهم ، من ناحية ، تحديد درجة الارتباط بالمنهجية ذات الصلة. (صحة متقاربة)وعدم وجود هذا الارتباط مع التقنيات التي لها أساس نظري مختلف (تفحص العنصرية).

يكون إجراء التحقق النظري لطريقة ما أكثر صعوبة عندما تكون هذه الطريقة في التحقق مستحيلة. هذا هو الموقف الذي يواجهه الباحث غالبًا. في مثل هذه الظروف ، فقط التراكم التدريجي للمعلومات المختلفة حول الخاصية المدروسة ، وتحليل المباني النظرية والبيانات التجريبية ، والخبرة الكبيرة مع التقنية تسمح لنا بالكشف عن معناها النفسي.

دور مهم لفهم ماهية مقاييس المنهجية يتم لعبه من خلال مقارنة مؤشراتها بالأشكال العملية من النشاط. ولكن من المهم هنا بشكل خاص أن يتم وضع المنهجية بعناية من الناحية النظرية ، أي أن هناك قاعدة صلبة ذات أسس جيدة قاعدة علمية... ثم ، عند مقارنة المنهجية بمعيار خارجي مأخوذ من الممارسة اليومية ، المقابلة لما تقيسه ، يمكن الحصول على المعلومات التي تدعم الأفكار النظرية حول جوهرها.

من المهم أن نتذكر أنه إذا تم إثبات الصلاحية النظرية ، فإن تفسير المؤشرات التي تم الحصول عليها يصبح أكثر وضوحًا ولا لبس فيه ، ويتوافق اسم الطريقة مع نطاق تطبيقها. بخصوص التحقق العمليثم يعني التحقق من المنهجية من وجهة نظرها الكفاءة العملية ، الأهمية ، الفائدة ،نظرًا لأنه من المنطقي استخدام تقنية التشخيص فقط عندما يثبت أن الخاصية المقاسة تتجلى في مواقف حياتية معينة ، في أنواع معينة من النشاط. إنهم يعلقون عليها أهمية كبيرة ، خاصة عندما تثار مسألة الاختيار.

إذا عدنا مرة أخرى إلى تاريخ تطور علم الخصية ، يمكننا التمييز بين هذه الفترة (20-30 من القرن العشرين) ، عندما كان المحتوى العلمي للاختبارات وأمتعتهم النظرية أقل أهمية. كان من المهم أن ينجح الاختبار ، للمساعدة في اختيار الأشخاص الأكثر استعدادًا بسرعة. يعتبر المعيار التجريبي لتقييم عناصر الاختبار هو المبدأ التوجيهي الصحيح الوحيد في حل المشكلات العلمية والتطبيقية.

غالبًا ما أدى استخدام تقنيات التشخيص مع تبرير تجريبي بحت ، دون أساس نظري واضح ، إلى استنتاجات علمية زائفة ، إلى توصيات عملية غير مبررة. كان من المستحيل تحديد تلك الميزات والصفات التي كشفت عنها الاختبارات بالضبط. كانت في الأساس اختبارات عمياء.

كان هذا النهج لمشكلة صلاحية الاختبار نموذجيًا حتى أوائل الخمسينيات من القرن الماضي. القرن العشرين ليس فقط في الولايات المتحدة ، ولكن أيضًا في بلدان أخرى. لا يمكن للضعف النظري للطرق التجريبية للتحقق من الصحة إلا أن يثير الانتقادات من هؤلاء العلماء الذين طالبوا ، في تطوير الاختبارات ، بالاعتماد ليس فقط على التجريبية والممارسة ، ولكن أيضًا على المفهوم النظري. من المعروف أن الممارسة بدون نظرية عمياء ، والنظرية بدون ممارسة ميتة. في الوقت الحاضر ، يُنظر إلى التقييم النظري والعملي لصحة الأساليب على أنه الأكثر إنتاجية.

مستقل معيار خارجي- مؤشر على مظاهر الخاصية المدروسة في الحياة اليومية. يمكن أن يكون هذا المعيار هو الأداء الأكاديمي (لاختبارات القدرة على التعلم ، واختبارات الإنجاز ، واختبارات الذكاء) ، وإنجازات الإنتاج (لأساليب التوجيه المهني) ، وفعالية الأنشطة الحقيقية - الرسم ، والنمذجة ، وما إلى ذلك (على سبيل المثال) اختبارات القدرات الخاصة) ، التقييمات الذاتية (لاختبارات الشخصية).

يميز الباحثان الأمريكيان د.تيفين وإي ماكورميك ، بعد تحليل المعايير الخارجية المستخدمة لإثبات الصدق ، أربعة أنواع منها [31 لكل منهما):

1) معايير الأداء (قد تشمل حجم العمل المنجز ، والأداء الأكاديمي ، والوقت الذي يقضيه في التدريب ، ومعدل نمو المؤهلات ، وما إلى ذلك) ؛

2) المعايير الذاتية (تشمل أنواعًا مختلفة من الإجابات التي تعكس موقف الشخص تجاه شيء ما أو شخص ما ، ورأيه ، وآرائه ، وتفضيلاته ؛ وعادة ما يتم الحصول على المعايير الشخصية من خلال المقابلات والاستبيانات والاستبيانات) ؛

3) المعايير الفسيولوجية (تستخدم لدراسة التأثير بيئةوالمتغيرات الظرفية الأخرى على جسم الإنسان والنفسية ؛ قياس معدل النبض ، وضغط الدم ، والمقاومة الكهربائية للجلد ، وأعراض التعب ، وما إلى ذلك) ؛

4) معايير الحوادث (تُطبق عندما يتعلق الغرض من الدراسة ، على سبيل المثال ، بمشكلة اختيار الأشخاص الأقل عرضة للحوادث للعمل).

يجب أن يستوفي المعيار الخارجي ثلاثة متطلبات أساسية:

♦ يجب أن تكون ذات صلة ؛

♦ خالية من التدخل ؛

♦ موثوق.

تحت ملاءمةأعني المراسلات الدلالية لأداة التشخيص مع معيار حيوي مستقل. بمعنى آخر ، يجب أن تكون هناك ثقة في أن المعايير تتضمن تحديدًا سمات النفس الفردية التي يتم قياسها بواسطة طريقة التشخيص. يجب أن يكون المعيار الخارجي وأسلوب التشخيص في تطابق دلالي داخلي مع بعضهما البعض ، وأن يكونا متجانسين نوعياً في الجوهر النفسي. إذا كان الاختبار ، على سبيل المثال ، يقيس الخصائص الفردية للتفكير ، والقدرة على أداء أفعال منطقية بأشياء ومفاهيم معينة ، فمن الضروري في المعيار البحث عن مظهر من مظاهر هذه المهارات على وجه التحديد. هذا ينطبق بالتساوي على الأنشطة المهنية. ليس له هدف واحد ، بل العديد من الأهداف والمهام ، كل منها محدد ويقدم شروطه الخاصة للتنفيذ. هذا يعني وجود عدة معايير لأداء الأنشطة المهنية. لذلك ، لا ينبغي إجراء مقارنة بين نجاح التشخيص والأداء العام. من الضروري إيجاد معيار يرتبط ، بحكم طبيعة العمليات المنجزة ، بالمنهجية.

إذا لم يكن معروفًا فيما يتعلق بمعيار خارجي ما إذا كان مناسبًا للخاصية المقاسة أم لا ، فإن مقارنة نتائج تقنية التشخيص النفسي بها تصبح عديمة الفائدة عمليًا. لا يسمح لأحد بالتوصل إلى أي استنتاجات يمكن أن تقيم صحة الطريقة.

متطلبات التحرر من التدخلناتجة عن حقيقة أن النجاح التعليمي أو الصناعي ، على سبيل المثال ، يعتمد على متغيرين: على الشخص نفسه ، شخصه الخصائص الفرديةتقاس بالطرق ، وبالحالة ، وظروف الدراسة ، والعمل ، التي يمكن أن تؤدي إلى التداخل ، "تلوث" المعيار المطبق. لتجنب هذا إلى حد ما ، من الضروري أن تختار للبحث مثل هذه المجموعات من الأشخاص الذين هم في نفس الظروف إلى حد ما. يمكن استخدام طريقة أخرى. يتكون في تصحيح تأثير التدخل. عادة ما يكون هذا التعديل إحصائيًا بطبيعته. على سبيل المثال ، يجب ألا تؤخذ الإنتاجية من حيث القيمة المطلقة ، ولكن فيما يتعلق بمتوسط ​​إنتاجية العمال الذين يعملون في ظروف مماثلة.

عندما يقال أن المعيار يجب أن يكون ذا دلالة إحصائية إمكانية الإعتماد على،هذا يعني أنه يجب أن يعكس ثبات واستقرار الوظيفة قيد الدراسة.

يعد البحث عن معيار مناسب يسهل التعرف عليه مهمة مهمة للغاية وصعبة للتحقق من صحتها. في علم الخصية الغربي ، العديد من الطرق غير مؤهلة فقط لأنها لم تجد معيارًا مناسبًا لاختبارها. على سبيل المثال ، بالنسبة لمعظم الاستبيانات ، فإن البيانات المتعلقة بصحتها مشكوك فيها ، لأنه من الصعب العثور على معيار خارجي مناسب يتوافق مع ما يقيسونه.

يمكن أن يكون تقييم صحة الأساليب كميًا ونوعيًا.

لكي يحسب كميالمؤشر - معامل الصلاحية - تتم مقارنة النتائج التي تم الحصول عليها عند استخدام تقنية التشخيص مع البيانات التي تم الحصول عليها وفقًا لمعيار خارجي لنفس الأشخاص. يتم استخدام أنواع مختلفة من الارتباط الخطي (وفقًا لسبيرمان ، بيرسون).

كم عدد المواد اللازمة لحساب الصلاحية؟

لقد أثبتت الممارسة أنه لا ينبغي أن يكون هناك أقل من 50 منهم ، ولكن أكثر من 200 هو الأفضل. غالبًا ما يطرح السؤال ، ما هي قيمة معامل الصلاحية حتى يعتبر مقبولاً؟ بشكل عام ، يلاحظ أنه يكفي أن يكون معامل الصلاحية ذا دلالة إحصائية. يتم التعرف على معامل الصلاحية للترتيب 0.20-0.30 منخفضًا ، 0.30-0.50 متوسطًا وأكثر من 0.60 مرتفعًا.

ولكن ، كما يؤكد A. Anastazi و K.M. Gurevich وآخرون ، ليس من المناسب دائمًا استخدام الارتباط الخطي لحساب معامل الصلاحية. يتم تبرير هذه التقنية فقط عندما يتم إثبات أن النجاح في بعض الأنشطة يتناسب طرديًا مع النجاح في إجراء اختبار تشخيصي. غالبًا ما يتلخص موقع المختبرين الأجانب ، وخاصة أولئك الذين يشاركون في الكفاءة المهنية والاختيار المهني ، في الاعتراف غير المشروط بأن الشخص الذي أكمل المزيد من المهام في الاختبار هو أكثر ملاءمة للمهنة. ولكن قد يكون الأمر كذلك أنه لتحقيق النجاح في النشاط ، يجب أن يكون لديك خاصية عند مستوى 40٪ من حل الاختبار. المزيد من النجاح في الاختبار لم يعد له أي معنى بالنسبة للمهنة. مثال توضيحي من دراسة كتبها K.M. Gurevich: يجب أن يكون ساعي البريد قادرًا على القراءة ، ولكن سواء كان يقرأ بسرعة عادية أو بسرعة عالية جدًا ، لم يعد له معنى احترافي. مع هذه النسبة من مؤشرات المنهجية والمعيار الخارجي ، قد يكون معيار الاختلافات هو الطريقة الأكثر ملاءمة لإثبات الصلاحية.

هناك حالة أخرى ممكنة أيضًا: مستوى الجودة الأعلى مما تتطلبه المهنة هو عائق أمام النجاح المهني. لذلك ، حتى في فجر القرن العشرين. وجد الباحث الأمريكي ف. تايلور أن أكثر العمال تقدمًا في الإنتاج لديهم إنتاجية عمالية منخفضة. أي أن المستوى العالي لنموهم العقلي منعهم من العمل بشكل منتِج للغاية. في هذه الحالة ، سيكون تحليل التباين أو حساب نسب الارتباط أكثر ملاءمة لحساب معامل الصلاحية.

كما أوضحت تجربة خبراء الاختبارات الأجانب ، لا يوجد إجراء إحصائي قادر على أن يعكس بشكل كامل تنوع التقييمات الفردية. لذلك ، غالبًا ما يتم استخدام نموذج مختلف لإثبات صحة الأساليب - التقييمات السريرية. هذا ليس سوى جودةوصف جوهر الممتلكات المدروسة. في هذه الحالة ، نتحدث عن استخدام تقنيات لا تعتمد على المعالجة الإحصائية.

أسئلة ومهام

1. إعطاء تعريف لمفهوم "توحيد التقنيات".

2. ما هي عينة تمثيلية؟ كيف يتم بناؤه؟

3. ما هي معايير تقييم نتائج الاختبارات التشخيصية الواردة في الفصل؟

4. ما هي موثوقية التقنية؟ ما هي أنواع الموثوقية.

5. ما هي صلاحية الطريقة؟ ما هي أنواعها الرئيسية.

1. أناستازي أ.الاختبار النفسي: في 2 كتب. / إد. K.M Gurevich ، V. I. Lubovsky. الكتاب. 1. - م ، 1982.

2. Burlachuk L.F.التشخيص النفسي. - SPb. ، 2003.

3. بيرلاتشوك إل إف ، موروزوف إس إم.قاموس - كتاب مرجعي للتشخيص النفسي. - كييف 1989.

4. Gaida V.K. ، Zakharov V.P.الاختبار النفسي. - إل ، 1982.

5. جورفيتش ك.حول موثوقية المؤشرات النفسية الفسيولوجية // مشاكل الفسيولوجيا النفسية التفاضلية. T. 6. - م ، 1969.

6. جورفيتش ك.مصداقية الاختبارات النفسية // التشخيصات النفسية. مشاكلها وطرقها. - م ، 1975.

7. جورفيتش ك.الإحصاء جهاز لإثبات التشخيصات النفسية // مشاكل التشخيص النفسي. - تالين 1977.

8. جورفيتش ك.ما هو التشخيص النفسي. - م ، 1985.

9. جورفيتش ك.مشاكل علم النفس التفاضلي. - م ؛ فورونيج ، 1998.

10. نص آي.مقدمة في تقنية التشخيص النفسي. - م ، 2003.

11. التشخيص النفسي العام / إد. A. A. Bodaleva ، V.V.Stolin. - م ، 1987.

12. أساسيات التشخيص النفسي / إد. إيه جي شميلفا. - روستوف غير متوفر ، 1996.


الجزء الثاني

التشخيص

الإدراكي

أجواء

يتم تحديد جودة المؤشرات الفردية ، وإجمالي المؤشرات (المؤشرات) والمقاييس من خلال موثوقيتها وصلاحيتها.

ترتبط موثوقية القياس باستقرارها وإمكانية تكرار نتائجها.يمكن اعتبار المؤشر موثوقًا إلى الحد الذي يمكن فيه إعادة إنتاج التقديرات التي تم الحصول عليها على مجموعة معينة من كائنات القياس. النوع الرئيسي من الموثوقية هو الموثوقية التكرار(أو موثوقية إعادة الاختبار diachronic).يعكس تقييم موثوقية إعادة الاختبار نتائج التطبيق المتكرر لنفس المؤشر (سؤال ، اختبار) لنفس عينة الحالات (المستجيبين) في نقاط زمنية مختلفة. إذا أجاب الأشخاص على السؤال بنفس الطريقة في الحالة الأولى والثانية وفي أي حالة لاحقة ، فإن هذا السؤال يمكن الاعتماد عليه. إذا أعطى اختبار الذكاء نفس النتائج عند اختباره مرة أخرى على نفس مجموعة طلاب المدارس الثانوية ، فهو اختبار موثوق.

من المهم ملاحظة أن موثوقية أداة القياس لا تعكس دقتها أو صحتها. على سبيل المثال ، إذا قدم المجيبون على سؤال حول الدخل إجابات متطابقة تمامًا مرتين ، ومبالغة في تقديرها بنسبة 100٪ ، فإننا نتعامل مع مؤشر موثوق به تمامًا ولكنه غير دقيق. في حالة أخرى ، إذا أظهر مقياس الحرارة ذو الموثوقية غير القابلة للإصلاح المقاومة الكهربائية للجلد ، فليس لدينا سبب للتحدث عن صحة القياس وكفايته. درجة الموثوقية والتكرار هي الارتباط بين القياسات المتكررة.في حالة سؤال مؤشر واحد ، يكفي ببساطة مقارنة إجابات نفس المجموعة من الأشخاص الواردة في الاستطلاع الأول بالإجابات المعطاة بعد أسبوعين أو شهرًا ، وحساب معامل الارتباط (انظر الفصل 8). في الممارسة العملية ، الارتباط الجيد هو 0.8 وما فوق.



تشمل عيوب تقييمات الموثوقية والتكرار ، أولاً ، تعقيد القياسات المتكررة على عينات كبيرة ، نموذجية لعلم الاجتماع. ثانيًا ، يمكن أن تتغير القيمة الحقيقية للمتغير أيضًا بمرور الوقت ، على سبيل المثال ، يمكن أن يتغير التعاطف السياسي في غضون أسبوع نتيجة لبعض الإفصاحات الفاضحة ، ويمكن أن تزيد الرواتب بشكل كبير في شهر واحد بسبب إدخال الفهرسة الإلزامية في السياق من التضخم. في الحالة الأخيرة ، سيواجه الباحث مهمة مستعصية تتمثل في فصل التقلبات الناتجة عن التغيير في القيمة الحقيقية للمتغير عن التقلبات المرتبطة بموثوقية المؤشر. لذلك ، هناك نوع آخر من الموثوقية مهم جدًا - الموثوقية والاتساق.لا يمكن تقييم الموثوقية والاتساق إلا إذا تم قياس نفس المتغير باستخدام العديد من المؤشرات.لكن لمثل هذا التقييم ، يكفي قياس واحد. الاختبار النفسي ، على سبيل المثال ، يستخدم بطاريات الاختبارات التي تهدف إلى قياس قدرة واحدة أو قدرة واحدة الجودة الشخصية... علماء الاجتماع - إذا كان لديهم أموال وإمكانيات تقنية كافية - يستخدمون المؤشرات والمقاييس التي تتكون من العديد من أسئلة المؤشرات المنفصلة.

إن أبسط طريقة لتقييم الموثوقية والاتساق هي "التقسيم إلى النصف".على سبيل المثال ، إذا كان لدينا 12 سؤالًا يُفترض أنه يقيس النشاط السياسي ، حيث يتم تخصيص نقطة واحدة لكل سؤال ، ويتوافق الحد الأقصى للنشاط السياسي مع مؤشر إجمالي يبلغ 12 نقطة ، فسيتم تطبيق الإجراء التالي:

1. يتم تقسيم الأسئلة بشكل عشوائي إلى قائمتين متساويتين (6 أسئلة لكل منهما) ويتم تقديمها مرة واحدة لمجموعة من الموضوعات.

2. يتم احتساب التالي معامل الارتباط بين نتائج نفس الأشخاص لـ "نصفي" مختلفين من الاختبار:فكلما ارتفعت قيمته ، زادت اتساق تقديرات القيمة الحقيقية للنشاط السياسي التي تم الحصول عليها باستخدام مجموعة معينة من المؤشرات. ومع ذلك ، من الممكن أن يكون تقدير الموثوقية الذي تم الحصول عليه بهذه الطريقة حساسًا جدًا لطريقة "التقسيم إلى نصفين": سيتغير معامل الارتباط بشكل ملحوظ اعتمادًا على طريقة تجميع القائمتين.

إجراء أولي آخر لتقييم موثوقية سؤال فردي (البيان ، عنصر المقياس) هو هذا هو التحقق من ارتباطه بالنتيجة الإجمالية ،أي بقيمة المؤشر الإجمالية. إذا تبين بالنسبة لهذه المجموعة من المستجيبين أن معامل الارتباط بين سؤال منفصل عن تواتر السفر إلى الخارج وإجمالي "مؤشر رهاب الأجانب" هو 0.3 ، فيمكن عندئذٍ افتراض أن هذا السؤال لا يعكس القيمة الحقيقية لـ "المستوى" كره الأجانب "ويمكن استبعاده من الاستبيان. بعد كل شيء ، موثوقية محددة بدقة جزء من الانتشار المقاس للتقديرات التي تتعلق بالانتشار الحقيقي للمتغير المقاس(نستخدم هنا تعريفًا أقل صرامة وذات مغزى ، لأننا لم نناقش بعد المفاهيم الإحصائية الضرورية). من الواضح أن الارتباط بإجمالي الدرجات هو إجراء يمكن تطبيقه على مؤشرات ومقاييس التلخيص التي لها بنية بسيطة إلى حد ما (ستجد أمثلة لاحقًا في هذا الفصل).

في أي حال ، من المهم أن يكون لديك صريح نموذج القياسمتغير نظري ، لأنه فقط سيسمح بالتنبؤ بالعلاقات المتوقعة بين المؤشرات الفردية ومدى قابلية تطبيق الطرق البسيطة الموصوفة لتقييم الموثوقية. للاقتناع بهذا ، يكفي مقارنة نموذج بمجموعة من مؤشرات التأثير لمتغير كامن بنموذج يتضمن مؤشرات سببية فقط. (انظر الشكل 3و 4). من الواضح أن مؤشرات التأثير يجب أن تكون متسقة للغاية مع كل من متغير الخاصية الكامنة التي تهدف إلى قياسها ومع بعضها البعض. ومع ذلك ، هذا ليس واضحًا جدًا بالنسبة للمؤشرات السببية: على سبيل المثال ، يعد كل من التعليم والدخل مكونين مهمين لمفهوم "الوضع الاجتماعي والاقتصادي". ومع ذلك ، حتى لو نما التعليم ، فإن للدخل الحق في التصرف كما يحلو له ، أي أنه لا ينبغي بالضرورة أن يظهر ارتباطًا وثيقًا بالتعليم. بعبارة أخرى ، إذا كان على المرء أن يتوقع ارتباطًا عاليًا ببعضه البعض من مؤشرات التأثير الموثوقة (عند استخدام طرق "التقسيم إلى النصف" أو الارتباط مع النتيجة الإجمالية) ، فعندئذٍ بالنسبة للمؤشرات السببية ، فإن مثل هذا النهج البسيط لتقييم الموثوقية غير قابل للتطبيق . من الممكن تطوير طريقة مناسبة لتقييم الموثوقية هنا فقط من خلال تحليل العلاقة بين المؤشرات المختلفة والمتغيرات النظرية المختلفة في نموذج القياس. من خلال التنبؤ بالاتجاه والحجم المتوقعين لهذه العلاقات ، يمكن للباحث تقييم درجة توافق تنبؤاته مع البيانات المرصودة والتوصل إلى استنتاج حول جودة المؤشر. أكثر الطرق عالمية لتقييم موثوقية المؤشرات التجريبية هي تحليل العوامل وتحليل المسار.من الناحية المثالية ، يتم استخدام عدة مؤشرات (اثنان أو ثلاثة) وموجتان لوحيتان على الأقل لتقييم الموثوقية.

من المهم جدًا أن تتذكر أن مفهوم الموثوقية مرتبط مع أخطاء القياس العشوائية ،أي مع الأخطاء التي لا تتعلق بأي طريقة منهجية ببعضها البعض أو بأي متغيرات خارجية تعمل بشكل منهجي (على سبيل المثال ، جنس أو عمر المستجيبين). عادي مصادر انعدام الأمن- هذه عوامل عشوائية غير منهجية مرتبطة بالتقلبات في انتباه المستجيبين ، والغموض في صياغة السؤال ، مما يؤدي إلى اختلاف في إدراكه في حالات مختلفة ؛ الاختلافات غير المنهجية في المقابلات ؛ الاختلافات في ترميز الأسئلة المفتوحة ، أو أخطاء إدخال البيانات. على سبيل المثال ، إذا تم عرض حتى المتخصصين ذوي الخبرة العالية لتصنيف مائة مستوطنة وفقًا لمخطط ترميز تم تطويره مسبقًا لأنواع التسوية ، فعلى الأرجح ، يمكن العثور على بعض التناقضات على الأقل في التصنيفات الناتجة. سوف ترتبط بعض التناقضات بوجود حالات "مقيدة" لا يمكن تصنيفها بشكل لا لبس فيه وفقًا للقواعد المقترحة ، والبعض الآخر - بأخطاء ميكانيكية أو غفلة. يتطلب التقييم الأولي لمصداقية أسئلة الاستبيان الاجتماعي ، أولاً وقبل كل شيء ، "رفض" الأسئلة المصاغة بشكل غامض ، والتي غالباً ما يجيب عليها الناس بشكل عشوائي. منخفضة بنفس القدر هي موثوقية الأسئلة التي لا يستطيع المستجيبون الإجابة عليها ببساطة ، لأنهم لا يملكون رأيًا في المشكلة المثارة أو لا يعرفون شيئًا عنها. لن يجيب جميع المستجيبين بصدق ، عند مواجهة سؤال غير ذي صلة ، بـ "لا أعرف" أو "لا أتذكر". سيعطي الكثيرون إجابة تم اختيارها عشوائيًا بدافع التأدب أو عدم الرغبة في إظهار جهلهم.

أساليب زيادة الموثوقيةلقد ناقشنا بالفعل (انظر الفصل 4 ، 5). أولاً ، يجب أن تسعى جاهدًا لاستخدام مؤشرات متعددة. عندما لا يكون ذلك ممكنًا ، أي أن هناك صعوبات نظرية أو عملية في قياس متغير واحد بطرق مختلفة ، فيجب استخدام المؤشرات الأكثر رسوخًا والمقبولة عمومًا (على سبيل المثال ، إذا كان يمكنك سؤال المستفتى عن عمره مرة واحدة فقط ، فمن الأفضل استخدام نفس صياغة السؤال ونفس فئات الإجابات المستخدمة في التعدادات الوطنية ، ودراسات اللجان واسعة النطاق ، وما إلى ذلك).

تشمل الطرق الأخرى لزيادة الموثوقية فحص الأسئلة غير ذات الصلة ، وتحليل الصياغة اللفظية للسؤال ، وتدريب المحاورين والإشراف عليهم ، وتحسين إجراءات تشفير البيانات وإدخالها.

صلاحيةالقياس ، بالمعنى الأكثر عمومية ، يميز مطابقة القياس للغرض منه. يعتبر المؤشر التجريبي صالحًا (مبررًا وصحيحًا) إلى الحد الذي يعكس حقًا قيمة المتغير النظري الذي كان من المفترض قياسه. من الواضح أنه لا جدوى من الحديث عن صحة المؤشر في حد ذاته. تتمثل صلاحية أداة القياس في عدم غموض وصحة النتائج التي تم الحصول عليها فيما يتعلق بالممتلكات المقاسة للكائنات ، أي بالنسبة لموضوع القياس.يمكننا القول أن الصلاحية تحدد "نقاء" قياس البنية النظرية. عندما يكون القياس مباشرًا ، أي يمكننا حساب عدد الوحدات المرجعية للممتلكات المقاسة مباشرة ، وتتأثر نتائج القياس فقط بأخطاء عشوائية ، ولا يمكن تمييز الموثوقية والصلاحية ، وصلاحية أداة القياس تساوي موثوقيتها. إذا قمنا بقياس خاصية الفائدة بشكل غير مباشر فقط ، باستخدام بعض المؤشرات ، ينشأ فرق بين الموثوقية والصلاحية. يمكن أن يكون المؤشر موثوقًا للغاية (قابل للتكرار) ، ولكن في نفس الوقت قياس البنية الاجتماعية التي تهمنا ليس "نظيفًا" بما فيه الكفاية. على مستوى حدسي بالفعل ، من الواضح أن أداة موثوقة تمامًا يمكنها قياس شيء آخر غير الجودة التي تهم الباحث (على سبيل المثال ، ليس النشاط السياسي بقدر ما هو الامتثال). عادة ما يحتوي القياس غير المباشر على مكونات خطأ عشوائية وغير عشوائية. بالضبط مكون غير عشوائيبما فيها منهجي(مترابط) خطأوفي كثير من الأحيان ، يكون لها نفس القيمة لكل حالة خطأ قياس ثابت ،يحدد صلاحية المؤشر. الأمثلة النموذجية لخطأ القياس المنهجي في مسح أو تجربة اجتماعية هي التأثيرات المذكورة بالفعل لـ "الذاكرة" ، والرغبة الاجتماعية ، والمواقف من الاستجابات الإيجابية أو السلبية. لا تؤثر فقط على صحة وصحة مؤشر المتغير الذي يهم الباحث ، بل تؤثر أيضًا على صحة وصحة نتائج تحليل البيانات: يمكن أن يؤثر خطأ القياس المترابط على أي مؤشرات إحصائية ، بما في ذلك مؤشرات العلاقة بين المتغيرات وتقديرات أهمية الفروق بين المجموعات الفرعية. بعبارة أخرى ، قد يتبين أن النتيجة النهائية لـ "استخدام مؤشرات غير صالحة هي استنتاجات غير صحيحة وذات مغزى.

مشكلة صحة القياس هي أصعب مشكلة في منهجية علم الاجتماع. القياس الصحيح هو في المقام الأول نتيجة صالحة نماذج القياس ،أي نتيجة لتصور جيد الأسس وواضح للمفاهيم النظرية. هنا نصف فقط الرئيسي أنواع الصلاحيةوالتقليدية طرق التحققأي إثبات صحة القياسات.

الصلاحية بالمحتوىيوضح إلى أي مدى تعكس المؤشرات التي اختارها الباحث جوانب مختلفة من المفهوم النظري. بعبارة أخرى ، نحن نتحدث عن التمثيليةهذه المجموعة من القياسات والعلاقة بالهيكل المفاهيمي لمتغير السمة ، واكتمال تفعيل المفاهيم النظرية. على سبيل المثال ، يمكن اعتبار اختبار الإحصاء أداة صالحة لقياس المعرفة الإحصائية للطلاب ، لأن أسئلة الاختبار تعكس محتوى المحاضرات والكتب المدرسية. ومع ذلك ، إذا كانت جميع الأسئلة تتعلق بقسم واحد فقط من الدورة ، اقرأ - على سبيل المثال ، التوزيع الطبيعي - فعندئذ ستعكس نتائج الاختبار ، على سبيل المثال ، قدرة الطلاب على ترجمة الدرجات الأولية إلى درجات قياسية ، ولكن لن تقول أي شيء عن المعرفة من الارتباط والانحدار.

الإجراء الرئيسي لتقييم صحة المحتوى هو حكم خبير.في بعض الحالات ، تكون العلاقة بين المفاهيم النظرية والمؤشرات التي تقيسها واضحة جدًا بحيث لا يوجد مبرر خاص مطلوب ببساطة: من الواضح أن مقياس الحرارة يقيس درجة الحرارة. هنا يمكنك التحدث عنه بديهي(بعض الأحيان- الوجهمن الانجليزية صدق الوجه) من صلاحية المقياس. الصلاحية الواضحة هي الأعلى ، والأكثر تطابقًا هو فهم الغرض من السؤال أو الاختبار أو أي مؤشر آخر من قبل عالم اجتماع محترف ومستجيب عديم الخبرة. إن مسألة تكرار شراء الشامبو ، في جميع الاحتمالات ، لا تحتوي على أي حيل قذرة وتسمح لنا بالحكم بالضبط على نوع سلوك المستهلك الموصوف في السؤال. ومع ذلك ، في الحالات الأكثر تعقيدًا ، لا يمكن بأي حال اختزال الصلاحية الموضوعية إلى البديهية. يمكن أن تهدف مجموعة من الأسئلة البسيطة حول الطريقة المفضلة لقضاء وقت الفراغ ، والعلامة التجارية المفضلة للسيارة ، وتكرار قراءة مجلة مرموقة ، وما إلى ذلك ، إلى قياس "نمط حياة" المستفتى ، و "الإنجاز" ، و "الوجودي" ، و "الاجتماعي" ، إلخ.). يمكن للمتخصصين فقط الحكم على اكتمال هذه المجموعة والأهمية النسبية للأسئلة لقياس مفهوم "نمط الحياة". أساس حكم الخبراء هذا هو التعريف النظري ، تصور متغير البحث. عادة ، يتم إصدار حكم الخبراء على صحة المحتوى بشكل تلقائي إلى حد ما ، بعد نشر نتائج البحث. في بعض الأحيان لا يزال من الممكن استخدام إجراءات أكثر تنظيماً - طريقة اللوحة المتوازيةأو طريقة تعدد القضاة... في الحالة الأولى ، تقوم مجموعتان أو ثلاث لجان متتالية من المتخصصين بتنفيذ إجراء التحقق بالكامل من حيث المحتوى ، أي أنهم يقارنون التعاريف الحالية ويضعون قائمة بالمؤشرات المحتملة ويقيمون تمثيلهم فيما يتعلق بالمجال المفاهيمي قيد الدراسة . إذا كشفت مقارنة المؤشرات ، المختارة بشكل مستقل في لوحتين أو أكثر ، عن العديد من المصادفات ، فيمكننا التحدث عن صدق المحتوى العالي.

تعتبر طريقة العديد من القضاة (الخبراء) مفيدة في الحالات التي يكون فيها متغير السمة المفترض قياسه له هيكل متعدد الأبعاد. إذا طور عالم الاجتماع ، على سبيل المثال ، مقياسًا وهميًا للرفاهية الاجتماعية والاقتصادية للمناطق ، فمن المفيد اللجوء إلى المتخصصين في مجالات مثل الديموغرافيا والسياسة الاجتماعية والتوظيف والنظام الضريبي وما إلى ذلك. المؤشرات التجريبية ذات الصلة.

صلاحية المعايير(أو صلاحية المعيار) تشير إلى مدى توافق نتائج اختبار أو مؤشر معين مع نتائج قياس مؤشر آخر يسمى معيار.في أغلب الأحيان ، يكون المعيار هو المتغير ذو الأهمية العملية للباحث ، ولكن لا يمكن قياسه في الوقت الحالي. على سبيل المثال ، يتم تحديد الصلاحية المعيارية لامتحانات القبول من خلال الأداء الأكاديمي الذي سيظهره الطلاب لاحقًا (على سبيل المثال ، الأداء الأكاديمي هو المعيار في هذه الحالة). يمكن أيضًا افتراض أن اختبار التقييم الأخلاقي للسلوك المنحرف للمراهقين له صلاحية معيار فيما يتعلق بالسلوك المنحرف الحقيقي. يمكن اعتبار المؤشر ذو الصلاحية المعيارية المؤكدة على أنه متغير توقع،السماح بالتنبؤ بالقيم الفردية لمتغير الاختبار. ^ بالطبع ، لا تنشأ الحاجة إلى متنبئ يحل محل المعيار نفسه إلا في تلك الحالات عندما يكون من الصعب الحصول على تقديرات بالمعيار ، أي أننا نتحدث عن أحداث مرت منذ زمن طويل أو لم تحدث بعد ، أو يصعب قياس متغير المعيار بسبب اعتبارات عملية أو أخلاقية. كلما اقتربنا من المعيار ، زادت صحة المتنبئ. على سبيل المثال ، يمكن أن تكون الطريقة المثالية لاختيار الطلاب العسكريين في مدرسة طيران هي دورة تدريبية تجريبية قصيرة المدى مع اختبار لمهارات التحكم في الطائرات العملية في النهائي: المتقدمون الذين اجتازوا الاختبار سيكون لديهم كل فرصة ليصبحوا محترفين حقيقيين. ومع ذلك ، فإن هذه الطريقة مكلفة للغاية وفي الممارسة العملية يستخدمون اختبارات الذكاء واختبارات التنسيق الحركي البصري ومؤشرات أخرى ، بعد أن أثبتوا مسبقًا صحة معيارهم. في حالة أخرى ، سيكشف اختبار الشخصية الإسقاطي (مثل اختبار TAT ، وهو اختبار الإدراك الموضوعي ، والذي يتضمن تأليف قصص من الصور الفوتوغرافية مع حبكة غير محددة) عن علامات الذهان أو التجربة الجنسية المؤلمة في ماضي المريض. قد يستغرق التقييم النفسي الكامل وقتًا طويلاً ويصعب الحصول على بيانات عن إساءة معاملة الأطفال.

تشمل الأنواع الرئيسية لمعيار الصلاحية تنبؤية وتنافسيةو ما بعد الدكتاتوري(توقعية متخلفة) الصلاحية.

صحة المعيار التنبؤيةيصف الدقة التي يمكن بها التنبؤ بقيم متغير معين - عادةً ما يميز فردًا أو مجموعة - من القيم الحالية لمتغير آخر (متنبئ). من الواضح أن أفضل مؤشر لمثل هذه الدقة التنبؤية سيكون الارتباط بين قيم متغير التوقع وقيم متغير الاختبار لـ نفس الشيءأخذ العينات. ثم - ضمن خطأ أخذ العينات - سيكون معامل الارتباط مساويًا لمعامل الصلاحية التنبؤية.

الصلاحية التنافسية حسب المعيار -إنها درجة التطابق بين القيم الحالية لمتغير الاختبار ومتغير التوقع. بعبارات بسيطة ، يستخدم الباحث نتائج القياس لسمة واحدة لتقدير قيمة متغير آخر. قد يكون السبب هو أن قياس متغير المعيار يصعب تنفيذه مباشرةً ، ويستغرق وقتًا طويلاً ، وما إلى ذلك. تعد مشكلة الصلاحية التنافسية مهمة جدًا لعلم الاجتماع التجريبي ، حيث لا يتم قياس العديد من المتغيرات السلوكية أو المواقفية بشكل مباشر ، ولكن من خلال الذات. - وصف إجابات أسئلة الاستبيان ، وبعبارة أخرى ، من خلال السلوك اللفظي. على سبيل المثال ، يمكننا تقييم الصلاحية التنافسية لاستبيان حول تكرار حضور الديسكو من قبل الطلاب المتميزين باستخدام سلسلة من الملاحظات المضمنة للسلوك الفعلي لمجموعة معينة. أظهرت الدراسات المبكرة بالفعل حول الصلاحية التنافسية للأسئلة الواقعية في علم الاجتماع أنه حتى بالنسبة للمؤشرات "غير الضارة" نسبيًا وغير الحساسة ، يمكن أن تختلف الصلاحية التنافسية على نطاق واسع.

في ما يسمى بدراسة صحة دنفر ، التي أجراها S. Stauffer والمؤلفون المشاركون في عام 1947 ، تمت مقارنة بيانات إجابات المستجيبين على الأسئلة الواقعية وبيانات الإحصاءات الرسمية للمنظمات المحلية. كان الأمر يتعلق بتسجيل الناخبين ، والتصويت ، والمساهمات في خزينة المدينة ، وتوافر رخصة القيادة وبطاقة المكتبة ، وما إلى ذلك ، بنسبة تصل إلى 50٪ تقريبًا ، اعتمادًا على محتوى السؤال.

ومع ذلك ، ينبغي للمرء أن يضع في الاعتبار القيود الملازمة لمعايير المؤشرات الموضوعية: غالبًا ما تستند بيانات الوثائق الرسمية أيضًا إلى التقارير الذاتية وغالبًا ما تكون عرضة لأخطاء القياس. ومع ذلك ، في بعض الحالات ، يكون لإجراء التحقق التنافسي ميزة على الإجراء التنبئي ، لأن الإجراء الأول لا يتطلب من الباحث الانتظار وقتًا طويلاً للحظة التي يمكن فيها قياس قيم المعيار. إذا أراد الباحث ، على سبيل المثال ، تقييم صحة معيار اختبار الاهتمام المهني المصمم للطلاب كمؤشر على مهنة مهنية ناجحة ، فلن يضطر إلى الانتظار لمدة عشر سنوات لقياس قيمة متغير المعيار. يكفي اختبار الاهتمامات المهنية لمجموعتين "متطرفين" من المتخصصين العاملين بالفعل - الأكثر نجاحًا والأقل نجاحًا في المهنة في وقت معين. إن وجود علاقة ارتباط عالية بين درجة الاختبار ونجاح العمل (أو اختلاف معتد به إحصائيًا في درجات الاختبار للمجموعات "المتطرفة") سيشير إلى الصلاحية التنافسية للاختبار. الشروط التي بموجبها قد يتبين أن الاستنتاجات حول الصلاحية التنافسية لمؤشر ما لا تزال خاطئة هي القضاء الانتقائيمن العينة (الاختيار الذاتي) و تفاعل المتغير المتنبئ.يمكن أن يحدث الاختيار الذاتي في مثالنا إذا كان من بين أولئك الذين تسربوا من العينة (الطلاب السابقون الذين تركوا مهنة مهنية في هذا المجال ولم يتم تغطيتهم لهذا السبب عن طريق الاختبار) تم تمثيل الأشخاص ذوي الحافز العالي أو المنخفض بشكل مفرط ، أي ، سيكون هناك تسرب طبيعي يكون غير عشوائي. في حالة تفاعل المؤشر ، ستجيب موضوعاتنا على أسئلة اختبار التحفيز بشكل مختلف عن الطريقة التي أجابوا بها كطلاب (بسبب الخبرة المهنية التي أثرت عليهم ، والتغيرات في الوضع الاجتماعي ، وما إلى ذلك) ومع ذلك هناك متغيرات تنبؤية غير تفاعلية ، صلاحية تنافسية قابلة تمامًا للتبرير. ومن الأمثلة على ذلك الخصائص المستقرة مثل معدل الذكاء أو متغيرات "الخلفية" (الأصل الاجتماعي ، والجنسية ، وما إلى ذلك).

أخيرًا ، في بعض الحالات ، نحن مهتمون بإثبات الدقة التي يمكننا بها تقييم وجود بعض الميزات المعيارية أو السمات المتأصلة في الفرد (المجموعة) في الماضي. مثال على استخدام الإسقاطي اختبار نفسيمن أجل "تشخيص" ما بعد الصدمة لصدمات الطفولة مذكور أعلاه. يشار إلى هذا الوضع على أنه تقييم ما بعد الدكتاتوريصلاحية.

تعد أنواع الصلاحية التي وصفناها ضرورية في تلك المواقف عندما يواجه الباحث مهمة مقارنة مؤشر معين بالمعيار الموجود بالفعل أو بالمعيار المستخدم في الممارسة. وبعبارة أخرى ، فإن الصلاحية المعيارية لمؤشر ما هي ارتباط بمؤشر تجريبي "خالص" مفترض. ومع ذلك ، هناك نهج آخر للصلاحية ، حيث يعتمد تقييم المؤشر على مدى تطابق "سلوكه" التوقعات النظرية.يمكن إجراء مثل هذا التقييم فقط في إطار نموذج نظري شامل يصف العلاقة بين المتغيرات النظرية ومؤشراتها وأخطاء القياس العشوائية وغير العشوائية. لنفترض أننا نريد اختبار صلاحية مقياس جديد لتماسك المجموعة. بناءً على المفاهيم النظرية الحالية ، يمكننا أن نفترض أن تماسك المجموعة الأكبر يتوافق مع تواتر أقل للصراعات المفتوحة وكثافة أعلى للتواصل. من خلال مقارنة مجموعات من مستويات مختلفة من تماسك المجموعة وتحديد قيم المتغيرين الآخرين (تكرار النزاعات وشدة الاتصال) ، سنرى كيف "يتصرف" مؤشر تماسك المجموعة الذي طورناه. إذا كان نمط علاقتها بالمتغيرين الآخرين يتوافق مع تنبؤات النظرية ، فيمكننا إذن أن نستنتج أن المقياس الجديد صالح ، أي أنه يقيس بالضبط المتغير النظري الذي يهمنا. عادة ما يتم الإشارة إلى هذا النوع من الصلاحية بالمصطلح "بناء صلاحية". (مصطلح "الصلاحية المفاهيمية" يُستخدم أحيانًا أيضًا).

من وجهة نظر إحصائية ، تفترض صلاحية الإنشاء المطلقة أن جميع الاختلافات الملحوظة في القيم المترية مرتبطة فقط بالبناء النظري الذي يتم قياسه. إذا كان جزء من تباين المؤشر مرتبطًا بمتغير آخر - سواء كان تركيبًا نظريًا مختلفًا أو تحيزًا للقياس - فستكون صلاحية الإنشاء أقل.

من السهل أن نرى أن تقييم صحة البناء يشير إلى بعض الصلة بين اختبار فرضيات نظرية ذات مغزى واختبار جودة القياس. في الواقع ، فإن تقييم صلاحية البناء من خلال مقارنة النموذج النظري "لسلوك" المتغير قيد الدراسة مع العلاقات الحقيقية للمؤشرات يتطلب إدراج نماذج القياس(انظر أعلاه) على نطاق أوسع موديل نظري.

لنفترض أننا نستخدم بعض المؤشرات الكلية - مؤشر "ديمقراطية النظام السياسي" ، الذي يتكون من عدد من المؤشرات (NS 1 ,NS 2 ,NS 3 ), لكل منها "وزنه" في مؤشر الديمقراطية. قد تشمل هذه المؤشرات وجود البرلمان (المتغير الثنائي التفرع الاسمي) ، وعدد الشركات التلفزيونية والإذاعية المستقلة ، إلخ. بناءً على النموذج النظري ، نتوقع أن درجة "الديمقراطية" مرتبطة عكسياً بحصة الناتج القومي الإجمالي التي يتم إنفاقها على تحديث الأسلحة. بناءً على هذا النموذج (انظر. أرز. أحد عشر)،يمكنك التحقق من الصلاحية البناءة لمؤشر الديمقراطية الذي اخترعناه.

مع


أرز. أحد عشر.نموذج العلاقة لمتغيرات "الديمقراطية"

1. التعريف. عدم المساواة السيكومترية الأساسية

يتم استدعاء مطابقة الاختبار للخاصية العقلية المقاسة صلاحية الاختبار... الصدق هو أهم خصائص القياس النفسي للاختبار. إذا كانت الموثوقية العالية تشير إلى أن الاختبار يقيس شيئًا ما بالفعل ، فإن الصلاحية العالية تشير إلى أن الاختبار يقيس بالضبط ما نريد قياسه. بالطبع ، تؤثر العوامل العشوائية سلبًا أيضًا على صلاحية الاختبار. لذلك ، يتم قبول عدم المساواة السيكومترية الأساسية التالية في القياس النفسي:


صلاحية؟ مصداقية،

مما يعني أن الصلاحية لا يمكن أن تتجاوز مصداقية الاختبار.

ولكن على عكس الموثوقية ، بالإضافة إلى العوامل العشوائية ، تؤثر العوامل المنهجية على صحة الاختبار. يقدمون تحيزات منهجية في النتائج. هذه العوامل هي خصائص عقلية أخرى تتداخل مع المظهر في نتائج اختبار الخاصية التي تهدف إلى الاختبار.

على سبيل المثال ، نريد قياس إمكانات التعلم (العنصر الأكثر أهمية في القدرة الفكرية العامة للفرد). إذا أعطينا الموضوع اختبارًا بحد زمني صارم للتنفيذ وعدم القدرة على العودة وتصحيح الخطأ ، فمن الواضح أن الخاصية العقلية المرغوبة قد اختلطت في الاختبار بخاصية عقلية خاطئة - مقاومة الإجهاد: الأشخاص الذين لديهم مؤشرات مقاومة عالية للضغط سيؤدون بشكل أفضل في الاختبار. سيظهر هذا تأثير التشويه المنهجي.

في القياس النفسي الحديث ، تم تطوير العشرات من الطرق النظرية والتجريبية المختلفة للتحقق من صحة الاختبارات. العنصر الرئيسي لجميع هذه الأساليب تقريبًا هو ما يسمى بالمعيار. معيار الصلاحيةهو مصدر معلومات مستقل عن الاختبار حول الخاصية التي يتم قياسها ، خارج الاختبار. لا يمكننا الحكم على صحة الاختبار حتى نقارن نتائجه بمصدر المعلومات الصحيحة (أو الأكثر صحة بوضوح) حول الخاصية التي يتم قياسها - مع المعيار.

2. أنواع معايير الصلاحية

الخامس بحث علميتسود معايير معملية خاصة. على سبيل المثال ، يتم إنشاء استبيان اختبار مضغوط للقلق. وكمعيار لصلاحيتها ، يتم استخدام تجربة معملية موضوعية شاقة خاصة ، حيث يتم إعادة إنتاج حالة حقيقية من القلق (يتعرض المتطوعون للتهديد بالصدمات الكهربائية بسبب أفعال خاطئة ، وما إلى ذلك).

في الممارسة العملية ، غالبًا ما تستخدم المعايير العملية كمعيار للصلاحية - مؤشرات فعالية النشاط من أجل التنبؤ بالاختبار الذي يتم إجراؤه.

في كثير من الأحيان ، يتم استخدام حكم الخبراء كمعيار للصحة. على سبيل المثال ، نريد التأكد من أن اختبار الانضباط القصير صالح. لهذا ، يتم إجراء مسح للمعلمين حول مستوى انضباط الطلاب المعروفين. بعد ذلك ، تتم مقارنة نتائج الاختبار وتقييم الخبراء للطلاب في التخصص.

دعنا نلقي نظرة فاحصة على هذا المثال الأخير. لدينا هنا واحدة من أبسط الطرق وأكثرها شيوعًا لقياس الصلاحية التجريبي (الإحصائي). هذه هي طريقة المجموعات الشهيرة. يتم دعوة الأشخاص للمشاركة في تجربة القياس النفسي للتحقق من صحة الاختبار ، ومن يعرف عن أي مجموعة وفقًا للمعيار الذي ينتمون إليه. في حالة اختبار الانضباط ، يتم اختيار الطلاب الذين يتم تأديبهم عمدًا وفقًا لتقييم الخبراء للمعلمين (مجموعة عالية حسب المعيار) وغير منضبطين عن عمد (مجموعة منخفضة حسب المعيار). لا يشارك الطلاب الحاصلون على متوسط ​​درجات على المعيار في الاختبار.

بعد الاختبار ، يتم إجراء الحساب ، على سبيل المثال ، لأبسط ارتباط بين الاختبار والمعيار (الجدول 1).

الجدول 1حساب أبسط ارتباط بين الاختبار والمعيار

العنصر "أ" في هذا الجدول هو عدد الأشخاص الذين انضموا إلى المجموعة العالية وفقًا للاختبار والمعيار ، والعنصر "ب" هو عدد الأشخاص الذين انضموا إلى المجموعة العالية وفقًا للاختبار ، ولكن في المجموعة المنخفضة حسب المعيار ، إلخ.

من الواضح ، إذا كان الاختبار صحيحًا تمامًا ، فيجب أن تكون العناصر "ب" و "ج" في الجدول مساوية للصفر ، أي أن الاختبار يجب ألا يتضمن أخطاء (للقول إن الطالب منخفض الانضباط ، عندما يقول المعلمون أن الطالب شديد الانضباط - قضية "مع").

3. التعبير الرياضي لمعيار الصلاحية (معامل جيلدفورد)

يتم تقييم مقياس المصادفة (الارتباط) بين المجموعات المتطرفة وفقًا للاختبار ووفقًا للمعيار باستخدام أبسط معامل Phi لـ Guildford:

مع حجم المجموعة المختبرة المكونة من 30 شخصاً (هذا هو الحد الأدنى للعينة للتحقق من الصلاحية) إحصائياً اتصال هادفاختبار مع المعيار ، يمكننا أن نقول - Ph 1؟ 0.36 على الرغم من أن هذه الصلاحية منخفضة للغاية ، إلا أن الاختبار في هذه الحالة يعطي نتائج أفضل بكثير من التخمين العشوائي.

ومع ذلك ، فإن طريقة المجموعات المعروفة لها عيب خطير. لا يسمح لك دائمًا باستخدام الاختبار للتنبؤ. الحقيقة هي أنه عند تكوين مجموعات معروفة ، يتم تقييم السلوك الذي حدث في الماضي ، ونريد إجراء اختبار للتنبؤ بالسلوك الذي سيحدث في المستقبل. العديد من الاختبارات المستخدمة في التشخيص النفسي التربوي لها هذا العيب. في أحسن الأحوال ، يتم اختبارهم وفقًا لطريقة المجموعات المعروفة وليس لديهم صحة تنبؤية (أو لم يتم إثبات صحة هذه الصلاحية بشكل تجريبي صارم).

4. المخططات الأساسية للتحقق من صحة تقنيات التشخيص النفسي

فقط المراكز العلمية والمنهجية الكبيرة يمكنها حل مشكلة المصداقية التنبؤية. بعد كل شيء ، يجب أن يشارك عدد أكبر من الأشخاص في دراسة القياس النفسي لاختبار الصلاحية التنبؤية - ليس 30 ، ولكن على الأقل 300 ، لأنه من غير المعروف أي من هؤلاء 300 سيقع في المجموعات المتطرفة.

على سبيل المثال ، نريد استخدام اختبار للتنبؤ باستعداد الطلاب للدراسة في الجامعة. هذه مهمة تشخيصية نفسية تنبؤية نموذجية. يجب على شخص ما الشروع في برنامج صعب متعدد السنوات لاختبار القدرة التنبؤية لهذا الاختبار. من الضروري اختبار 300-500 تلميذ ، ثم الانتظار ، أي منهم سيدخل الجامعة وسيدرس هناك بنجاح. بعد فاصل زمني مدته سنتان إلى ثلاث سنوات ، يمكن تشكيل مجموعات المعايير ويمكن حساب الارتباط بمؤشرات الاختبار السابقة لهؤلاء الطلاب السابقين. فقط بعد تنفيذ مثل هذا المخطط لتجربة القياس النفسي ، يمكن القول بأن الاختبار قد اجتاز اختبار الصلاحية التنبؤية. بدون ذلك ، ننطلق فقط من الثقة في الحدس العلمي لمطور الاختبار وليس لدينا دليل مستقل على أنه يمكن استخدام الاختبار للتنبؤ.

يعد التمييز بين مخطط التحقق من صحة الاختبار الرخيص المعتاد (للمجموعات المعروفة) ونظام التحقق من صحة الاختبار التنبئي المكلف عنصرًا أساسيًا في معرفة القراءة والكتابة التشخيصية النفسية ليس فقط لعلماء النفس ، ولكن أيضًا للمدرسين ، وكذلك لأي عملاء معلومات التشخيص النفسي.

بعد الموثوقية ، المعيار الرئيسي لتقييم جودة الأساليب هو الصلاحية. يتم تحديد مسألة صلاحية الطريقة فقط بعد إثبات موثوقيتها الكافية ، نظرًا لأن الطريقة غير الموثوق بها لا يمكن أن تكون صالحة. لكن الأسلوب الأكثر موثوقية يكون عديم الفائدة عمليًا دون معرفة صلاحيته.

وتجدر الإشارة إلى أن مسألة الصلاحية حتى وقت قريب تبدو من أصعبها. إن التعريف الأكثر تأصلاً لهذا المفهوم هو ذلك الذي ورد في كتاب أ. أناستاسي: "صلاحية الاختبار هي مفهوم يخبرنا بما يقيسه الاختبار ومدى نجاحه".

صلاحية إنها في جوهرها خاصية معقدة ، بما في ذلك ، من ناحية ، معلومات حول ما إذا كانت التقنية مناسبة لقياس ما تم إنشاؤه من أجله ، ومن ناحية أخرى ، ما هي فعاليتها وكفاءتها وفائدتها العملية.

لا يوجد نهج واحد يناسب الجميع لتحديد الصلاحية. اعتمادًا على جانب الصلاحية الذي يريد الباحث مراعاته ، يتم استخدام طرق مختلفة للإثبات. بعبارة أخرى ، يشمل مفهوم الصلاحية أنواعه المختلفة ، والتي لها معنى خاص بها. التحقق من صحة تقنية يسمى تصديق.

تتعلق الصلاحية في فهمها الأول (ما إذا كانت التقنية مناسبة لقياس ما تم إنشاؤه من أجله) بجوهر التقنية نفسها ، أي إنها الصلاحية الداخلية لجهاز القياس. هذا الشيك يسمى التحقق النظري.

الصدق بالمعنى الثاني (ما هي الفعالية ، والكفاءة ، والفائدة العملية للتقنية) لا تشير إلى التقنية بقدر ما تشير إلى الغرض من استخدامها. هو - هي التحقق العملي.

بإيجاز ، يمكننا أن نقول ما يلي:

  • - في التحقق النظري ، يهتم الباحث بالعقار (البناء) نفسه ، كما تم قياسه بالطريقة. هذا يعني في الأساس أن الفعلي التحقق النفسي
  • - مع التحقق العملي ، يكون جوهر موضوع القياس (الخصائص النفسية) بعيدًا عن الأنظار. ينصب التركيز الرئيسي على إثبات أن "شيئًا ما" كما تم قياسه بالمنهجية له صلة بمجالات معينة من الممارسة.

يتم إجراء التحقق النظري للطريقة من خلال إثبات صلاحية بنائها. بناء صلاحية، برر ل. كرونباخ في عام 1955 ، يتميز بقدرة المنهجية على قياس هذه الميزة ، والتي تم إثباتها نظريًا (مثل التركيب النظري). عندما يكون من الصعب العثور على معيار عملي مناسب ، يمكن اختيار التوجه نحو الفرضيات المصاغة على أساس الافتراضات النظرية حول الخاصية المقاسة. تأكيد هذه الفرضيات يشهد على الصلاحية النظرية للطريقة. أولاً ، من الضروري أن تصف ، على أكمل وجه ممكن ، بشكل هادف البناء المقصود منه القياس. يتم تحقيق ذلك من خلال صياغة فرضيات حوله ، ووصف ما يجب أن يرتبط به البناء المحدد وما لا يجب أن يرتبط به. بعد ذلك ، يتم اختبار هذه الفرضيات. هذه الطريقة هي الأكثر فعالية للتحقق من الصحة. استبيانات الشخصية، حيث يصعب وضع معيار واحد لصلاحيتها.

يمكن أن يكون الفكر وسمات الشخصية والدوافع والمواقف وما إلى ذلك بمثابة بناء. من الضروري اللجوء إلى بناء الصلاحية في الحالات التي يتم فيها استخدام نتائج القياسات التشخيصية ليس فقط للتنبؤ بالسلوك ، ولكن لاستخلاص استنتاجات حول المدى الذي يتمتع فيه الأشخاص بخاصية نفسية معينة. في الوقت نفسه ، لا يمكن تحديد الخاصية النفسية المقاسة بأي سمة للسلوك يمكن ملاحظتها ، ولكنها مفهوم نظري. تعتبر الصلاحية البناءة مهمة عند تطوير طرق جديدة بشكل أساسي لا يتم تحديد معايير الصلاحية الخارجية لها.

حتى تنفق التحقق النظري للطريقة - هو إثبات صحة بنائه ، أي لإثبات أن التقنية تقيس بالضبط ذلك البناء (الملكية ، الجودة) ، والتي ، وفقًا لنية الباحث ، يجب أن تقيسها. لذلك ، إذا تم تطوير اختبار من أجل تشخيص التطور العقلي للأطفال ، فمن الضروري تحليل ما إذا كان يقيس هذا التطور حقًا ، وليس بعض الميزات الأخرى (على سبيل المثال ، الشخصية ، الشخصية ، إلخ). وبالتالي ، من أجل التحقق النظري ، فإن المشكلة الأساسية هي العلاقة بين الظواهر النفسية ومؤشراتها ، والتي من خلالها تحاول هذه الظواهر النفسية إدراكها. يوضح هذا الفحص مدى تطابق نية المؤلف ونتائج الطريقة.

في أغلب الأحيان ، يتم تحديد صلاحية البنية من خلال أسلوبها الاتساق الداخلي، وكذلك من خلال متقاربة و تفحص العنصرية. طريقة أخرى لتحديد صلاحية البناء هي تحليل العوامل.

الاتساق الداخلي يعكس مدى إخضاع المهام والأسئلة التي تشكل مادة المنهجية للاتجاه الرئيسي للقياس ككل ، مع التركيز على دراسة نفس الظاهرة. يتم إجراء تحليل الاتساق الداخلي من خلال ربط الاستجابات لكل مهمة بالنتيجة الإجمالية للمنهجية. لذلك ، إذا كان الاختبار يتكون من عناصر أظهرت ارتباطًا كبيرًا بدرجاته الإجمالية ، فيُقال إن الاختبار له اتساق داخلي ، نظرًا لأن جميع عناصره تخضع للبناء المقدم في الاختبار.

معيار الاتساق الداخلي هو أيضًا الارتباط بين النتيجة الإجمالية للتقنية ونتائج تنفيذ أجزائها الفردية. تتكون الاختبارات التي يعمل الذكاء فيها كبناء دائمًا من اختبارات فرعية مطبقة بشكل منفصل (مثل الوعي ، والقياس ، والتصنيف ، والاستدلال ، وما إلى ذلك) ، والتي تضيف نتائجها إلى درجة الاختبار الإجمالية. تشير الارتباطات الهامة بين نتائج كل اختبار فرعي والنتيجة الإجمالية أيضًا إلى الاتساق الداخلي للاختبار بأكمله.

بالإضافة إلى ذلك ، يتم استخدام مجموعات التباين لإثبات الاتساق الداخلي ، والتي تتكون من الأشخاص الذين أظهروا أعلى وأدنى النتائج الإجمالية. تنفيذ التقنية من قبل مجموعة مع نتائج عاليةمقارنة بأداء المجموعة ذات النتائج المنخفضة ، وإذا تعاملت المجموعة الأولى مع المهام بشكل أفضل من الثانية ، يتم التعرف على المنهجية على أنها متسقة داخليًا.

كما يؤكد A. Anastasi ، فإن معيار الاتساق الداخلي للطريقة هو مقياس أساسي لتجانسها. نظرًا لأن هذا المؤشر يساعد في وصف مجال السلوك أو الخاصية التي يتم اختبارها بشكل انتقائي بواسطة الطريقة ، فإن درجة تجانسها ترتبط بصلاحية البناء. بطبيعة الحال ، فإن الاتساق الجوهري للمنهجية وحدها ليس لديه الكثير ليقوله حول ما تقيسه. ومع ذلك ، في ظل وجود الأسس النظرية الموضوعة بدقة لإنشاء منهجية وقاعدة علمية راسخة ، فإن هذا الإجراء يعزز الأفكار النظرية حول جوهره النفسي.

هناك طريقة أخرى لتحديد صلاحية البناء تتضمن تقييم منهجية من حيث مؤشرين متعارضين. من المهم مقارنة مؤشرات المنهجية التي يتم التحقق من صحتها ، من ناحية ، مع الأساليب التي لها نفس البنية النظرية ، ومن ناحية أخرى ، مع الأساليب التي لها أساس نظري مختلف. لهذا ، يتم استخدام الإجراء لتقييم الصلاحية المتقاربة والتمييزية التي اقترحها D. T. كامبل ود.

صحة متقاربة (من اللات. - التقارب إلى مركز واحد ، التحويل) هو استنتاج حول التشابه (تماثل الشكل - تماثل الشكل) لطريقة معينة (تقنية ، اختبار ، قياس) لطريقة أخرى مخصصة لنفس الأغراض (متقاربة ، متشابهة). يتم التعبير عنها في متطلبات الاعتماد الإحصائي لمؤشرات التشخيص ، إذا كانت تهدف إلى قياس الخصائص العقلية المرتبطة بالمفاهيم للفرد.

تفحص العنصرية (من اللات. - فرق ، فرق) - استنتاج حول اختلاف طريقة واحدة (طريقة ، اختبار ، قياس) عن طريقة أخرى ، تختلف نظريًا عن الطريقة الأولى. يتم التعبير عنها في غياب علاقة إحصائية بين مؤشرات التشخيص التي تعكس الخصائص المستقلة من الناحية المفاهيمية.

الصلاحية المتقاربة والمميزة هي أنواع معيار صحة. تشمل هذه الفئة أي نوع من أنواع الصلاحية التي تم تقييمها باستخدام معيار مستقل ، وهو معيار للتقييم والمقارنة.

لذلك ، فإن إجراء تقييم المصداقية المتقاربة والتمييزية يتمثل في إنشاء كل من التشابه والفرق بين الظواهر النفسية في وقت واحد المقاسة بتقنية جديدة بتقنيات معروفة بالفعل. وهي تفترض استخدام مجموعة خاصة من طرق التحكم ، إلى جانب الطريقة التي يتم التحقق من صحتها ، والتي تم اختيارها بطريقة تشمل كلتا الطريقتين المفترضتين ذات الصلة بالطريقة التي تم التحقق من صحتها وتلك التي لا تتعلق بها. يجب على المجرب أن يتنبأ مسبقًا بالطرق التي ستكون شديدة الارتباط بالطريقة التي يتم التحقق من صحتها ، وأي ارتباطات بالطرق التي ستكون منخفضة. وفقًا لهذا ، هناك تمييز بين الصلاحية المتقاربة (التحقق من درجة التقارب المباشر أو التغذية الراجعة) والصلاحية التمييزية (إثبات عدم وجود علاقة). التقنيات التي ، من خلال الافتراض ، ترتبط ارتباطًا وثيقًا بالواحد الذي يتم التحقق من صحته ، تسمى متقاربة ، وليست مترابطة ، مميزة.

يشكل تأكيد مجمل العلاقات المتوقعة نظريًا مجموعة مهمة من معلومات صحة الإنشاء. في علم النفس التشخيصي باللغة الإنجليزية ، يُشار إلى مثل هذا التعريف التشغيلي لصلاحية البناء على أنه الصلاحية المفترضة

يشير وجود علاقة ارتباط بين الجديد والمماثل في منهجية التصميم ، والتي تم إثبات صحتها مسبقًا ، إلى أن المنهجية المطورة "تقيس" تقريبًا نفس الجودة النفسية مثل المنهجية المرجعية. وإذا تبين أن الطريقة الجديدة في نفس الوقت أكثر إحكاما واقتصادية في إجراء ومعالجة النتائج ، فإن التشخيص النفسي يحصل على فرصة لاستخدام الأداة الجديدة بدلاً من الأداة القديمة. غالبًا ما تستخدم هذه التقنية بشكل خاص في علم النفس الفسيولوجي التفاضلي عند إنشاء طرق لتشخيص الخصائص الأساسية. الجهاز العصبيشخص. يحتل مكان خاص في إجراءات تحديد صلاحية البناء تحليل العوامل (صحة مضروب). يسمح لك بإجراء تحليل إحصائي صارم لهيكل العلاقات بين مؤشرات التقنية المدروسة ، وتحديد تكوين عواملها وتحميلات العوامل ، وتحديد الميزات المخفية والأنماط الداخلية لعلاقتها.

لذلك ، يتطلب التحقق النظري للتقنية استخدام مجموعة متنوعة من الإجراءات التجريبية التي تساهم في تراكم المعلومات حول البنية التي يتم تشخيصها. إذا أكدت هذه البيانات الفرضية ، فهذا يؤكد المفهوم النفسي الذي تقوم عليه المنهجية وقدرة المنهجية على أن تكون بمثابة أداة لقياس هذا المفهوم. وكلما كان التأكيد مقنعًا ، يمكن للمرء أن يتحدث بشكل أكيد عن صحة الطريقة فيما يتعلق بالمفهوم النفسي الكامن وراءها.

دور مهم لفهم ماهية مقاييس المنهجية يتم لعبه من خلال مقارنة مؤشراتها بالأشكال العملية من النشاط. ولكن من المهم بشكل خاص هنا أن يتم وضع التقنية بدقة من الناحية النظرية ، أي أن يكون لدينا قاعدة علمية متينة ومتينة. ثم ، عند مقارنة المنهجية بمعيار خارجي مأخوذ من الممارسة اليومية ، المقابلة لما تقيسه ، يمكن الحصول على المعلومات التي تدعم الأفكار النظرية حول جوهرها.

من المهم أن نتذكر أنه إذا تم إثبات الصلاحية النظرية ، فإن تفسير المؤشرات التي تم الحصول عليها يصبح أكثر وضوحًا ولا لبس فيه ، ويتوافق اسم الطريقة مع نطاق تطبيقها.

بخصوص التحقق العملي ومن ثم فإنه ينطوي على اختبار المنهجية من حيث فعاليتها العملية وأهميتها وفائدتها ، لأنه من المنطقي استخدام طريقة التشخيص فقط عندما يثبت أن الخاصية المقاسة تتجلى في مواقف حياتية معينة ، في أنواع معينة من النشاط. إنهم يعلقون عليها أهمية كبيرة ، خاصة عندما تثار مسألة الاختيار.

إذا انتقلنا إلى تاريخ تطور علم الخصية ، يمكننا التمييز بين هذه الفترة (1920-1930) ، عندما كان المحتوى العلمي للاختبارات و "أمتعتها" النظرية أقل أهمية. كان من المهم أن ينجح الاختبار ، للمساعدة في اختيار الأشخاص الأكثر استعدادًا بسرعة. يعتبر المعيار التجريبي لتقييم عناصر الاختبار هو المبدأ التوجيهي الصحيح الوحيد في حل المشكلات العلمية والتطبيقية.

غالبًا ما أدى استخدام تقنيات التشخيص مع تبرير تجريبي بحت ، دون أساس نظري واضح ، إلى استنتاجات علمية زائفة ، إلى توصيات عملية غير مبررة. كان من المستحيل تسمية تلك الميزات والصفات التي تم الكشف عنها بالضبط ، على سبيل المثال ، الاختبارات. بي إم تيبلوف ، الذي حلل اختبارات تلك الفترة ، أطلق عليها "الاختبارات العمياء".

كان هذا النهج لمشكلة صلاحية الطريقة سمة مميزة حتى أوائل الخمسينيات من القرن الماضي. ليس فقط للولايات المتحدة ، ولكن أيضًا للدول الأخرى. لا يمكن للضعف النظري للطرق التجريبية للتحقق من المصداقية إلا أن يثير الانتقادات من هؤلاء العلماء الذين طالبوا ، في تطوير الأساليب ، بالاعتماد ليس فقط على التجريبية والممارسة "المجردة" ، ولكن أيضًا على المفهوم النظري. من المعروف أن الممارسة بدون نظرية عمياء ، والنظرية بدون ممارسة ميتة. حاليا التقييم النظري والعملي يُنظر إلى صحة الأساليب على أنها الأكثر إنتاجية.

لإجراء التحقق العملي من المنهجية ، أي لتقييم فعاليتها وكفاءتها وأهميتها العملية ومستقلة المعيار الخارجي - مؤشر له قيمة فورية في مجال معين من الممارسة. قد يكون هذا المعيار هو الأداء الأكاديمي (لاختبارات القدرة على التعلم ، واختبارات الإنجاز ، واختبارات الذكاء) ، وإنجازات الإنتاج (لأساليب التوجيه المهني) ، وفعالية الأنشطة الحقيقية - الرسم ، والنمذجة ، إلخ. (لاختبارات القدرات الخاصة) ، والتقييمات الذاتية (لاختبارات الشخصية).

يميز الباحثان الأمريكيان د.تيفين وإي ماكورميك ، بعد تحليل المعايير الخارجية المستخدمة لإثبات الصدق ، أربعة أنواع منها:

  • 1) معايير الأداء (قد تشمل حجم العمل المنجز ، والأداء الأكاديمي ، والوقت الذي يقضيه في التدريب ، ومعدل نمو المؤهلات ، وما إلى ذلك) ؛
  • 2) المعايير الذاتية (تشمل أنواعًا مختلفة من الإجابات التي تعكس موقف الشخص تجاه شيء ما أو شخص ما ، ورأيه ، وآرائه ، وتفضيلاته ؛ وعادة ما يتم الحصول على المعايير الشخصية من خلال المقابلات والاستبيانات والاستبيانات) ؛
  • 3) المعايير الفسيولوجية (تُستخدم لدراسة تأثير البيئة والمتغيرات الظرفية الأخرى على جسم الإنسان والنفسية ؛ يتم قياس معدل النبض وضغط الدم ومقاومة الجلد الكهربائية وأعراض التعب وما إلى ذلك) ؛
  • 4) معايير الحوادث (تُطبق عندما يتعلق الغرض من الدراسة ، على سبيل المثال ، بمشكلة اختيار الأشخاص الأقل عرضة للحوادث للعمل).

يجب أن يفي المعيار الخارجي بثلاثة متطلبات أساسية: يجب أن يكون ملائمًا وخاليًا من التداخل (التلوث) وموثوقًا.

تحت ملاءمة أعني المراسلات الدلالية لأداة التشخيص مع معيار حيوي مستقل. بمعنى آخر ، يجب أن تكون هناك ثقة في أن المعايير تتضمن تحديدًا سمات النفس الفردية التي يتم قياسها بواسطة طريقة التشخيص. يجب أن يكون المعيار الخارجي وأسلوب التشخيص في تطابق دلالي داخلي مع بعضهما البعض ، وأن يكونا متجانسين نوعياً في الجوهر النفسي. إذا كان الاختبار ، على سبيل المثال ، يقيس الخصائص الفردية للتفكير ، والقدرة على أداء أفعال منطقية بأشياء ومفاهيم معينة ، فمن الضروري في المعيار البحث عن مظهر من مظاهر هذه المهارات على وجه التحديد. هذا ينطبق بالتساوي على الأنشطة المهنية. ليس له هدف واحد ، بل العديد من الأهداف والمهام ، كل منها محدد ويقدم شروطه الخاصة للتنفيذ. هذا يعني وجود عدة معايير لأداء الأنشطة المهنية. لذلك ، لا ينبغي إجراء مقارنة بين نجاح التشخيص والأداء العام. من الضروري إيجاد معيار يرتبط ، بحكم طبيعة العمليات المنجزة ، بالمنهجية.

إذا لم يكن معروفًا فيما يتعلق بمعيار خارجي ما إذا كان مناسبًا للخاصية المقاسة أم لا ، فإن مقارنة نتائج تقنية التشخيص النفسي بها تصبح عديمة الفائدة عمليًا. لا يسمح لأحد بالتوصل إلى أي استنتاجات يمكن أن تقيم صحة الطريقة.

متطلبات التحرر من التدخل (التلوث) ناتجة عن حقيقة أن النجاح التعليمي أو الصناعي ، على سبيل المثال ، يعتمد على متغيرين: على الشخص نفسه ، وخصائصه الفردية ، مقاسة بالطرق ، والحالة ، وظروف الدراسة ، والعمل ، التي يمكن أن تقدم عوائق ، " تلوث "المعيار المطبق. لتجنب هذا إلى حد ما ، من الضروري أن تختار للبحث مثل هذه المجموعات من الأشخاص الذين هم في نفس الظروف إلى حد ما. يمكن استخدام طريقة أخرى. يتكون في تصحيح تأثير التدخل. عادة ما يكون هذا التعديل إحصائيًا بطبيعته. لذلك ، يجب أن تؤخذ الإنتاجية بالقيم المطلقة ، ولكن فيما يتعلق بمتوسط ​​إنتاجية العمال الذين يعملون في ظروف مماثلة.

عندما يقال أن المعيار يجب أن يكون ذا دلالة إحصائية إمكانية الإعتماد على، هذا يعني أنه يجب أن يعكس ثبات واستقرار الوظيفة قيد الدراسة.

يعد البحث عن معيار مناسب يسهل التعرف عليه مهمة مهمة للغاية وصعبة للتحقق من صحتها. في علم الخصية الغربي ، العديد من الطرق غير مؤهلة فقط لأنها لم تجد معيارًا مناسبًا لاختبارها. على سبيل المثال ، بالنسبة لمعظم الاستبيانات ، فإن البيانات المتعلقة بصحتها مشكوك فيها ، لأنه من الصعب العثور على معيار خارجي مناسب يتوافق مع ما يقيسونه.

يمكن أن يكون تقييم الصلاحية العملية للطرق كميًا ونوعيًا.

لكي يحسب كمي المؤشر - معامل الصلاحية - تتم مقارنة النتائج التي تم الحصول عليها عند استخدام تقنية التشخيص مع البيانات التي تم الحصول عليها وفقًا لمعيار خارجي لنفس الأشخاص. يتم استخدام أنواع مختلفة من الارتباط الخطي (وفقًا لسبيرمان ، بيرسون).

كم عدد المواد اللازمة لحساب الصلاحية؟ لقد أثبتت الممارسة أنه لا ينبغي أن يكون هناك أقل من 50 منهم ، ولكن أكثر من 200 هو الأفضل. غالبًا ما يطرح السؤال ، ما هي قيمة معامل الصلاحية حتى يعتبر مقبولاً؟ بشكل عام ، يلاحظ أنه يكفي أن يكون معامل الصلاحية ذا دلالة إحصائية. يتم التعرف على معامل الصلاحية للترتيب 0.20 0.30 على أنه منخفض ، ومتوسط ​​- 0.30-0.50 وعالي - فوق 0.60.

ولكن ، كما يؤكد A. Anastasi و K.M. Gurevich ومؤلفون آخرون ، ليس من المشروع دائمًا استخدام الارتباط الخطي لحساب معامل الصلاحية. يتم تبرير هذه التقنية فقط عندما يتم إثبات أن النجاح في بعض الأنشطة يتناسب طرديًا مع النجاح في تنفيذ تقنية التشخيص. غالبًا ما يتلخص موقع المختبرين الأجانب ، وخاصة أولئك الذين يشاركون في الملاءمة المهنية والاختيار المهني ، في الاعتراف غير المشروط بأن الشخص الذي أكمل المزيد من المهام في الاختبار هو أكثر ملاءمة للمهنة. ولكن قد يكون الأمر كذلك أنه لتحقيق النجاح في النشاط ، يجب أن يكون لديك خاصية عند مستوى 40٪ من حل الاختبار. المزيد من النجاح في الاختبار لم يعد له أي معنى بالنسبة للمهنة. مثال توضيحي من دراسة كتبها K.M. Gurevich: يجب أن يكون ساعي البريد قادرًا على القراءة ، ولكن سواء كان يقرأ بسرعة عادية أو بسرعة عالية جدًا ، لم يعد له معنى احترافي. مع هذه النسبة من مؤشرات المنهجية والمعيار الخارجي ، قد يكون معيار الاختلافات هو الطريقة الأكثر ملاءمة لإثبات الصلاحية.

كما أوضحت تجربة خبراء الاختبارات الأجانب ، لا يوجد إجراء إحصائي قادر على أن يعكس بشكل كامل تنوع التقييمات الفردية. لذلك ، غالبًا ما يتم استخدام نموذج مختلف لإثبات صحة الأساليب - التقييمات السريرية. هذا ليس سوى جودة وصف جوهر الممتلكات المدروسة. في هذه الحالة ، نتحدث عن استخدام تقنيات لا تعتمد على المعالجة الإحصائية.

في القياس النفسي الحديث ، تم تطوير العشرات من الطرق المختلفة للتحقق من صحة تقنيات التشخيص ، نظرًا لخصائصها ، فضلاً عن الوضع المؤقت للمعيار الخارجي. ومع ذلك ، غالبًا ما يتم تسمية الطرق التالية.

  • 1. الصلاحية "حسب المحتوى" يعني أن الطريقة صحيحة في رأي الخبراء. يتم استخدام هذه التقنية ، على سبيل المثال ، في اختبارات الإنجاز. عادةً لا تتضمن اختبارات التحصيل جميع المواد التي اجتازها الطلاب ، ولكن جزءًا صغيرًا منها (3-4 أسئلة). هل يمكنك التأكد من أن الإجابات الصحيحة على هذه الأسئلة القليلة تشير إلى استيعاب كل المواد؟ هذا هو ما يجب أن يجيب التحقق من صحة المحتوى. للقيام بذلك ، يتم إجراء مقارنة بين النجاح في الاختبار مع تقييمات الخبراء للمعلمين (لهذه المادة). صلاحية المحتوى مناسبة أيضًا للاختبارات القائمة على المعايير ، نظرًا لأنها تستخدم طرقًا متخصصة. موضوع الفحص محدد - محتوى الاختبار. يجب على المقيّمين تقييم محتوى عناصر الاختبار من حيث صلتها بالممتلكات العقلية المُعلن عنها عند التحقق من صحة محتوى الاختبار. لهذا الغرض ، يتم تقديم الخبراء بمواصفات الاختبار وقائمة المهام. إذا كانت مهمة معينة تتوافق تمامًا مع المواصفات ، فإن الخبير يحددها على أنها مطابقة لمحتوى الاختبار. يشار إلى هذه التقنية أحيانًا بالصلاحية المنطقية أو "بالتعريف". ...
  • 2. الصلاحية "بالتزامن" أو الصلاحية الحالية ، يتم تحديده باستخدام معيار خارجي ، يتم بموجبه جمع المعلومات بالتزامن مع التجارب وفقًا للطريقة المختبرة. بمعنى آخر ، يتم جمع البيانات المتعلقة بالحاضر: الأداء الأكاديمي خلال الفترة التجريبية ، والأداء خلال نفس الفترة ، وما إلى ذلك. تتم مقارنة نتائج الاختبار معهم.
  • 3. صحة التنبؤية (اسم آخر - "صحة التنبؤية). يتم تحديده أيضًا من خلال معيار خارجي ، ولكن يتم جمع المعلومات عنه في وقت ما بعد الاختبار. على الرغم من أن هذه التقنية تتوافق مع مهمة تقنيات التشخيص - توقع النجاح في المستقبل ، إلا أنه من الصعب جدًا تطبيقها. ترتبط دقة التشخيص عكسياً بالوقت الممنوح لمثل هذا التنبؤ. كلما مر الوقت بعد القياس ، يجب أخذ المزيد من العوامل في الاعتبار عند تقييم القيمة التنبؤية للتقنية. ومع ذلك ، يكاد يكون من المستحيل مراعاة جميع العوامل التي تؤثر على التنبؤ.
  • 4. الصلاحية "بأثر رجعي". يتم تحديده على أساس معيار يعكس الأحداث أو حالة الجودة في الماضي. يمكن استخدامه للحصول بسرعة على معلومات حول القدرات التنبؤية للتقنية. على سبيل المثال ، يمكن مقارنة الدرجات السابقة وآراء الخبراء السابقين وما إلى ذلك لاختبار مدى توافق درجات اختبار القدرات الجيدة مع التعلم السريع. في الأشخاص الذين لديهم مؤشرات تشخيص عالية ومنخفضة في الوقت الحالي.

عند تقديم بيانات عن صلاحية الطريقة المطورة ، من المهم الإشارة بالضبط إلى نوع الصلاحية المقصود (بالمحتوى ، من خلال التزامن ، إلخ). يُنصح أيضًا بتقديم معلومات عن عدد وخصائص الأفراد الذين تم التحقق من صحتهم. تسمح هذه المعلومات للطبيب النفسي باستخدام الطريقة ليقرر مدى صلاحية هذه التقنية للمجموعة التي سيطبقها عليها. كما في حالة الموثوقية ، يجب أن نتذكر أنه في عينة واحدة قد يكون للطريقة صلاحية عالية ، وفي عينة أخرى - منخفضة. لذلك ، إذا كان الباحث يخطط لاستخدام المنهجية على عينة من الموضوعات تختلف اختلافًا كبيرًا عن تلك التي تم إجراء اختبار الصلاحية عليها ، فإنه يحتاج إلى إعادة إجراء مثل هذا الاختبار. لا ينطبق معامل الصلاحية الوارد في الدليل إلا على مجموعات من الموضوعات المشابهة لتلك التي تم تحديدها عليها.

أناستازي أ.الاختبارات النفسية: في مجلدين ، م ، 1982.
  • جورفيتش ك.مرسوم. مرجع سابق
  • أناستازي أ.الاختبارات النفسية: في مجلدين. M. ، 1982 ؛ بيرلاتشوك إل إف ، موروزوف إس إم.قاموس مرجعي الكتاب ولكن التشخيصات النفسية. كييف. 1989 ؛ جورفيتش ك.مرسوم. ذكر ؛ التشخيص النفسي العام / إد. L.L Bodaleva، V. V. Capital.
    • فيكسلر فيتالي أبراموفيتش
    • سميت جامعة ولاية ساراتوف باسم N.G. Chernyshevsky
    • رايدل ليونيد بنتسينوفيتش، مرشح العلوم ، أستاذ مشارك ، أستاذ مشارك
    • سميت جامعة ولاية بريامور على اسم شولم عليكيم
    • صلاحية
    • اختبار
    • اختبارات
    • نتيجة
    • تم اختباره
    • فن التعليم
    • رتبة

    يناقش المقال مفهوم الصلاحية وأنواعها ويوفر خوارزمية حسابية للتحقق من جودة الاختبار التربوي باستخدام معامل الصلاحية.

    • ميزات تصميم عناصر الاختبار غير القياسية
    • استخدام برامج الاختبار في ممارسة التدريس

    أصبح الاختبار التربوي اليوم أحد أكثر الأدوات التربوية المبتكرة شيوعًا لمراقبة جودة العملية التعليمية. بطريقة أو بأخرى ، يواجه المعلمون في أنشطتهم الحاجة إلى تطوير اختبار تربوي. يجب التحقق من جودة الاختبار الذي تم إنشاؤه. أحد مؤشرات جودة الاختبار هو التحقق من صحته.

    يأتي مفهوم "الصلاحية" من اللغة الإنجليزية. كلمة "صالحة" ، والتي تعني "مناسبة". الصدق هو أحد مؤشرات الجودة الأساسية للاختبار الذي تم إنشاؤه ، ويميز مدى ملاءمة النتائج التي تم الحصول عليها بعد الاختبار للغرض الذي تم إجراء الاختبار نفسه من أجله.

    أفانيسوف في. في مقالته "الاختبارات: التاريخ والنظرية" يكتب: "الصدق يميز ملاءمة الاختبار لقياس قيمة معينة ، لكن لا يمكن الحديث عن الصلاحية دون الإشارة إلى تطبيقها". دعنا نعطي مثالاً لفهم معنى الصلاحية. اثنان من الرماة يطلقون النار على الأهداف. سجل الرامي الأول 70 نقطة ، والثاني 80 من 100. للوهلة الأولى ، يبدو أن الرامي الثاني أفضل من الأول. ولكن عند تحديد النتائج ، اتضح أن رامي السهام الثاني أصاب هدف شخص آخر. وعليه فإن الرامي الثاني "غير صالح" ولا يستطيع أن يحقق الهدف الذي وضع أمامه.

    الخامس عمل علمي Mayorova A. "نظرية وممارسة إنشاء اختبارات لنظام التعليم" تقول "الصلاحية - يجب أن تحدد إلى أي مدى يمكن للاختبار أن يعكس ما يجب تقييمه".

    التحقق من صحة الاختبار ليس أكثر من عملية تجميع الأدلة لإثبات صحتها. في اختبار النظرية ، هناك عدة تصنيفات للصلاحية. أ. مايوروف يحدد ثلاثة أنواع من الصلاحية: بناءة ، معيارية وذات مغزى.

    الصلاحية البناءة - يتم تحديدها في الحالات التي توجد فيها فكرة الخاصية المقاسة في شكل صورة مجردة. في الصلاحية المعيارية أو التجريبية ، يتم تقدير قيمة العلاقة بين الاختبار والمعايير المستقلة. لتقييم درجة الاتصال ، يتم استخدام وسائل الإحصاء الرياضي (ارتباط سلسلتين من القيم: درجات الاختبار ومؤشرات المعلمات الخارجية). في هذه الحالة ، يمكن تمييز نوعين فرعيين: الصلاحية الحالية والتنبؤية. تبحث الصلاحية الحالية في الارتباط بمعيار موجود حاليًا (على سبيل المثال ، تتم مقارنة اختبار موضوع بدرجات المدرسة). يتم تحديد الصلاحية التنبؤية من خلال مقارنة النتائج بالمعايير التي يُتوقع ظهورها في المستقبل (على سبيل المثال ، يتم ترحيل نتائج العام السابق إلى العام التالي).

    وفقًا لـ P. Kline ، يمكن تعريف الاختبار ذي المحتوى العالي الصلاحية على النحو التالي:

    1. حدد فئة الأشخاص الذين تم إجراء الاختبار لهم.
    2. ضع قائمة بالمعارف والمهارات والقدرات المراد اختبارها.
    3. إجراء فحص خارجي للقائمة الواردة للتأكد من اكتمالها وصلاحيتها.
    4. ضع قائمة بالمهام بناءً على القائمة.
    5. لإجراء فحص خارجي للتعيينات المعدة.
    6. على هذا الأساس ، قم بإنشاء مهام اختبار تشكل اختبارًا ، بينما يكون الاختبار صالحًا بشكل مفيد.

    يعني حساب المعامل العددي لصحة الاختبار تحديدًا تجريبيًا لكيفية ارتباط أداء الأشخاص الخاضعين للاختبار بالتقييمات الأخرى المحددة بشكل مستقل لمعرفتهم. لتحديد الصلاحية ، مطلوب معيار خارجي مستقل ، أي تقييم خبير (مدرس). يتم أخذ معامل الارتباط بين نتائج قياسات الاختبار والمعيار على أنه معامل الصلاحية. إذا تم تمثيل تقييم الخبراء لمعرفة الموضوعات ، التي تم الحصول عليها بغض النظر عن إجراء الاختبار ، من خلال تسلسل رقمي Y1، Y2، ...، Yn، ثم يمكن حساب معامل صلاحية الاختبار باستخدام الصيغة المقترحة في عملهم بواسطة Anastazi A.، Avanesov V.S:

    حيث n هو عدد المواد ، هو تقييم الخبراء للطالب i ، هو المتوسط ​​الحسابي لتقييم الخبراء ، هو الانحراف المعياري لتقييم الخبراء ، هو عدد الإجابات الصحيحة للطالب i ، هو المتوسط ​​الحسابي لعدد الإجابات الصحيحة هو الانحراف المعياري لعدد الإجابات الصحيحة.

    ,

    تفسير النتائج:

    أ) إذا كانت V تأخذ قيمة في النطاق من 0.6 إلى 1 - تعتبر الصلاحية عالية ،

    ب) إذا كانت V تأخذ قيمة في النطاق من 0.3 إلى 0.6 - تعتبر الصلاحية متوسطة ،

    ج) إذا كانت V أقل من 0.3 - تعتبر الصلاحية منخفضة ،

    دعنا نفكر في مثال لحساب صلاحية الاختبار.

    يجب إجراء اختبار "عمليات المعلومات" من قبل مجموعة من 7 طلاب (في مثالنا ، سننظر في مجموعة صغيرة ، ومن الناحية العملية يوصى بفحص الاختبار على مجموعة لا تقل عن 30 شخصًا). يتكون الاختبار من 10 عناصر.

    أي خبير ، يتم تقييم النتائج مبدئيًا (يمكن للخبير أن يكون مدرسًا تقنيات المعلوماتمن يعرف هذه المجموعة جيدًا ولديه القدرة على التنبؤ بنتيجة أدائهم في هذا الاختبار).

    يتم عرض نتائج تقييم الخبراء في الجدول 1.

    الجدول 1. نتائج تقييم الخبراء.

    رقم الطالب

    يمكن إجراء الحسابات في جداول بيانات Microsoft Excel باستخدام وظائف الحساب المضمنة.

    لنحسب - المتوسط ​​الحسابي لتقييم الخبراء:

    .

    تحسب الدالة AVERAGE في Microsoft Office Excel المتوسط ​​الحسابي للأرقام في النطاق المحدد. على وجه الخصوص ، إذا كان النطاق B4: B15 يحتوي على قيم رقمية ، فإن الصيغة = AVERAGE (B4: B15) ستعيد الوسط الحسابي لهذه الأرقام.

    لنجد - الانحراف المعياري لتقديرات الخبراء:

    ستحسب دالة STDEV في Microsoft Office Excel الانحراف المعياري باستخدام العينة المحددة ، بناءً على الطريقة الحسابية "n-1". في الوقت نفسه ، نشير إلى أن الانحراف المعياري هو تقدير لمدى انتشار البيانات بشكل كبير بالنسبة للمتوسط ​​الحسابي لهذه البيانات.

    بعد الاختبار ، تظهر النتائج في الجدول 2.

    الجدول 2. نتائج الاختبار.

    رقم الطالب

    دعونا نحسب - المتوسط ​​الحسابي لعدد التقديرات الصحيحة:

    .

    لنجد - الانحراف المعياري لعدد التقديرات الصحيحة:

    دعنا نحسب معامل الصلاحية:

    بناءً على الحسابات ، يمكن استنتاج أن الصلاحية التي تم أخذها في الاعتبار في مثال اختبار "عمليات المعلومات" عالية. بناءً على مؤشر معين ، يمكننا القول. أن يحقق الاختبار نتائجه ، مما يعني أن مطور الاختبار قد تأقلم مع مهمته - تطوير اختبار عالي الجودة حول هذا الموضوع. لاحظ أن جودة الاختبار لا يتم تحديدها فقط من خلال مؤشر الصلاحية ، ولكن أيضًا من خلال العديد من المؤشرات الإضافية الأخرى.

    وبالتالي ، فإن الطريقة المدروسة لتحديد معامل الصلاحية هي واحدة من الخيارات الحسابية المتاحة للمدرس وتسمح لك بتحديد تطابق الاختبار الذي تم إنشاؤه مع الشروط التربوية المحددة.

    فهرس

    1. أفانيسوف مقابل المفاهيم الأساسية لعلم الخصية التربوي // المشكلات العلمية لاختبار التحكم في المعرفة: الملخصات. أبلغ عن المشاركين في الندوة المدرسية. م ، 2005.
    2. أفانيسوف في. الاختبارات: التاريخ والنظرية // إدارة المدرسة ، 1999 ، لا.
    3. أفانيسوف في. نماذج عناصر الاختبار: كتاب مدرسي لمعلمي المدارس والمعاهد ومعلمي الجامعات والكليات. الطبعة الثانية. مراجعة وتوسعت. - م: مركز الاختبارات ، 2005. - 156 ص.
    4. Anastazi A.، Urbina S.، Alekseev A.A. الاختبارات النفسية - سانت بطرسبرغ ، 2007. سر. ماجستير في علم النفس (الطبعة الدولية السابعة).
    5. كلاين ب.مقدمة في التصميم السيكومتري. دليل مرجعي لتصميم الاختبار. كييف: بان المحدودة ، 1994. –184 صفحة 12.
    6. مايوروف أ. نظرية وممارسة إنشاء اختبارات لنظام التعليم. - م: مركز الفكر 2001. -296 ص.
    7. Samylkina N.N. الوسائل الحديثة لتقييم نتائج التعلم: كتاب مدرسي - م: Binom. مختبر المعرفة ، 2012. - 197 ص.