ویژگیهای آزمون خوب متناسب با آموزش علمیـکاربردی
ملاک انتخاب آزمون
ویژگیهای لازم برای آزمون متناسب با آموزشهای علمیـکاربردی به شرح زیر است:
ـ عینیت: افرادی که آزمون را اجرا و یا نمرهگذاری میکنند، معمولاً دارای سوگیری هستند. عینیت آزمون یعنی، افراد، تحت تأثیر این سوگیریها قرار نگیرند. مهمترین علامت کیفیت آزمون، مهار هر چه بیشتر خطاهای فردی در سنجش است. دراینمیان درجه عینیت آزمونهای چندگزینهای بالاست، زیرا از نظر شیوه اجرا، خودآزما هستند و کل نمرهها با بهکارگیری کلید نمرهگذاری به دست میآید، که درباره آن توافق کامل وجود دارد.
ـ شرایط ترازشده برای اجرا و نمرهگذاری: آزمون باید در شرایط ترازشده اجرا و نمرهگذاری شود. زیرا، وجود این شرایط به افرایش عینیت آزمون میانجامد.
ـ دادههای هنجار: نمرههای آزمون عینی ذاتاً قابل تفسیر نیست. آنها معمولاً با امری بیرون از آزمون تفسیر میشوند. این امر ممکن است ملاکی یا هنجاری باشد. در تفسیر معیار ملاکی، نمرهها بر اساس معیار عملکرد مطلق تفسیر میشوند. در تفسیر هنجاری، نمرهها نسبت به عملکرد افراد گروهی معین تفسیر میشوند. برای تدوین آزمون خوب هنجاری، آزمون باید در نمونهای بزرگ از افرادی اجرا شود، که معرف جامعه فراگیران است.
ـ روایی و پایایی آزمون: آزمونهای خوب، آزمونهایی هستند که نمرههایی پایا (قابلاعتماد) از آنها حاصل میشود و استنباط از این آزمونها دارای روایی (اعتبار) بالایی است.
معیارهای آزمون در آموزشوپروش (که در سال 1985م تدوینشده)، مرجع قابل استنادی برای بررسی روایی آزمون و دیگر موضوعات مربوط به آزمونهاست (American Educational Research Association, 1999). این مجموعه معیارها را کمیته مشترک آزمونهای روانشناسی و آموزشوپرورش تدوین کرداند، که متشکل از نمایندگان انجمن روانشناسی آمریکا، انجمن پژوهشهای آموزشوپرورش آمریکا و شورای ملی سنجش در آموزشوپرورش است. از دیدگاه این معیارهای تدوینشده، روایی بهمعنی استنباطهایی است که برپایه آزمونها انجام میشود و نشانگر میزان مفید بودن و تناسب آزمون است. این تعریف، این حقیقت را تأیید میکند که نمرههای آزمونها را نمیتوان به خودی خود معتبر یا بیاعتبار دانست، بلکه اعتبار درواقع به دلیل استنباطی است که فراگیران از نمره دارند (Ibid).
دراینباره، نشانههایی (معیارهایی) برای بررسی اعتبار استنباطها از نمرههای آزمون عرضه شده است. یکی از آنها «نشانة مربوط به سازه (اعتبار سازه)» است که بر اساس ساختار نظری درباره ماهیت رفتار آدمی، مانند خودپنداره، شیوه یادگیری، درونگرایی و انگیزه پیشرفت تفسیر میشود. این مفاهیم هرچند به طور مستقیم قابل مشاهده نیستند، اما بر رفتار فراگیران آثار قابل مشاهدهای دارند. بنابراین، میزان دارایی آزمونی خاص در اعتبار سازه است؛ یعنی توان سنجش سازهای که ادعای اندازهگیری آن را دارد (Messick , 1989).
معیار دیگر «نشانه مربوط به محتوا (اعتبار محتوا)» است که به میزان معرفی محتوا یا حوزه مفهومی با نمرههای بهدست آمده در آزمون اشاره دارد؛ که این نمرهها ادعای اندازهگیری آن را دارند. گاهی روایی محتوا با روایی صوری اشتباه گرفته میشود. روایی صوری بررسی ذهنی و ایجابی از پرسشهای آزمون است، مبنیبر اینکه: آیا این پرسشها محتوایی را که آزمون ادعای اندازهگیری آن را دارد، میپوشانند یا خیر (Nevo, 1985)؟
معیار دیگر «نشانه مربوط به پیشبینی (اعتبار پیشبین)» است. این معیار، به درجه میزان تأیید پیشبینیهای انجامشده با یک آزمون از طریق مشاهده رفتارهای بعدی فراگیرانی مربوط میشود که آزمون برای آنها انجام شده است. چون اعتبار پیشبین مستلزم داشتن ملاکی صریح است، آن را بهمنزله نوعی اعتبار ملاکی معرفی میکنند. نوع دیگر اعتبار ملاکی، اعتبار همزمان نامیده میشود (Simner, 1989).
معیار مهم دیگر، «نشانه مربوط به همزمانی (اعتبار همزمان)» است که دومین نوع اعتبار ملاکی است. اعتبار همزمانی را میتوان بهمنزله میزان تناظر نمرههای افراد در آزمون جدید با آزمونی تثبیتشده تعریف کرد، که همان ساختار را زمانی کوتاه پیش یا پس از آزمون جدید سنجیده است. آزمون تثبیتشده، ملاکی است که آزمون جدید بر اساس آن اعتباریابی میشود (Gall, 1969).
«نشانه مربوط به نتیجه (اعتبار نتیجه)»، ملاک مهم دیگری در تعیین روایی آزمون محسوب میشود. چهار دلیلی که از ادعاهای اعتبار حمایت میکند و در بالا توصیف شد، بر معنا و مفهوم نمرههای آزمون متمرکز است. اما باید دانست نمرههای آزمون افزونبر معنای آنها حاوی چیزی هستند که آن را اعتبار نتیجه باید نامید (Helmestadter, 1964). این نوع اعتبار به این واقعیت اشاره دارد که هم نمرههای آزمون، هم نظریه و باورهایی که ساختار بر آن استوار است و نیز زبانی که با آن بر ساختار موردنظر تأکید میشود، در بردارنده ارزشهای خاصی است و هنگامی که برای تصمیمگیری درباره اشخاص به کار میرود دارای نتایج یا بار ارزشی است.
همواره، مطلوب آن است که پایایی نمرههای آزمون بهکار گرفتهشده در حد بالایی باشد. درواقع، از آزمونهایی که، نمرههای آن دارای پایایی کمی باشد، نمیتوان استنباط معتبری داشت، زیرا همگی دارای خطای اندازهگیری هستند و بنابراین، نمره واقعی در این حالت وجود ندارد و مانند این است که، به جای اینکه از فراگیران آزمون به عمل آید، به طور تصادفی به آنها نمره اختصاص یابد (Cole & Moss, 1989). هرچند وجود پایایی برای اعتبار شرطی لازم شمرده میشود، اما به این معنا نیست که نمرههای آزمون دارای پایایی مناسب، همواره به استنباط معتبر از نمرهها منجر شود؛ زیرا میتوان ابزاری ساخت که واحدهای مقیاس بهکار بردهشده در آن سازگاری (پایایی) سطح بالایی داشته باشند، اما مفهوم و معنای این واحدهای مقیاسی روشن نباشد. به بیان دیگر، نمیتوان استنباطهای معتبری از این نمرهها به دست آورد، هرچند که آنها دارای پایایی باشند. در این رابطه، میتوان، تحلیل از پایایی را با در نظر گرفتن عواملی که سبب خطای اندازهگیری میشوند، فراتر برد. به برخی از این عوامل در زیر اشاره شده است:
ـ پرسشهای آزمون تنها نمونهای از کل حوزه پرسشهای احتمالی هستند که میتوانند برای معرفی توانایی شناختی، صفت شخصیتی، نگرش، یا ساختارهای دیگری که اندازهگیری میشوند، بهکار روند. اگر پرسشهای گوناگون آزمون از نظر اینکه چگونه از حوزه ساختار مورد نظر نمونهگیری شدهاند، متعادل نشده باشند (یعنی به طور منطقی و متناسب از همه موارد آموزشداده شده، نباشند)، خطای اندازهگیری پدید میآید.
ـ اجراکنندگان آزمون ممکن است سبب بروز خطای اندازهگیری شوند؛ به این معنی که آزمون را به شکلی هماهنگ اجرا نکنند.
ـ اگر رویههای نمرهدهی به طور یکسان و هماهنگ انجام نشود، منجر به خطای اندازهگیری میشود.
ـ شرایط آزمون باید نرمال باشد. برای مثال اگر مکان آزمون بسیار گرم، سرد یا شلوغ باشد، سبب شود آزمودنیها در آزمون به شکل غیرعادی عمل کنند.
ـ تغییر در احساسات آزمودنیها (مانند بیماری در روز آزمون) ممکن است منجر به عملکرد غیر عادی شود (Cannell, 1988).
با توجه این مفروضات رویکردهای متفاوتی برای برآرود پایایی نمرههای آزمون تدوین گردیده که چهار نوع آن در زیر عرضه شده است.
ـ پایایی شکل همتا: رویکردی برای برآرود پایایی نمرههای آزمون است که در آن شکل خاص آزمونی که اجرا شده است، بررسی میگردد. برای مثال، دو آموزشگر هر کدام آزمون خود را تدوین کرده باشند، اما هدف آنها اندازهگیری مفهوم مشابهی باشد. هر آزمون تعداد یکسانی پرسش دارد؛ اما سبک و محتوای پرسشها با یکدیگر متفاوت است. در این حالت، خطای اندازهگیری در نمرههای حقیقی برآوردشده فراگیران، در آن سازه که آزمونها برای اندازهگیری آن طراحی شدهاند، وجود خواهد داشت. این خطاها را میتوان با تعیین پایایی همتا برآورد کرد. همچنین، می توان این کار را با محاسبه ضریب همبستگی انجام داد. این ضریب همبستگی، ضریب همارزی نیزخوانده میشود که همبستگی نمرههای فراگیران را بین شکلهای موازی آزمون محاسبه میکند. پایایی شکل همتا اینک کمتر به کار میرود، زیرا برای ساختن شکل همتای آزمون زمان و هزینه زیادی باید صرف کرد (Berk, 1986).
ـ پایایی بازآزمایی: رویکردی برای برآورد پایایی نمرههایی آزمون است که در آن، موقعیت و شرایط اجرای آزمون مورد بازبینی قرار میگیرد. برای تعیین این نوع پایایی، باید ضریب همبستگی را محاسبه کرد که در اینجا ضریب ثبات نامیده میشود و در آن همبستگی بین نمرههای فراگیران در همان ابزار به کار رفته، در دو موقعیت گوناگون محاسبه میشود. این نوع تعیین پایایی آزمونها بیشتر در مواقعی به کار میرود که شکلهای همتای آزمونها در دسترس نباشند. مهمترین مسأله در محاسبه پایایی بازآزمایی، تعیین فاصلة زمان مناسب بین دو اجرای آزمون است (Porter, 1985).
ـ همسانی درونی: همسانی درونی رویکردی برای برآورد پایایی نمرههای آزمون است که در آن پرسشهای آزمون بهطور مجزا مورد بررسی قرار میگیرد. روشهای متعددی برای بررسی همسانی درونی آزمون استفاده میشود که در هر کدام از این روشها، تحلیل نمره آزمودنیها فقط در یک بار اجرای آزمون انجام میشود. روشی برای برآورد همسانی درونی، محاسبه ضریب همبستگی بین دو نیمه آزمون است که ضریب همسانی دورنی نامیده میشود. این ضریب نشاندهنده پایایی نیمی از آزمون است. روش همارزی منطقی روش دیگری برای برآورد همسانی درونی است. پرسشهای آزمون بهطور انفرادی با یکی از فرمولهای متعددی که میتوان آنها را بهکار برد، تحلیل میشود. در این میان، فرمول کودر ریچاردسون بیشتر از بقیه فرمولها بهکار میرود (Richardson & Kuder, 1939).
ـ پایایی میان آزمونکنندگان: برای بهدست آوردن نمرههای آزمون به افرادی برای اجرای آزمون و به برخی دیگر برای نمرهگذاری آن نیاز است. هر دو نوع آزمونکننده که یکی مجری آزمون و دیگری تصحیحکننده آزمون است، در صورتی که نتوانند، بهدقت رویههای اجرا و تصحیح نمرههای آزمون را انجام دهند، ممکن است، سبب ورود خطای اندازهگیری در نمرههای آزمون شوند. با اجرای آزمون با چند آزمونکننده روی نمونهای از فراگیران و سپس محاسبه همبستگی نمرههای حاصلشده از سوی آنها میتوان، اندازه خطای مربوطبه اجرای آزمون را سنجید. درباره رویه نمرهگذاری آزمون و خطای حاصل از آن نیز میتوان به همین صورت عمل کرد (Shavelson & Webb, 1991).
در پایان باید گفت که انتخاب هر آزمونی بهتنهایی مزایا و کاستیهایی دارد. از این رو با تعیین تعدادی از آزمونهای قابل حصول و جمعآوری اطلاعات کامل از آنها، پیش از انتخاب و اجرای یکی از آزمونها، میتوان، این کاستیها را برطرف کرد. در این زمینه پرسشهای زیر، قبل از اجرای آزمون برای جستوجوی اطلاعات مربوط، راهگشا است (Haladna et al., 1991):
- آیا شواهدی وجود دارد که آزمون (برای موردی که قرار است بهکار گرفته شود)، روا (معتبر) و پایا (قابل اعتماد) باشد؟
- آیا سطح خوانایی آزمون برای نمونه موردنظر فراگیران مناسب است؟
- آیا آزمون، در محدودهی زمانی موردنظر قابل اجراست؟
- آیا هنجارهای آزمون جامعهای از فراگیران، مشابه فراگیرانی است که آزمودنیها از آن انتخاب شدهاند؟ (همان).
در پایان برای آزمون، توجه به همه شرایط و انتخاب متناسبترین و بهترین ترکیب از آزمون، بهویژه درباره فراگیران در نظام آموزش علمیـکاربردی لازم است، زیرا در این آموزشها، تنوع موارد آموزشی با هدف افزایش و تثبیت قابلیتهای کاربردی و مهارتی در فراگیران اهمیت دارد.
کتابشناسی
بینقی، ت؛ سعیدیرضوانی، م. (1380). ارزیابی اثربخشی برنامههای آموزشی علمیـکاربردی در پاسخ به نیاز کارفرمایان.(طرح پژوهشی، ویراست 1،شماره 39) تهران: مؤسسه پژوهش و برنامهریزی آموزش عالی.
خرقانی، س؛ سلسله، م. (1388). آموزش علمی- کاربردی: نظام آموزشی مجاور یا رکنی اساسی در آموزش عالی؟. کنفرانس آموزش مهندسی در 1404، تهران: دانشگاه تهران, فرهنگستان علوم.
سیف، ع. (1379). روشهای اندازهگیری و ارزشیابی آموزشی.چاپ پنجم. تهران: نشر دوران.
American Educational Research Association. (1999). American Psychological Association, & National Council on Measurement in Education. Standards for educational and psychological testing.
Cannell, J. J. (1988). Nationally normed elementary achievement testing in America's public schools: How all 50 states are above the national average. Educational Measurement: issues and practice, 7(2), 5-9.
Cole, N. S., & Moss, P. A. (1989). Bias in test use. In R. L. Linn (Ed.), The American Council on Education/Macmillan series on higher education. Educational measurement (p. 201–219). Macmillan Publishing Co, Inc; American Council on Education.
Engilish, F. W. (1992). Deciding What to Teach and Test: Developing, aligning, and leading the curriculum Newbury Park, Ca: Educational Measurement. (3re Ed.,) Pp. 201-219. New York: Macmillian.
Erk, R. A. (1986). A consumer’s guide to setting performance standards on criterion-referenced tests. Review of Educational research, 56(1), 137-172.
Gall, M. D. (1969). The relationship between masculinity-feminity and manifest anxiety. Journal of Clinical Psychology., 25(3), 294-295.
Haladyna, T. M., Nolen, S. B., & Haas, N. S. (1991). Raising standardized achievement test scores and the origins of test score pollution. Educational Researcher, 20(5), 2-7.
Helmestadter, G. C. (1964). Principles of Psychological Measurement, Englewood Cliffs, Nj: Prentice Hall.
Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-104). New York, NY: American Council on education and Macmillan.
Moreland, K. L., Eyde, L. D., Robertson, G. J., Primoff, E. S., & Most, R. B. (1995). Assessment of test user qualifications: A research-based measurement procedure. American Psychologist, 50(1), 14-23.
Nevo, B. (1985). Face validity revisited. Journal of Educational Measurement, 22(4), 287-293.
Osterlind, S. J. (1998). What Is constructing test items? (pp. 1-16). Springer Netherlands.
Porter, A. (1985). Content Determinants: An Overview, Presented at Annual Meeting Of The American Educational Research Association, San Francisco. (Eric Document Reproduction Servie No. Ed 274 510).
Richardson, M. W., & Kuder, G. F. (1939). The calculation of test reliability coefficients based on the method of rational equivalence. Journal of Educational Psychology, 30(9), 681-687.
Shavelson, R. J., & Webb, N. M. (1991). Generalizability theory: A primer (Vol. 1). Sage.
Simner, M. L. (1989). Predictive validity of an abbreviated version of the Printing Performance School Readiness Test. Journal of School Psychology, 27(2), 189-195