آزمون (آزمایشی، میدانی، ...)

شیدایی, فاطمه; بیژنی, مسعود; ولی‌زاده, ناصر‌

آزمون (آزمایشی، میدانی، ...)

Testing (Pilot, Field, ...)

نویسندگان

فاطمه شیدایی

مسعود بیژنی

ناصر‌ ولی‌زاده

ویژگی‌های آزمون خوب متناسب با آموزش علمی‌ـ‌کاربردی

ملاک انتخاب آزمون

ویژگی‌های لازم برای آزمون متناسب با آموزش‌های علمی‌ـ‌کاربردی به شرح زیر است:

ـ عینیت^‌: افرادی که آزمون را اجرا و یا نمره‌گذاری می‌کنند، معمولاً دارای سوگیری^‌ هستند. عینیت آزمون یعنی، افراد، تحت تأثیر این سوگیری‌ها قرار نگیرند. مهم‌ترین علامت کیفیت آزمون، مهار هر چه بیشتر خطاهای فردی در سنجش است. دراین‌میان درجه عینیت آزمون‌های چند‌گزینه‌ای بالاست، زیرا از نظر شیوه اجرا، خودآزما^‌ هستند و کل نمره‌ها با به‌کارگیری کلید نمره‌گذاری به دست می‌آید، که درباره آن توافق کامل وجود دارد.

ـ شرایط ترازشده^‌ برای اجرا و نمره‌گذاری: آزمون باید در شرایط ترازشده اجرا و نمره‌گذاری شود. زیرا، وجود این شرایط به افرایش عینیت آزمون می‌انجامد.

ـ داده‌های هنجار: نمره‌های آزمون عینی ذاتاً قابل تفسیر نیست. آنها معمولاً با امری بیرون از آزمون تفسیر می‌شوند. این امر ممکن است ملاکی یا هنجاری باشد. در تفسیر معیار ملاکی، نمره‌ها بر اساس معیار عملکرد مطلق تفسیر می‌‌شوند. در تفسیر هنجاری، نمره‌ها نسبت به عملکرد افراد گروهی معین تفسیر می‌شوند. برای تدوین آزمون خوب هنجاری، آزمون باید در نمونه‌ای بزرگ از افرادی اجرا شود، که معرف جامعه فراگیران است.

ـ روایی^‌ و پایایی^‌ آزمون: آزمون‌های خوب، آزمون‌هایی هستند که نمره‌هایی پایا (قابل‌اعتماد) از آنها حاصل می‌شود و استنباط از این آزمون‌ها دارای روایی (اعتبار) بالایی است.

معیارهای آزمون در آموزش‌و‌پروش (که در سال 1985م تدوین‌شده)، مرجع قابل استنادی برای بررسی روایی آزمون و دیگر موضوعات مربوط به آزمون‌هاست (American Educational Research Association, 1999). این مجموعه معیارها را کمیته مشترک آزمون‌های روان‌شناسی و آموزش‌و‌پرورش تدوین کرد‌اند، که متشکل از نمایندگان انجمن روان‌شناسی آمریکا، انجمن پژوهش‌های آموزش‌و‌پرورش آمریکا و شورای ملی سنجش در آموزش‌و‌پرورش است. از دیدگاه این معیارهای تدوین‌شده، روایی به‌معنی استنباط‌هایی است که بر‌پایه آزمون‌ها انجام می‌شود و نشانگر میزان مفید بودن و تناسب آزمون است. این تعریف، این حقیقت را تأیید می‌کند که نمره‌های آزمون‌ها را نمی‌توان به خودی خود معتبر یا بی‌اعتبار دانست، بلکه اعتبار در‌واقع به دلیل استنباطی است که فراگیران از نمره دارند (Ibid).

دراین‌باره، نشانه‌هایی (معیارهایی) برای بررسی اعتبار استنباط‌ها از نمره‌های آزمون عرضه شده است. یکی از آنها «نشانة مربوط به سازه (اعتبار سازه)^‌» است که بر اساس ساختار نظری درباره ماهیت رفتار آدمی، مانند خودپنداره، شیوه یادگیری، درون‌گرایی و انگیزه پیشرفت تفسیر می‌شود. این مفاهیم هر‌چند به طور مستقیم قابل مشاهده نیستند، اما بر رفتار فراگیران آثار قابل مشاهده‌ای دارند. بنابراین، میزان دارایی آزمونی خاص در اعتبار سازه است؛ یعنی توان سنجش سازه‌ای که ادعای اندازه‌گیری آن را دارد (Messick , 1989).

معیار دیگر «نشانه مربوط به محتوا (اعتبار محتوا)^‌» است که به میزان معرفی محتوا یا حوزه مفهومی با نمره‌های به‌دست آمده در آزمون اشاره‌ دارد؛ که این نمره‌ها ادعای اندازه‌گیری آن را دارند. گاهی روایی محتوا با روایی صوری^‌ اشتباه گرفته می‌شود. روایی صوری بررسی ذهنی و ایجابی از پرسش‌های آزمون است، مبنی‌بر اینکه: آیا این پرسش‌ها محتوایی را که آزمون ادعای اندازه‌گیری آن را دارد، می‌پوشانند یا خیر (Nevo, 1985)؟

معیار دیگر «نشانه مربوط به پیش‌بینی (اعتبار پیش‌بین)^‌» است. این معیار، به درجه میزان تأیید پیش‌بینی‌های انجام‌شده با یک آزمون از طریق مشاهده رفتارهای بعدی فراگیرانی مربوط می‌شود که آزمون برای آنها انجام شده است. چون اعتبار پیش‌بین مستلزم داشتن ملاکی صریح است، آن را به‌منزله نوعی اعتبار ملاکی معرفی می‌کنند. نوع دیگر اعتبار ملاکی، اعتبار همزمان^‌ نامیده می‌شود (Simner, 1989).

معیار مهم دیگر، «نشانه مربوط به همزمانی (اعتبار همزمان)» است که دومین نوع اعتبار ملاکی است. اعتبار همزمانی را می‌توان به‌منزله میزان تناظر نمره‌های افراد در آزمون جدید با آزمونی تثبیت‌شده تعریف کرد، که همان ساختار‌ را زمانی کوتاه پیش یا پس از آزمون جدید سنجیده است. آزمون تثبیت‌شده، ملاکی است که آزمون جدید بر اساس آن اعتباریابی می‌شود (Gall, 1969).

«نشانه مربوط به نتیجه (اعتبار نتیجه)^‌»، ملاک مهم دیگری در تعیین روایی آزمون محسوب می‌شود. چهار دلیلی که از ادعاهای اعتبار حمایت می‌کند و در بالا توصیف شد، بر معنا و مفهوم نمره‌های آزمون متمرکز است. اما باید دانست نمره‌های آزمون افزون‌بر معنای آن‌ها حاوی چیزی هستند که آن را اعتبار نتیجه باید نامید (Helmestadter, 1964). این نوع اعتبار به این واقعیت اشاره دارد که هم نمره‌های آزمون، هم نظریه و باورهایی که ساختار بر آن استوار است و نیز زبانی که با آن بر ساختار مورد‌نظر تأکید می‌شود، در بردارنده ارزش‌های خاصی است و هنگامی که برای تصمیم‌گیری درباره اشخاص به کار می‌‌رود دارای نتایج یا بار ارزشی^‌است.

همواره، مطلوب آن است که پایایی نمره‌های آزمون به‌کار گرفته‌شده در حد بالایی باشد. در‌واقع، از آزمون‌هایی که، نمره‌های آن دارای پایایی کمی باشد، نمی‌توان استنباط معتبری داشت، زیرا همگی دارای خطای اندازه‌گیری هستند و بنابراین، نمره واقعی در این حالت وجود ندارد و مانند این است که، به جای اینکه از فراگیران آزمون به عمل آید، به طور تصادفی به آنها نمره اختصاص یابد (Cole & Moss, 1989). هر‌چند وجود پایایی برای اعتبار شرطی لازم شمرده می‌شود، اما به این معنا نیست که نمره‌های آزمون دارای پایایی مناسب، همواره به استنباط معتبر از نمره‌ها منجر شود؛ زیرا می‌توان ابزاری ساخت که واحدهای مقیاس به‌کار برده‌شده در آن سازگاری (پایایی) سطح بالایی داشته باشند، اما مفهوم و معنای این واحدهای مقیاسی روشن نباشد. به بیان دیگر، نمی‌توان استنباط‌های معتبری از این نمره‌ها به دست آورد، هر‌چند که آنها دارای پایایی ‌باشند. در این رابطه، می‌توان، تحلیل از پایایی را با در نظر گرفتن عواملی که سبب خطای اندازه‌گیری می‌شوند، فراتر برد. به برخی از این عوامل در زیر اشاره شده است:

ـ پرسش‌های آزمون تنها نمونه‌ای از کل حوزه‌ پرسش‌های احتمالی هستند که می‌توانند برای معرفی توانایی شناختی، صفت شخصیتی، نگرش، یا ساختارهای دیگری که اندازه‌گیری می‌شوند، به‌کار ‌روند. اگر پرسش‌های گوناگون آزمون از نظر اینکه چگونه از حوزه‌ ساختار مورد نظر نمونه‌گیری شده‌اند، متعادل نشده باشند (یعنی به طور منطقی و متناسب از همه موارد آموز‌ش‌داده شده، نباشند)، خطای اندازه‌گیری پدید می‌آید.

ـ اجرا‌کنندگان آزمون ممکن است سبب بروز خطای اندازه‌گیری شوند؛ به این معنی که آزمون را به شکلی هماهنگ اجرا نکنند.

ـ اگر رویه‌های نمره‌‌دهی به طور یکسان و هماهنگ انجام نشود، منجر به خطای اندازه‌گیری می‌شود.

ـ شرایط آزمون باید نرمال باشد. برای مثال اگر مکان آزمون بسیار گرم، سرد یا شلوغ باشد، سبب شود آزمودنی‌ها در آزمون به شکل غیر‌عادی عمل کنند.

ـ تغییر در احساسات آزمودنی‌ها (مانند بیماری در روز آزمون) ممکن است منجر به عملکرد غیر عادی شود (Cannell, 1988).

با توجه این مفروضات رویکردهای متفاوتی برای برآرود پایایی نمره‌های آزمون تدوین گردیده که چهار نوع آن در زیر عرضه شده است.

ـ پایایی شکل همتا^‌: رویکردی برای برآرود پایایی نمره‌های آزمون است که در آن شکل خاص آزمونی که اجرا شده است، بررسی می‌گردد. برای مثال، دو آموزش‌گر هر کدام آزمون خود را تدوین کرده باشند، اما هدف آنها اندازه‌گیری مفهوم مشابهی باشد. هر آزمون تعداد یکسانی پرسش دارد؛ اما سبک و محتوای پرسش‌ها با یکدیگر متفاوت است. در این حالت، خطای اندازه‌گیری در نمره‌های حقیقی برآورد‌شده فراگیران، در آن سازه که آزمون‌ها برای اندازه‌گیری آن طراحی شده‌اند، وجود خواهد داشت. این خطاها را می‌توان با تعیین پایایی همتا برآورد کرد. همچنین، می توان این کار را با محاسبه ضریب همبستگی انجام داد. این ضریب همبستگی، ضریب هم‌ارزی نیزخوانده می‌شود که همبستگی نمره‌های فراگیران را بین شکل‌های موازی آزمون محاسبه می‌کند. پایایی شکل همتا اینک کمتر به کار می‌رود، زیرا برای ساختن شکل همتای آزمون زمان و هزینه زیادی باید صرف کرد (Berk, 1986).

ـ پایایی بازآزمایی^‌: رویکردی برای برآورد پایایی نمره‌هایی آزمون است که در آن، موقعیت و شرایط اجرای آزمون مورد بازبینی قرار می‌گیرد. برای تعیین این نوع پایایی، باید ضریب همبستگی را محاسبه کرد که در اینجا ضریب ثبات نامیده می‌شود و در آن همبستگی بین نمره‌های فراگیران در همان ابزار به کار رفته، در دو موقعیت گوناگون محاسبه می‌شود. این نوع تعیین پایایی آزمون‌ها بیشتر در مواقعی به کار می‌رود که شکل‌های همتای آزمون‌ها در دسترس نباشند. مهم‌ترین مسأله در محاسبه پایایی بازآزمایی، تعیین فاصلة زمان مناسب بین دو اجرای آزمون است (Porter, 1985).

ـ همسانی درونی^‌: همسانی درونی رویکردی برای برآورد پایایی نمره‌های آزمون است که در آن پرسش‌های آزمون به‌طور مجزا مورد بررسی قرار می‌گیرد. روش‌های متعددی برای بررسی همسانی درونی آزمون استفاده می‌شود که در هر کدام از این روش‌ها، تحلیل نمره آزمودنی‌ها فقط در یک بار اجرای آزمون انجام می‌شود. روشی برای برآورد همسانی درونی، محاسبه ضریب همبستگی بین دو نیمه آزمون است که ضریب همسانی دورنی^‌ نامیده می‌شود. این ضریب نشان‌دهنده پایایی نیمی از آزمون است. روش هم‌ارزی منطقی^‌ روش دیگری برای برآورد همسانی درونی است. پرسش‌های آزمون به‌طور انفرادی با یکی از فرمول‌های متعددی که می‌توان آن‌ها را به‌کار برد، تحلیل می‌شود. در این میان، فرمول کودر ریچاردسون^‌ بیشتر از بقیه فرمول‌ها به‌کار می‌رود (Richardson & Kuder, 1939).

ـ پایایی میان آزمون‌کنندگان^‌: برای به‌دست آوردن نمره‌های آزمون به افرادی برای اجرای آزمون و به برخی دیگر برای نمره‌گذاری آن نیاز است. هر دو نوع آزمون‌کننده که یکی مجری آزمون و دیگری تصحیح‌کننده آزمون است، در صورتی که نتوانند، به‌دقت رویه‌های اجرا و تصحیح نمره‌های آزمون را انجام دهند، ممکن است، سبب ورود خطای اندازه‌گیری در نمره‌های آزمون شوند. با اجرای آزمون با چند آزمون‌کننده روی نمونه‌ای از فراگیران و سپس محاسبه همبستگی نمره‌های حاصل‌شده از سوی آنها می‌توان، اندازه خطای مربوط‌به اجرای آزمون را سنجید. درباره رویه نمره‌گذاری آزمون و خطای حاصل از آن نیز می‌توان به همین صورت عمل کرد (Shavelson & Webb, 1991).

در پایان باید گفت که انتخاب هر آزمونی به‌تنهایی مزایا و کاستی‌هایی دارد. از این رو با تعیین تعدادی از آزمون‌های قابل حصول و جمع‌آوری اطلاعات کامل از آنها، پیش از انتخاب و اجرای یکی از آزمون‌ها، می‌توان، این کاستی‌ها را برطرف کرد. در این زمینه پرسش‌های زیر، قبل از اجرای آزمون برای جست‌وجوی اطلاعات مربوط، راه‌گشا است (Haladna et al., 1991):

- آیا شواهدی وجود دارد که آزمون (برای موردی که قرار است به‌کار گرفته شود)، روا (معتبر) و پایا (قابل اعتماد) باشد؟

- آیا سطح خوانایی آزمون برای نمونه مورد‌نظر فراگیران مناسب است؟

- آیا آزمون، در محدوده‌ی زمانی مورد‌نظر قابل اجراست؟

- آیا هنجارهای آزمون جامعه‌ای از فراگیران، مشابه فراگیرانی است که آزمودنی‌ها از آن انتخاب شده‌اند؟ (همان).

در پایان برای آزمون، توجه به همه شرایط و انتخاب متناسب‌ترین و بهترین ترکیب از آزمون، به‌ویژه درباره فراگیران در نظام آموزش علمی‌ـ‌کاربردی لازم است، زیرا در این آموزش‌ها، تنوع موارد آموزشی با هدف افزایش و تثبیت قابلیت‌های کاربردی و مهارتی در فراگیران اهمیت دارد.

کتاب‌شناسی

بینقی، ت؛ سعیدی‌رضوانی، م. (1380). ارزیابی اثربخشی برنامه‌های آموزشی علمی‌ـ‌کاربردی در پاسخ به نیاز کارفرمایان.(طرح پژوهشی، ویراست 1،شماره 39) تهران: مؤسسه پژوهش و برنامه‌ریزی آموزش‌ عالی.

خرقانی، س؛ سلسله، م. (1388). آموزش علمی- کاربردی: نظام آموزشی مجاور یا رکنی اساسی در آموزش عالی؟. کنفرانس آموزش مهندسی در 1404، تهران: دانشگاه تهران, فرهنگستان علوم.

سیف، ع. (1379). روش‌های اندازه‌گیری و ارزشیابی آموزشی.چاپ پنجم. تهران: نشر دوران.

American Educational Research Association. (1999). American Psychological Association, & National Council on Measurement in Education. Standards for educational and psychological testing.

Cannell, J. J. (1988). Nationally normed elementary achievement testing in America's public schools: How all 50 states are above the national average. Educational Measurement: issues and practice, 7(2), 5-9.

Cole, N. S., & Moss, P. A. (1989). Bias in test use. In R. L. Linn (Ed.), The American Council on Education/Macmillan series on higher education. Educational measurement (p. 201–219). Macmillan Publishing Co, Inc; American Council on Education.

Engilish, F. W. (1992). Deciding What to Teach and Test: Developing, aligning, and leading the curriculum Newbury Park, Ca: Educational Measurement. (3re Ed.,) Pp. 201-219. New York: Macmillian.

Erk, R. A. (1986). A consumer’s guide to setting performance standards on criterion-referenced tests. Review of Educational research, 56(1), 137-172.

Gall, M. D. (1969). The relationship between masculinity-feminity and manifest anxiety. Journal of Clinical Psychology., 25(3), 294-295.

Haladyna, T. M., Nolen, S. B., & Haas, N. S. (1991). Raising standardized achievement test scores and the origins of test score pollution. Educational Researcher, 20(5), 2-7.

Helmestadter, G. C. (1964). Principles of Psychological Measurement, Englewood Cliffs, Nj: Prentice Hall.

Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-104). New York, NY: American Council on education and Macmillan.

Moreland, K. L., Eyde, L. D., Robertson, G. J., Primoff, E. S., & Most, R. B. (1995). Assessment of test user qualifications: A research-based measurement procedure. American Psychologist, 50(1), 14-23.

Nevo, B. (1985). Face validity revisited. Journal of Educational Measurement, 22(4), 287-293.

Osterlind, S. J. (1998). What Is constructing test items? (pp. 1-16). Springer Netherlands.

Porter, A. (1985). Content Determinants: An Overview, Presented at Annual Meeting Of The American Educational Research Association, San Francisco. (Eric Document Reproduction Servie No. Ed 274 510).

Richardson, M. W., & Kuder, G. F. (1939). The calculation of test reliability coefficients based on the method of rational equivalence. Journal of Educational Psychology, 30(9), 681-687.

Shavelson, R. J., & Webb, N. M. (1991). Generalizability theory: A primer (Vol. 1). Sage.

Simner, M. L. (1989). Predictive validity of an abbreviated version of the Printing Performance School Readiness Test. Journal of School Psychology, 27(2), 189-195

دانشنامه جامع علوم انسانی

آزمون (آزمایشی، میدانی، ...)

دانشنامه جامع علوم انسانی، دانشنامه آموزش‌های علمی- کاربردی

دانشنامه جامع علوم انسانی

آزمون (آزمایشی، میدانی، ...)

دانشنامه جامع علوم انسانی، دانشنامه آموزش‌های علمی- کاربردی

هم رسانی