راهنمای نگارش پایان نامه درباره طراحی و کاربرد الگوهای تهیهی خزانهی سؤال در بهینه سازی کارکرد سنجش انطباقی ... - منابع مورد نیاز برای پایان نامه : دانلود پژوهش های پیشین |
روش r-optimal در طراحی خزانهی سؤال در روش اکتشافی برای تعیین اندازهی خزانه
از آنجا که مقیاس متریک و مقیاس پارامتر- b یکسان میباشد، پس تبدیل حداقل نسبت P به پهنای دامنه (Range) روی مقیاس متریک کاربرد این روش را آسانتر می کند (ریکیسی، ۲۰۱۰).
تعریف عملیاتی: در این پژوهش برای تعیین تعداد سؤالات مورد نیاز برای خزانهی سؤال، از این شیوه استفاده میشود. به این صورت که حداقل مقدار p-optimal برابر با ۹۶% و دامنهی مربوط به آن برابر با ۴/۰ میباشد، که به آن پهنای bin گفته میشود. البته به منظور اهداف مقایسهای، انتخاب مقادیر دیگری از p و r نیز در این پژوهش انجام میگیرد.
فصل دوم
مبانی نظری پژوهش
مبانی نظری پژوهش
این فصل از سه قسمت تشکیل شده است. در قسمت اول سنجش انطباقی کامپیوتری (CAT) و اجزای تشکیل دهندهی و نحوهی کارکرد آن توصیف میشود. در قسمت دوم مولفههای[۸۴] تعیینکننده و مهم در طراحی الگوریتم اجرایی CAT که بر طراحی خزانهی سؤال نیز تأثیرگذارند، به صورت مجزا مورد بررسی قرار میگیرد. در قسمت سوم خزانهی سؤال، مدلهای مختلف طراحی خزانهی سؤال بهینه و ملاکهای ارزیابی خزانهی سؤال شرح داده میشود.
مقدمه
خزانهی سؤال نقش مهمی در سنجش انطباقی (CAT) بازی میکند. سؤالات در خزانه فهرستبندی و ساختاربندی میشوند، یا بهعبارت دیگر، به هر یک از سؤالات اطلاعاتی نسبت داده میشود که انتخاب آنها را برای آزمون آسان میکند. خزانههای سؤال به “مجموعهی نسبتاً بزرگی از پرسشهای در دسترس در آزمون” اشاره میکند (میلمن و آرتر، ۱۹۸۴).
دو نوع خزانهی سؤال در برنامههای سنجش انطباقی از هم متمایز میشوند. یکی از آنها خزانهی اصلی[۸۵] نامیده میشود، که شامل سؤالاتی است که ممکن است برای آزمون مورد استفاده قرار گیرد. نوع دیگر خزانهی سؤال عملیاتی[۸۶] می باشد که زیر مجموعهی کوچکتری از خزانهی اصلی است، و طوری طراحی میشود که به اندازه کافی کوچک باشد، به شکلی که کامپیوتر به آسانی بتواند سؤالات را بازیابی کند و هر زمان که لازم است مواجهه سؤال را به حداقل برساند، و در عین حال به اندازه کافی بزرگ باشد، به طوریکه سؤالاتی با ویژگیهای مورد نیاز را فراهم کند. به دلیل ماهیت پیوستهای که بسیاری از آزمونهای سنجش انطباقی در اجرا دارند، دورهی مفید یک خزانهی سؤال عملیاتی می تواند محدود باشد. و بعد از تعداد مشخصی استفاده باید کنار گذاشته شوند و به خزانهی اصلی برگردانده شوند. البته تعدادی از سؤالات می توانند بعد از گذشت دورهی زمانی معقولانهای دوباره استفادهشوند (گو و ریکیسی، ۲۰۰۷).
ویژگی انطباقی CAT استفاده از فرمهای از پیش طراحی شدهی آزمون (مانند آزمونهای مداد-کاغذی) را غیرضروری میکند. این درصورتی است که، CAT به خزانهی سؤالی نیاز دارد که از آن همهی آزمونها استخراج شود. یک خزانهی سؤال نه تنها مخزنی از سؤالات میباشد، بلکه مجموعهی سازمانیافتهای از سؤالات با صفاتی که برای هر یک مشخص شده میباشد. به عبارت دیگر، سنجش انطباقی کامپیوتری به خزانهی سؤالی نیاز دارد که بهخوبی طراحی شده باشد و شامل تعداد مناسبی از سؤالات برای ساخت آزمونهای مجزایی که با سطوح توانایی آزمودنیها مطابقت دارد، باشد. یک خزانهی سؤال بهینه باید شامل سؤالاتی باشد که از لحاظ محتوایی تعادل داشته باشند و هزینهی ساخت سؤال را کاهش دهد ( گو و ریکیسی، ۲۰۰۷؛ ریکیسی، ۲۰۱۰).
سؤالی که اغلب در طول طراحی خزانهی سؤال پرسیده میشود این است که، “چه تعداد سؤال باید در خزانه وجود داشته باشد؟”. بهطور ایده آل هر چه سؤالات بیشتر باشد، بهتر است، زیرا به ما این اجازه را میدهد که انتخاب بیشتری در سرهم کردن[۸۷] آزمونها داشته باشیم و بندرت سؤالات یکسانی در آزمونها تکرار شود و امنیت آزمون حفظ شود. در مواقعی که آزموندهندگان به خزانهی سؤال دست پیدا میکنند، اگر خزانه بزرگ باشد، برای آزمودنیها دشوار است که پاسخ سؤالات را حفظ کنند. همچنین، خزانههای بزرگتر دارای سؤالاتی میباشند که از لحاظ محتوا، فورمت سؤال و ملاحظات آماری با آزمون مورد نظر تطابق بیشتری دارند (میلمن و آرتر، ۱۹۸۴). البته خزانههای بزرگ خطرهایی دارند که عبارتند از اینکه، سؤالاتی که به خزانه اضافه میشوند باید خوب نوشته شوند، از لحاظ محتوایی معتبر باشند، و از لحاط آماری نیز مناسب باشند (لیناکر[۸۸]، ۱۹۸۷). همچنین تعداد سؤالات نباید خیلی زیاد باشد بلکه باید به اندازهای باشد که قابل کنترل باشد و بهراحتی بازیافتنی باشد (گو و ریکیسی، ۲۰۰۷).
سنجش انطباقی کامپیوتری[۸۹]
سنجش انطباقی چیست؟
سنجش انطباق کامپیوتری (CAT)، جایگزین قدرتمندتری برای مجموعهای از کاربردهای سنجش انطباقی موفقیتآمیزی است که با کار بینه[۹۰] در سال ۱۹۰۵ شروع شد. سنجش انطباقی در تعریف ساده، شامل سؤالاتی است که از یک مجموعه سؤال، که اصولاً به این مجموعه بانک یا خزانهی سؤال میگویند، انتخاب میشوند، بهطوریکه با سطح توانایی برآوردشدهی (یا سطح استعداد برآوردشدهی) آزمودنی مورد نظر مطابقت داشته باشند. اگر آزمودنی در پاسخ به سؤالی موفق شود و به آن پاسخ صحیح دهد، سؤالی که در مرحلهی بعدی به او ارائه میشود، اندکی دشوارتر[۹۱] خواهد بود و بالعکس. بهطور کلی، در سنجش انطباقی کامپیوتری (CAT)، سؤالات به طور مجزایی برای هر یک از آزمودنیها انتخاب میشوند، بهطوریکه، هر سؤال بر اساس پاسخ به سؤال قبلی انتخاب میشود. هدف این نوع از سنجش این است که، برآورد صحیح و دقیقی از مهارت آزمودنی روی مقیاس زیربنایی مهارت بدست آید. تعداد سؤالات، نوع سؤالات و ترتیب ارائه آنها از آزمودنی به آزمودنی دیگر متفاوت است (پارشال، اسپری، کالن و دیوی[۹۲]، ۲۰۰۲). معمولاً در این تکنیک بهسرعت مجموعهای از سؤالات تنظیم میشود، بهطوریکه با سطح توانایی آزمودنی همگرا باشد. زمانیکه برآورد توانایی آزمودنی به دقت مورد نظر برسد، آزمون متوقف میشود. در این شیوه، در صورتیکه آزمودنی بخواهد، میتواند فوراً از نتایج آزمون مطلع شود. همچنین، سنجش مقدماتی سؤالات جدید بانک سؤال و اعتباریابی کیفیت سؤالات جدید، میتواند بهطور همزمان با اجرای آزمون انجام گیرد، البته مسئلهی اضافه کردن سؤالات جدید به خزانه و مدرج کردن دوبارهی آنها امری مهم است که در پژوهش لیناکر(۱۹۸۷) بررسی شده است. مزایای CAT بهطورخلاصه شامل موارد زیر است؛ سنجش سریعتر، طرحهای سنجشی انعطافپذیر، افزایش امنیت آزمون، کنترل بهتر مواجهه سؤال، تعادل بهتر سطوح محتوایی آزمون برای همهی سطوح توانایی، بروز رسانی[۹۳] سریعتر سؤالات آزمون، گزارش سریعتر، تجربهی بهتر یک آزمون برای آزمودنیها. همچنین مشکلات CAT، عبارتند از؛ تجهیزات و امکانات پرهزینه، محدودیتهای نرمافزارهای رایج اجرای CAT، ناآشنایی بسیاری از آزمودنیها با محیط کامپیوتر، عدم برابری مشهود (تبعیض) که آزمودنیهای متفاوتی، آزمونهای متفاوتی را دریافت میکنند و دشواری اجرای انواع معینی از آزمونها به شکل CAT (لیناکر، ۲۰۰۰؛ ۱۹۹۹).
تاریخچه سنجش انطباقی کامپیوتری
بهطورکلی، همیشه آزمونها بهمنظور برآورده کردن نیازمندیهای آزموندهندگان و سنجش سطوح عملکرد مورد انتظار داوطلبان آزمون به عنوان یک گروه، ساخته میشوند. در واقع، اگر به یک آزمودنی، آزمونی که از سؤالات بسیار آسان تشکیل شدهاست ارائه شود، پاسخ به چنین آزمونی تنها زمان را به هدر میدهد و معمولاً رفتارهای ناخواستهی آزمودنی از قبیل اشتباهاتی که از روی بیدقتی صورت میگیرد را ایجاد میکند. معمولاً آزمودنی بهصورت عمدی پاسخ نادرست در برابر «سؤالات فریبنده[۹۴]» میدهد. همچنین، نتایج آزمونی که از سؤالات بسیار دشوار تشکیل شده باشد نیز حاوی اطلاعاتی نمیباشد، زیرا داوطلب از تلاش جدی خود برای پاسخ به سؤالات دست بر میدارد، و با بهره گرفتن از حدس به سؤالات پاسخ میدهد، و یا انواع دیگری از رفتارهای ناخواسته از او سر میزند (لیناکر، ۲۰۰۰).
آلفرد بینه (۱۹۰۵)، با آزمون هوش خود به پیشرفتههای عمدهای در این حوزه رسید. از آنجایی که علاقهی او تشخیص هوش هر یک از آزمودنیها بهصورت مجزا بود، بحثی در مورد منصفانه بودن آزمون مطرح نمیشد، بحثی که این ضرورت را ایجاد کند که هر فردی آزمون یکسانی دریافت کند. او متوجه شد که میتواند آزمون را با هر فرد از طریق طرح سادهی مرتب سازی سؤالات برحسب سطح دشواریشان، متناسب کند. او سپس با زیرمجموعهای از سؤالات که فرض میکرد با سطح توانایی آزمودنی مطابق است، شروع میکرد. اگر آزمودنی در آن زیر مجموعه موفق میشد، بینه با زیرمجموعههایی از سؤالات دشوارتری به پیش میرفت، تاجاییکه آزمودنی مکرراً شکست بخورد. اگر آزمودنی در زیرمجموعه اول سؤال شکست میخورد، او زیرمجموعههایی از سؤالات آسانتر را اجرا میکرد، تاجایی که آزمودنی مکرراً موفق شود. از این اطلاعات، بینه سطح توانایی آزمودنی را برآورد میکرد (لیناکر، ۲۰۰۰؛ ۱۹۹۸؛ وندر لیندن و گلاس،). شیوهی سنجش انعطافپذیر[۹۵] لرد[۹۶] (۱۹۸۰)، و انواع دیگر آن از قبیل شیوهی مرحلهای[۹۷] هنینگ[۹۸] (۱۹۸۷)، و مجموعه تست[۹۹] لوئیس و شین[۱۰۰] (۱۹۹۰)، روشهای بهبود یافتهای از شیوهی بینه هستند. این شیوهها بهراحتی میتوانند بهوسیلهی اجرای شخصی یا بوسیلهی کامپیوتر، اجرا شوند. سؤالات در این روشها بر اساس سطح دشواریشان طبقهبندی میشوند، و زیر مجموعههای متعددی از سؤالات در هر سطح ایجاد میشود. آزمون با اجرای زیرمجموعههایی از سؤالات پیش میرود، و برطبق نسبت موفقیت در هر خرده آزمون به طرف بالا یا پایین حرکت میکند. بعد از اجرای زیرمجموعههای متعدد، برآورد توانایی پایانی آزمودنی بدست میآید. هرچند این رویکرد خام است، ولی این روشها میتوانند بهطورمفیدی نتایج یکسانی مانند تکنیکهای پیچیدهتر CAT، ایجاد کنند (یاو[۱۰۱]، ۱۹۹۱).
استفاده از کامپیوترها، پیشرفتهای بیشتری در سنجش انطباقی را میسر کرد. اجرای راحت و انتخاب سؤالات بهسهولت بهتری انجام گرفت. ریکیسی (۱۹۷۴)، نمونهی اولیهی سنجش انطباقی کامپیوتری را ایجاد کرد. در ابتدا، کمیابی، گرانبودن و دشوار بودن استفاده از نرمافزارها و سختافزارهای کامپیوتری، اجرای CAT را محدود میکرد. امّا از سال ۲۰۰۰ به بعد CAT جایگاه مناسبی را در سیستمهای سنجشی پیدا کرد (لیناکر، ۲۰۰۰).
سنجش انطباقی کامپیوتری چگونه کار می کند؟
در سنجش انطباقی کامپیوتری (CAT)، سؤالات به صورت متغیر و چرخشی[۱۰۲]، بر اساس سطح توانایی آزمودنی انتخاب میشوند. برای انتخاب سؤالاتی با مشخصات بهینهی اندازهگیری در سطح توانایی برآورد شدهی آزمودنی، روشهای انطباقی بهکار میرود. CAT دارای مزیتهای مشابهی همانند آزمونهای دیگری که مبتنی بر کامپیوتر هستند، میباشد. این مزیتها عبارتند از؛ افزایش انعطاف و ارتباط با سیستمهای اجرایی آزمون. علاوه براین، دو مزیت دیگری وجود دارد که تنها مختص CAT میباشند، یکی از این مزیتها این است که طول تست میتواند تا تقریباً ۴۰ درصد کم شود، بدون آنکه دقت اندازهگیری کاهش یابد، همچنین، مزیت دیگر این است که، آزمودنیها با دریافت کردن سؤالاتی که برای آنها خیلی آسان یا خیلی سخت است، نا امید نمیشوند (واینر، دورانس، ایگنور، فلاگر، گرین، میسلوی، استنبرگ و تیسن، ۱۹۹۰؛ وندر لیندن و گلاس، ۲۰۰۰).
سیستمهای CAT، از نظر تئوریکی، روی خصوصیات تئوری سؤال پاسخ (IRT) مبتنی میباشد. در IRT پارامترهای توانایی و سؤال جدا از یکدیگرند. فرض بر این است که پارامترهای سؤال، برای مقادیر متفاوت پارامترهای توانایی نامتغیر میباشند. بنابراین، سؤالات میتوانند مدرج شوند و پارامترهای سؤال نیز میتوانند در خزانهی سؤال مدرج شوند. از داخل همین خزانهها، سؤالاتی که حداکثر آگاهی در پارامتر توانایی برآورد شده فراهم میکنند، انتخاب میشوند (ولدکمپ، ورشور و ایگن، ۲۰۰۷).
سنجش انطباقی در مورد آزمونهایی که دارای سؤالات دو ارزشی هستند، تا حدودی متفاوت با آزمونهای چند ارزشی (مانند، مقیاس مدرج[۱۰۳] و اعتبار جزئی[۱۰۴]) کار میکند (لیناکر، ۲۰۰۰). شرح کامل نحوهی کار CAT در این فصل خارج از حوصله میباشد. از اینرو، در این فصل به منظور شرح نحوهی کار آنها، از نمونهای از CAT که در مطالعات مربوط به لیناکر (۱۹۹۰، ۱۹۹۵، ۱۹۹۶، ۱۹۹۸ و ۱۹۹۹) طراحی شده و فلوچارت آنها در نمودار۲-۱ و ۲-۲ آورده شده است، استفاده میشود در فلوچارتی که برای این دو آزمون آورده شده است (هم CAT که دارای سؤالات دو ارزشی است و هم CAT که دارای سؤالات چند ارزشی است)، دشواری سؤالات در دامنهی ۰ تا ۱۰۰ مدرج شده است. نحوهی شروع آزمون به این نحو است که، الگوریتم انتخاب سؤال اولین سؤال را با توجه به سطح توانایی برآورد شدهی آغازین، که به صورت تخمینی برای آزمودنی توسط آزمون گیرنده تنظیم میشود، انتخاب میکند و یا خود کامپیوتر یک سؤال را به صورت تصادفی انتخاب و اجرا میکند، اغلب سیستم طراحی CAT به این صورت است که دشواری سؤال اول را متوسط انتخاب میکند. انتخاب سؤال اول برای دقت اندازهگیری مهم نیست، ولی برای حالت روانشناختی آزمودنی مهم است (لیناکر، ۲۰۰۰، لیناکر و رایت، ۱۹۸۸). گرشون[۱۰۵] (۱۹۹۲)، پیشنهاد میکند که سؤال اول و حتی همهی سؤالات باید کمی آسانتر از سطح توانایی آزمودنی باشند تا به آزمودنی احساس موفقیت دهند، امّا در عین حال، موقعیتی چالش برانگیز را ایجاد کنند. یک قاعدهی مهم برای شروع آزمونهایی که ملاک مرجع هستند و سطح قبول و رد دارند، این است که، آزمون از سؤالی شروع کند که دشواریاش اندکی زیر ملاک قبولی باشد. در هر دو مثال اجرای CAT، فرض بر این است که دشواری سؤال اول ۳۰ واحد است. امّا آزمودنی توانایی معادل با ۵۰ واحد دارد. در مورد CAT چند ارزشی نیز نحوهی شروع به همین صورت است، امّا، تفاوت در این است که شیوهی نمرهدهی به برخی از گزینههای انحرافی که به پاسخ صحیح نسبت به برخی گزینههای دیگر نزدیکترند، متفاوت است. این نحوهی اجرا در مورد آزمونهای نگرش و شخصیت هم صدق میکند، به گونهای که نمرهدهی به طبقات مقیاس مدرج هماهنگ با متغیر زیربنایی است که توسط طراح مشخص میشود. فلوچارتهای زیر اجرای کامل CAT را شرح میدهند (لیناکر، ، ۲۰۰۰). همچنین، در نمودار ۲-۳ فلوچارتی از اجرای کامل CAT آورده شده، که بر اساس مطالعهی هالتیکس[۱۰۶]، ۱۹۹۳ میباشد.
نمودار ۲-۱: اجرای CAT برای آزمونی با سؤالات دو ارزشی
نمودار ۲-۲: اجرای CAT برای آزمونی با سؤالات چند ارزشی
نمودار۲-۳: نمونهای از الگوریتم اجرای CAT برای آزمون داروشناسی، بر اساس مطالعهی هالتیکس، ۱۹۹۳
اجرای برنامههای سنجش در مقیاس بزرگ از طریق CAT
در بسیاری از برنامههای سنجش در مقیاس بزرگ، آزمونهای مداد-کاغذی با CAT جایگزین شدند. برای مثال، نسخهی CAT آزمون GRE و آزمون استعداد شغلی نیروهای مسلح (ASVAB)، هم اکنون در دسترس میباشد. موسسهی ملّی اندازهگیری آموزشی (CITO) در هلند، چندین CAT تا به حال اجرا کرده است؛ مانند، MATCAT، (CITO، ۱۹۹۹)، TURCAT، (CITO، ۲۰۰۸)، DSLCAT، (CITO، ۲۰۰۲) و kindergartenCAT. MATCAT، برای تشخیص نقصهای ریاضی در دانشجویان ایجاد شدهاست (ورشور و استریتمن[۱۰۷]، ۲۰۰۰). TURCAT، مهارت زبان ترکی را به عنوان زبان دوم سنجش میکند، DLSCAT، نیز زبان هلندی را به عنوان زبان دوم سنجش میکند، و kindergartenCAT شامل آزمونهایی برای اندازهگیری ترتیب، زبان، توانایی جهت یابی زمانی و مکانی کودکان میباشد (ایگن، ۲۰۰۴). این CATها تقریباً همانند همهی سیستمهای CAT عملیاتی با کاربرد سؤالاتی در خزانه سروکار دارد که بهطور متنوعی توزیع میشوند (ولدکمپ، ورشور و ایگن، ۲۰۰۷).
مولفههای تعیینکننده در طراحی الگوریتمهای اجرایی CAT
ریکیسی(۱۹۸۹)، چهار مولفهی عمدهی CAT را شیوهی انتخاب سؤال اول و به دنبال آن شیوهی انتخاب سؤالات بعدی و نمرهدهی آزمون در طول اجرای آزمون، قاعدهی اتمام آزمون، برآورد توانایی و خزانهی سؤال بیان کرد. در سالهای اخیر دو مولفهی دیگر به آن اضافه شدند و بهطور وسیعی وارد مطالعه شدهاند، این دو مولفه عبارتاند از کنترل مواجهه سؤال و تعادل محتوایی. این دو مولفه در انتخاب سؤال محدودیتهایی وارد میکنند، بهطوریکه سؤالاتی انتخاب شوند که نه تنها ویژگیهای آماریشان بلکه ویژگیهای محتوایی و امنیت آنها نیز مدنظر باشد (برگستروم و لانز[۱۰۸]، ۱۹۹۹).
الگوریتمهای انتخاب سؤال اول[۱۰۹] و انتخاب سؤالات بعدی، قواعد اتمام آزمون[۱۱۰]
دو مولفهی اول CAT به دلیل اینکه به هم مرتبط هستند در این بخش شرح داده میشود. الگوریتمهای انتخاب سؤال برای CAT از قواعدی تبعیت میکنند که عبارتند از؛ ۱). چه سؤالی باید برای شروع آزمون انتخاب شود، ۲). آزمون به چه صورتی ادامه یابد و آزمون به چه صورت نمره داده شود و ۳). چه موقع آزمون متوقف شود. پس از اینکه این مراحل انجام شد، برآورد توانایی پایانی و یا نمره پایانی آزمودنی محاسبه میشود (پارشال، اسپری، کالن و دیوی، ۲۰۰۲).
شیوهی انتخاب سؤال اولیه
نقطه شروع در CAT به سطح دشواری سؤال آغازین و یا سؤالاتی که برای یک آزمودنی اجرا شده، وابسته است. سه رویکرد برای انتخاب سؤال آغازین وجود دارد:
۱). رویکرد بهترین حدس؛ رویکرد اول بیان میکند که، سؤالی با دشواری متوسط به عنوان سؤال آغازین اجرا شود. به عبارتی “اگر هیچ اطلاعی در مورد سطح توانایی آزمودنی نداشته باشیم، بهترین حدس ما این است که او همانند اکثریت آزمودنیهای دیگر عمل میکند”.
۲). رویکرد تخمین از روی نمرات تست دیگر و یا اطلاعات تست دیگر؛ این رویکرد بیان میکند که، برای تصحیح برآورد اولیهی توانایی آزمودنی از آزمونهای دیگر استفاده کنیم و سپس مناسبترین سطح دشواری را برای سؤال اول انتخاب کنیم.
۳). رویکرد شروع آسان؛ تاکید این رویکرد بر این است که، تست را با سؤال آسانی شروع کنیم تا آزمودنی در ابتدا دلگرم شود و با امیدواری تست را ادامه دهد (پارشال، اسپری، کالن و دیوی، ۲۰۰۲).
عوامل تاثیرگذار بر انتخاب سؤالات بعدی و شیوهی نمرهدهی
در CAT، انتخاب سؤال بهینه بر این اساس است که، علاوه بر اینکه کارایی آزمون را به حداکثر میرساند، آزمونی با طول کوتاه و در عین حال آگاهیدهنده به هر آزمودنی ارائه شود. در حالیکه، سنجش انطباقی با انتخاب متوالی سؤالاتی که اندازهگیری بهینهای در هر سطح توانایی برآورد شدهی آزمودنی ایجاد میکنند، به کارایی میرسد، در برنامههای سنجش انطباقی عملیاتی، بهطور نوعی در انتخاب سؤال باید به عوامل دیگری هم توجه کرد. بهطور کلی، سؤالات با توجه به حداقل سه هدف اغلب متضاد انتخاب میشوند: (۱). کارایی آزمون را از طریق اندازهگیری سریع و دقیق توانایی آزمودنی افزایش دهد؛ (۲). این اطمینان را ایجاد کند که آزمون از لحاظ محتوایی تعادل مناسبی دارد؛ (۳). از امنیت خزانهی سؤال، از طریق کنترل نرخی که سؤالات بهینه اجرا میشوند، محافظت کند (پارشال، اسپری، کالن و دیوی، ۲۰۰۲؛ پارشال، دیوی و نرینگ، ۱۹۹۸). در این قسمت تنها هدف اول مورد بررسی قرار میگیرد، و دو هدف دیگر، به عنوان مولفههای دیگر CAT در قسمتهای مجزایی بررسی میشود.
شیوههای انتخاب سؤال به منظور افزایش کارایی آزمون و نمره دهی آزمون
در CAT ، سؤالات جدید بهطور انطباقی با توجه به برآورد موقت سطح توانایی آزمودنی، براساس پاسخ به سؤالات که قبلاً اجرا شده، انتخاب میشوند (دیوی، پارشال، ۱۹۹۵). سؤالات برای افزایش کارایی آزمون از طریق سه رویکرد متفاوت انتخاب میشوند درحال حاضر، سه روشی که به طور وسیعتری برای انتخاب سؤال در سنجش انطباقی به کارمیرود عبارتند از بیشینه آگاهی[۱۱۱] (MI) (براون[۱۱۲] و ویس[۱۱۳]، ۱۹۷۷) و بیشینهی دقت پسین[۱۱۴] (MPP) (اوون، ۱۹۷۵) و آگاهی وزندار[۱۱۵] (WI) (پارشال، اسپری، کالن و دیوی، ۲۰۰۲).
۱). شیوهی بیشینهی آگاهی انتخاب سؤال
آگاهی سؤال یا آگاهی فیشر معیار متداولی است که از طریق آن سهمی که هر سؤال، سطح توانایی آزمودنی را اندازهگیری میکند را مشخص میکند. به دلیل اینکه، آگاهی سؤال رابطهی معکوسی با واریانس برآورد توانایی دارد، هدف اغلب شیوههای انتخاب سؤال این است که تا جایی که امکان دارد میزان آگاهی بیشتری جمع آوری کنند. در مدل سه پارامتری لوجستیک، مقدار آگاهی هر سؤال در هر سطح توانایی بیشتر به پارامتر a سؤال بستگی دارد. تحت سادهترین شیوههای انتخاب سؤال CAT، سؤالی که بیشترین میزان آگاهی را در برآورد توانایی دارد، برای اجرا انتخاب میشود (براون و وایس، ۱۹۷۷). از همینرو روش بیشینهی اطلاعات (MI)، سؤالی را انتخاب میکند که مقدار آگاهی فیشر را در برآورد توانایی جدید آزمودنی بیشینه کند. فرض کنید ، تابع پاسخ سؤال را برای سؤال نشان میدهد و میباشد. بنابراین، برای سؤالی که به صورت دوارزشی نمره داده شده است، آگاهی فیشر بر اساس معادلهی (۲-۱) عبارت است از (لرد، ۱۹۸۰):
(۲-۱)
؛ احتمال پاسخ درست با معین میباشد.
؛ احتمال پاسخ نادرست با معین میباشد.
با جایگزین کردن مشخصات مدل معادلهی (۲-۱)، برای مدل سه پارامتری لوجستیک دو ارزشی، معادله به صورت معادلهی (۲-۲) ساده میشود (همبلتون، سوامیناتان و راجرز[۱۱۶]، ۱۹۹۱؛ لرد، ۱۹۸۰):
(۲-۲)
در معادلهی (۲-۲)، ، ، و ؛ پارامتر ضریب تشخیص سؤال میباشد، ؛ پارامتر سطح دشواری سؤال میباشد و ؛ پارامتر حدس سؤال ( یعنی احتمال اینکه آزمودنی با خیلی پایین به سؤال پاسخ صحیحی بدهد)، میباشد. معادلهی (۲-۲) نشان میدهد چنانچه به نزدیک شود و نیز افزایش یابد و به صفر نزدیک شود، آگاهی سؤال افزایش مییابد (هملتون و همکاران، ۱۹۹۱).
انتخاب آزاد (نامقید[۱۱۷]) روش MI ، سؤال را انتخاب میکند که آگاهی فیشر را در بیشینه کند. و موقت برای آزمودنی بعد از n سؤال برآورد میشوند. زمانی که سؤالاتی که در CAT قرار میگیرد با بهره گرفتن از روش MI انتخاب شوند، دقت به ازای هر سؤالی که اجرا میشود، افزایش مییابد (هملتون و همکاران، ۱۹۹۱). انتخاب سؤال به روش بیشینهی آگاهی از لحاظ محاسباتی بسیار سرراست است، زیرا عملیات محاسبهی توابع آگاهی میتواند قبل از اینکه هر یک از آزمودنها آزمون دهند، محاسبه شود. نتایج آگاهیهای محاسبه شده در خانههای جدول بر اساس میزان آگاهیشان مرتب میشوند (پارشال، اسپری، کالن و دیوی، ۲۰۰۲). در عمل، اغلب انتخاب سؤال به روش MI بر روی جدول آگاهی که قبلاً محاسبه شدهی استوار است، که در آن جدول سؤالات بر اساس آگاهی که در هر تعداد از مقادیر فراهم میکند، منظم میشوند. انتخاب سؤال برای همهی هایی که در حدود فواصل مقدار جدولبندی شده قرار دارند، یکسان است. به جای محاسبهی میزان آگاهی فیشر برای هر یک از سؤالات خزانهی سؤال در مقدار برآورد جدید ، در هر زمانی که سؤال بعدی باید انتخاب شود، لازم است که تنها یک مرتبه برای هر سؤال در هر نقطه جدولبندی شده محاسبه شود. روش انتخاب سؤالی که بر جدول آگاهی مبتنی است تقریباً اطلاعات کمتری ایحاد میکند، امّا از لحاظ محاسباتی نسبت به روش MI دشواری کمتری دارد. این شیوههای انتخاب سؤال آماری، بر ملاحظات عملی از قبیل نرخ مواجهه سؤال اثر میگذارند (گو و ریکیسی، ۲۰۰۷). البته، متاسفانه، خطای برآورد اغلب به انتخاب سؤالات از ستونی منجر میشوند که مقدار توانایی واقعی را پوشش نمیدهد. این قضیه، مخصوصاً زمانی واقعیت پیدا میکند که تعداد کمی سؤال اجرا میشود. و زمانیکه سؤالات ضرایب تشخیص بالایی دارند که باعث میشود به بالای جدول آگاهی نزدیک شوند، وخیمتر میشود. چون این سؤالات بیشتر مورد توجه قرار میگیرند. اغلب این سؤالات دامنهی محدودی از توانایی را تشخیص میدهند و بقیهی دامنهی توانایی را ضعیف تشخیص میدهند. بنابراین، سؤالاتی که به خوبی برآورد موقت توانایی را اندازهگیری میکنند، ممکن است بهطور ضعیفی مقدار واقعی توانایی را اندازهگیری کنند (پارشال، اسپری، کالن و دیوی، ۲۰۰۲). بنابراین توصیه میشود، زمانی که این شیوهی انتخاب سؤال در الگوریتم CAT به کار میرود، از روشهای مناسب کنترل مواجهه استفاده شود (گو و ریکیسی، ۲۰۰۷).
۲). شیوهی انتخاب سؤال به روش بیشینهی دقت پسین
فرم در حال بارگذاری ...
[چهارشنبه 1401-04-15] [ 07:20:00 ق.ظ ]
|