روش r-optimal در طراحی خزانه‌ی سؤال در روش اکتشافی برای تعیین اندازه‌ی خزانه

از آنجا که مقیاس متریک و مقیاس پارامتر- b یکسان می‌باشد، پس تبدیل حداقل نسبت P به پهنای دامنه (Range) روی مقیاس متریک کاربرد این روش را آسان‌تر می کند (ریکیسی، ۲۰۱۰).
تعریف عملیاتی: در این پژوهش برای تعیین تعداد سؤالات مورد نیاز برای خزانه‌ی سؤال، از این شیوه استفاده می‌شود. به این صورت که حداقل مقدار p-optimal برابر با ۹۶% و دامنه‌ی مربوط به آن برابر با ۴/۰ می‌باشد، که به آن پهنای bin گفته می‌شود. البته به منظور اهداف مقایسه‌ای، انتخاب مقادیر دیگری از p و r نیز در این پژوهش انجام می‌گیرد.
فصل دوم
مبانی نظری پژوهش
مبانی نظری پژوهش
این فصل از سه قسمت تشکیل شده ‌است. در قسمت اول سنجش انطباقی کامپیوتری (CAT) و اجزای تشکیل دهنده‌ی و نحوه‌ی کارکرد آن توصیف می‌شود. در قسمت دوم مولفه‌های[۸۴] تعیین‌کننده و مهم در طراحی الگوریتم اجرایی CAT که بر طراحی خزانه‌ی سؤال نیز تأثیرگذارند، به صورت مجزا مورد بررسی قرار می‌گیرد. در قسمت سوم خزانه‌ی سؤال، مدل‌های مختلف طراحی خزانه‌ی سؤال بهینه و ملاک‌های ارزیابی خزانه‌ی سؤال شرح داده ‌می‌شود.
مقدمه
خزانه‌ی سؤال نقش مهمی در سنجش انطباقی (CAT) بازی می‌کند. سؤالات در خزانه فهرست‌بندی و ساختار‌بندی می‌شوند، یا به‌عبارت دیگر، به هر یک از سؤالات اطلاعاتی نسبت داده می‌شود که انتخاب آنها را برای آزمون آسان می‌کند. خزانه‌های سؤال به “مجموعه‌ی نسبتاً بزرگی از پرسش‌های در دسترس در آزمون” اشاره می‌کند (میلمن و آرتر، ۱۹۸۴).
دو نوع خزانه‌ی سؤال در برنامه‌های سنجش انطباقی از هم متمایز می‌شوند. یکی از آنها خزانه‌ی اصلی[۸۵] نامیده می‌شود، که شامل سؤالاتی است که ممکن است برای آزمون مورد استفاده قرار گیرد. نوع دیگر خزانه‌ی سؤال عملیاتی[۸۶] می باشد که زیر مجموعه‌ی کوچکتری از خزانه‌ی اصلی است، و طوری طراحی می‌شود که به اندازه کافی کوچک باشد، به شکلی که کامپیوتر به آسانی بتواند سؤالات را بازیابی کند و هر زمان که لازم است مواجهه سؤال را به حداقل برساند، و در عین حال به اندازه کافی بزرگ باشد، به طوری‌که سؤالاتی با ویژگی‌های مورد نیاز را فراهم کند. به دلیل ماهیت پیوسته‌ای که بسیاری از آزمون‌های سنجش انطباقی در اجرا دارند، دوره‌ی مفید یک خزانه‌ی سؤال عملیاتی می تواند محدود باشد. و بعد از تعداد مشخصی استفاده باید کنار گذاشته شوند و به خزانه‌ی اصلی برگردانده شوند. البته تعدادی از سؤالات می توانند بعد از گذشت دوره‌ی زمانی معقولانه‌ای دوباره استفاده‌‌شوند (گو و ریکیسی، ۲۰۰۷).
ویژگی انطباقی CAT استفاده از فرم‌های از پیش طراحی شده‌ی آزمون (مانند آزمون‌های مداد-کاغذی) را غیرضروری می‌کند. این درصورتی است که، CAT به خزانه‌ی سؤالی نیاز دارد که از آن همه‌ی آزمون‌ها استخراج شود. یک خزانه‌ی سؤال نه تنها مخزنی از سؤالات می‌باشد، بلکه مجموعه‌ی سازمان‌یافته‌ای از سؤالات با صفاتی که برای هر یک مشخص شده می‌باشد. به عبارت دیگر، سنجش انطباقی کامپیوتری به خزانه‌ی سؤالی نیاز دارد که به‌خوبی طراحی شده باشد و شامل تعداد مناسبی از سؤالات برای ساخت آزمون‌های مجزایی که با سطوح توانایی آزمودنی‌ها مطابقت دارد، باشد. یک خزانه‌ی سؤال بهینه باید شامل سؤالاتی باشد که از لحاظ محتوایی تعادل داشته ‌باشند و هزینه‌ی ساخت سؤال را کاهش دهد ( گو و ریکیسی، ۲۰۰۷؛ ریکیسی، ۲۰۱۰).
سؤالی که اغلب در طول طراحی خزانه‌ی سؤال پرسیده می‌شود این است که، “چه تعداد سؤال باید در خزانه وجود داشته باشد؟”. به‌طور ایده آل هر چه سؤالات بیشتر باشد، بهتر است، زیرا به ما این اجازه را می‌دهد که انتخاب بیشتری در سرهم کردن[۸۷] آزمون‌ها داشته باشیم و بندرت سؤالات یکسانی در آزمون‌ها تکرار شود و امنیت آزمون حفظ شود. در مواقعی که آزمون‌دهندگان به خزانه‌ی سؤال دست پیدا می‌کنند، اگر خزانه‌ بزرگ باشد، برای آزمودنی‌ها دشوار است که پاسخ سؤالات را حفظ کنند. همچنین، خزانه‌های بزرگتر دارای سؤالاتی می‌باشند که از لحاظ محتوا، فورمت سؤال و ملاحظات آماری با آزمون مورد نظر تطابق بیشتری دارند (میلمن و آرتر، ۱۹۸۴). البته خزانه‌های بزرگ خطرهایی دارند که عبارتند از اینکه، سؤالاتی که به خزانه اضافه می‌شوند باید خوب نوشته ‌شوند، از لحاظ محتوایی معتبر باشند، و از لحاط آماری نیز مناسب باشند (لیناکر[۸۸]، ۱۹۸۷). همچنین تعداد سؤالات نباید خیلی زیاد باشد بلکه باید به اندازه‌ای باشد که قابل کنترل باشد و به‌راحتی بازیافتنی باشد (گو و ریکیسی، ۲۰۰۷).
سنجش انطباقی کامپیوتری[۸۹]
سنجش انطباقی چیست؟
سنجش انطباق کامپیوتری (CAT)، جایگزین قدرتمندتری برای مجموعه‌ای از کاربردهای سنجش انطباقی موفقیت‌آمیزی است که با کار بینه[۹۰] در سال ۱۹۰۵ شروع شد. سنجش انطباقی در تعریف ساده، شامل سؤالاتی است که از یک مجموعه سؤال، که اصولاً به این مجموعه بانک یا خزانه‌ی سؤال می‌گویند، انتخاب می‌شوند، به‌طوری‌که با سطح توانایی برآورد‌شده‌ی (یا سطح استعداد برآورد‌شده‌ی) آزمودنی مورد نظر مطابقت داشته ‌باشند. اگر آزمودنی در پاسخ به سؤالی موفق شود و به آن پاسخ صحیح دهد، سؤالی که در مرحله‌ی بعدی به او ارائه می‌شود، اندکی دشوارتر[۹۱] خواهد ‌بود و بالعکس. به‌طور کلی، در سنجش انطباقی کامپیوتری (CAT)، سؤالات به طور مجزایی برای هر یک از آزمودنی‌ها انتخاب می‌شوند، به‌طوری‌که، هر سؤال بر اساس پاسخ به سؤال قبلی انتخاب می‌شود. هدف این نوع از سنجش این است که، برآورد صحیح و دقیقی از مهارت آزمودنی روی مقیاس زیربنایی مهارت بدست آید. تعداد سؤالات، نوع سؤالات و ترتیب ارائه‌ آن‌ها از آزمودنی به آزمودنی دیگر متفاوت است (پارشال، اسپری، کالن و دیوی[۹۲]، ۲۰۰۲). معمولاً در این تکنیک به‌سرعت مجموعه‌ای از سؤالات تنظیم می‌شود، به‌طوری‌که با سطح توانایی آزمودنی همگرا باشد. زمانی‌که برآورد توانایی آزمودنی به دقت مورد نظر برسد، آزمون متوقف می‌شود. در این شیوه، در صورتی‌که آزمودنی بخواهد، می‌تواند فوراً از نتایج آزمون مطلع شود. همچنین، سنجش مقدماتی سؤالات جدید بانک سؤال و اعتباریابی کیفیت سؤالات جدید، می‌تواند به‌طور‌ همزمان با اجرای آزمون انجام ‌گیرد، البته مسئله‌ی اضافه کردن سؤالات جدید به خزانه و مدرج کردن دوباره‌ی آنها امری مهم است که در پژوهش لیناکر(۱۹۸۷) بررسی شده است. مزایای CAT به‌طور‌خلاصه شامل موارد زیر است؛ سنجش سریعتر، طرح‌های سنجشی انعطاف‌پذیر، افزایش امنیت آزمون، کنترل بهتر مواجهه سؤال، تعادل بهتر سطوح محتوایی آزمون برای همه‌ی سطوح توانایی، بروز رسانی[۹۳] سریعتر سؤالات آزمون، گزارش سریعتر، تجربه‌ی بهتر یک آزمون برای آزمودنی‌ها. همچنین مشکلات CAT، عبارتند از؛ تجهیزات و امکانات پرهزینه، محدودیت‌های نرم‌افزار‌های رایج اجرای CAT، ناآشنایی بسیاری از آزمودنی‌ها با محیط کامپیوتر، عدم برابری مشهود (تبعیض) که آزمودنی‌های متفاوتی، آزمون‌های متفاوتی را دریافت می‌کنند و دشواری اجرای انواع معینی از آزمون‌ها به شکل CAT (لیناکر، ۲۰۰۰؛ ۱۹۹۹).
تاریخچه سنجش انطباقی کامپیوتری
به‌طور‌کلی، همیشه آزمون‌ها به‌منظور برآورده کردن نیازمندی‌های آزمون‌دهندگان و سنجش سطوح عملکرد مورد انتظار داوطلبان آزمون به عنوان یک گروه، ساخته ‌می‌شوند. در‌ واقع، اگر به یک آزمودنی، آزمونی که از سؤالات بسیار آسان تشکیل شده‌است ارائه شود، پاسخ به چنین آزمونی تنها زمان را به هدر می‌دهد و معمولاً رفتارهای ناخواسته‌ی آزمودنی از قبیل اشتباهاتی که از روی بی‌دقتی صورت می‌گیرد را ایجاد می‌کند. معمولاً آزمودنی به‌صورت عمدی پاسخ نادرست در برابر «سؤالات فریبنده[۹۴]» می‌دهد. همچنین، نتایج آزمونی که از سؤالات بسیار دشوار تشکیل شده ‌باشد نیز حاوی اطلاعاتی نمی‌باشد، زیرا داوطلب از تلاش جدی خود برای پاسخ به سؤالات دست بر می‌دارد، و با بهره گرفتن از حدس به سؤالات پاسخ می‌دهد، و یا انواع دیگری از رفتارهای ناخواسته از او سر می‌زند (لیناکر، ۲۰۰۰).
آلفرد بینه (۱۹۰۵)، با آزمون هوش خود به پیشرفته‌های عمده‌ای در این حوزه رسید. از آنجایی که علاقه‌ی او تشخیص هوش هر یک از آزمودنی‌ها به‌صورت مجزا بود، بحثی در مورد منصفانه بودن آزمون مطرح نمی‌شد، بحثی که این ضرورت را ایجاد کند که هر فردی آزمون یکسانی دریافت کند. او متوجه شد که می‌تواند آزمون را با هر فرد از طریق طرح ساده‌ی مرتب ‌سازی سؤالات برحسب سطح دشواری‌شان، متناسب کند. او سپس با زیرمجموعه‌ای از سؤالات که فرض می‌کرد با سطح توانایی آزمودنی مطابق است، شروع می‌کرد. اگر آزمودنی در آن زیر مجموعه موفق می‌شد، بینه با زیرمجموعه‌هایی از سؤالات دشوارتری به ‌پیش می‌رفت، تاجایی‌که آزمودنی مکرراً شکست بخورد. اگر آزمودنی در زیرمجموعه اول سؤال شکست می‌خورد، او زیرمجموعه‌هایی از سؤالات آسان‌تر را اجرا می‌کرد، تاجایی که آزمودنی مکرراً موفق شود. از این اطلاعات، بینه سطح توانایی آزمودنی را برآورد می‌کرد (لیناکر، ۲۰۰۰؛ ۱۹۹۸؛ وندر لیندن و گلاس،). شیوه‌ی سنجش انعطاف‌پذیر[۹۵] لرد[۹۶] (۱۹۸۰)، و انواع دیگر آن از قبیل شیوه‌ی مرحله‌ای[۹۷] هنینگ[۹۸] (۱۹۸۷)، و مجموعه تست[۹۹] لوئیس و شین[۱۰۰] (۱۹۹۰)، روش‌های بهبود یافته‌ای از شیوه‌ی بینه هستند. این شیوه‌ها به‌راحتی می‌توانند به‌وسیله‌ی اجرای شخصی یا بوسیله‌ی کامپیوتر، اجرا شوند. سؤالات در این روش‌ها بر اساس سطح دشواری‌شان طبقه‌بندی می‌شوند، و زیر مجموعه‌های متعددی از سؤالات در هر سطح ایجاد می‌شود. آزمون با اجرای زیرمجموعه‌هایی از سؤالات پیش می‌رود، و برطبق نسبت موفقیت در هر خرده آزمون به طرف بالا یا پایین حرکت می‌کند. بعد از اجرای زیرمجموعه‌های متعدد، برآورد توانایی پایانی آزمودنی بدست می‌آید. هرچند این رویکرد خام است، ولی این روش‌ها می‌توانند به‌طور‌مفیدی نتایج یکسانی مانند تکنیک‌های پیچیده‌تر CAT، ایجاد کنند (یاو[۱۰۱]، ۱۹۹۱).
استفاده از کامپیوترها، پیشرفت‌های بیشتری در سنجش انطباقی را میسر کرد. اجرای راحت و انتخاب سؤالات به‌سهولت بهتری انجام گرفت. ریکیسی (۱۹۷۴)، نمونه‌ی اولیه‌ی سنجش انطباقی کامپیوتری را ایجاد کرد. در ابتدا، کمیابی، گران‌بودن و دشوار بودن استفاده از نرم‌افزارها و سخت‌افزارهای کامپیوتری، اجرای CAT را محدود می‌کرد. امّا از سال ۲۰۰۰ به بعد CAT جایگاه مناسبی را در سیستم‌های سنجشی پیدا کرد (لیناکر، ۲۰۰۰).
سنجش انطباقی کامپیوتری چگونه کار می کند؟
در سنجش انطباقی کامپیوتری (CAT)، سؤالات به صورت متغیر و چرخشی[۱۰۲]، بر اساس سطح توانایی آزمودنی انتخاب می‌شوند. برای انتخاب سؤالاتی با مشخصات بهینه‌ی اندازه‌گیری در سطح توانایی برآورد شده‌ی آزمودنی، روش‌های انطباقی به‌کار می‌رود. CAT دارای مزیت‌های مشابهی همانند آزمون‌های دیگری که مبتنی بر کامپیوتر هستند، می‌باشد. این مزیت‌ها عبارتند از؛ افزایش انعطاف و ارتباط با سیستم‌های اجرایی آزمون. علاوه براین، دو مزیت دیگری وجود دارد که تنها مختص CAT می‌باشند، یکی از این مزیت‌ها این است که طول تست می‌تواند تا تقریباً ۴۰ درصد کم شود، بدون آن‌‌که دقت اندازه‌گیری کاهش یابد، همچنین، مزیت دیگر این است که، آزمودنی‌ها با دریافت کردن سؤالاتی که برای آن‌ها خیلی آسان یا خیلی سخت است، نا امید نمی‌شوند (واینر، دورانس، ایگنور، فلاگر، گرین، میسلوی، استنبرگ و تیسن، ۱۹۹۰؛ وندر لیندن و گلاس، ۲۰۰۰).
سیستم‌های CAT، از نظر تئوریکی، روی خصوصیات تئوری سؤال پاسخ (IRT) مبتنی می‌باشد. در IRT پارامترهای توانایی و سؤال جدا از یکدیگرند. فرض بر این است که پارامترهای سؤال، برای مقادیر متفاوت پارامترهای توانایی نامتغیر می‌باشند. بنابراین، سؤالات می‌توانند مدرج شوند و پارامترهای سؤال نیز می‌توانند در خزانه‌ی سؤال مدرج شوند. از داخل همین خزانه‌ها، سؤالاتی که حداکثر آگاهی در پارامتر توانایی برآورد شده فراهم می‌کنند، انتخاب می‌شوند (ولدکمپ، ورشور و ایگن، ۲۰۰۷).
سنجش انطباقی در مورد آزمون‌هایی که دارای سؤالات دو ارزشی هستند، تا حدودی متفاوت با آزمون‌های چند ارزشی (مانند، مقیاس مدرج[۱۰۳] و اعتبار جزئی[۱۰۴]) کار می‌کند (لیناکر، ۲۰۰۰). شرح کامل نحوه‌ی کار CAT در این فصل خارج از حوصله می‌باشد. از این‌رو، در این فصل به منظور شرح نحوه‌ی کار آنها، از نمونه‌ای از CAT که در مطالعات مربوط به لیناکر (۱۹۹۰، ۱۹۹۵، ۱۹۹۶، ۱۹۹۸ و ۱۹۹۹) طراحی شده و فلوچارت آنها در نمودار۲-۱ و ۲-۲ آورده شده است، استفاده می‌شود در فلوچارتی که برای این دو آزمون آورده شده است (هم CAT که دارای سؤالات دو ارزشی است و هم CAT که دارای سؤالات چند ارزشی است)، دشواری سؤالات در دامنه‌ی ۰ تا ۱۰۰ مدرج شده است. نحوه‌ی شروع آزمون به این نحو است که، الگوریتم انتخاب سؤال اولین سؤال را با توجه به سطح توانایی برآورد شده‌ی آغازین، که به صورت تخمینی برای آزمودنی توسط آزمون گیرنده تنظیم می‌شود، انتخاب می‌کند و یا خود کامپیوتر یک سؤال را به صورت تصادفی انتخاب و اجرا می‌کند، اغلب سیستم طراحی CAT به این صورت است که دشواری سؤال اول را متوسط انتخاب می‌کند. انتخاب سؤال اول برای دقت اندازه‌گیری مهم نیست، ولی برای حالت روانشناختی آزمودنی مهم است (لیناکر، ۲۰۰۰، لیناکر و رایت، ۱۹۸۸). گرشون[۱۰۵] (۱۹۹۲)، پیشنهاد می‌کند که سؤال اول و حتی همه‌ی سؤالات باید کمی آسان‌تر از سطح توانایی آزمودنی باشند تا به آزمودنی احساس موفقیت دهند، امّا در عین حال، موقعیتی چالش برانگیز را ایجاد کنند. یک قاعده‌ی مهم برای شروع آزمون‌هایی که ملاک مرجع هستند و سطح قبول و رد دارند، این است که، آزمون از سؤالی شروع کند که دشواری‌اش اندکی زیر ملاک قبولی باشد. در هر دو مثال اجرای CAT، فرض بر این است که دشواری سؤال اول ۳۰ واحد است. امّا آزمودنی توانایی معادل با ۵۰ واحد دارد. در مورد CAT چند ارزشی نیز نحوه‌ی شروع به همین صورت است، امّا، تفاوت در این است که شیوه‌ی نمره‌دهی به برخی از گزینه‌های انحرافی که به پاسخ صحیح نسبت به برخی گزینه‌های دیگر نزدیک‌ترند، متفاوت است. این نحوه‌ی اجرا در مورد آزمون‌های نگرش و شخصیت هم صدق می‌کند، به گونه‌ای که نمره‌دهی به طبقات مقیاس مدرج هماهنگ با متغیر زیربنایی است که توسط طراح مشخص می‌شود. فلوچارت‌های زیر اجرای کامل CAT را شرح می‌دهند (لیناکر، ، ۲۰۰۰). همچنین، در نمودار ۲-۳ فلوچارتی از اجرای کامل CAT آورده شده، که بر اساس مطالعه‌ی هالتیکس[۱۰۶]، ۱۹۹۳ می‌باشد.
نمودار ۲-۱: اجرای CAT برای آزمونی با سؤالات دو ارزشی
نمودار ۲-۲: اجرای CAT برای آزمونی با سؤالات چند ارزشی
نمودار۲-۳: نمونه‌ای از الگوریتم اجرای CAT برای آزمون دارو‌شناسی، بر اساس مطالعه‌ی هالتیکس، ۱۹۹۳
اجرای برنامه‌های سنجش در مقیاس بزرگ از طریق CAT
در بسیاری از برنامه‌های سنجش در مقیاس بزرگ، آزمون‌های مداد-کاغذی با CAT جایگزین شدند. برای مثال، نسخه‌ی CAT آزمون GRE و آزمون استعداد شغلی نیروهای مسلح (ASVAB)، هم اکنون در دسترس می‌باشد. موسسه‌ی ملّی اندازه‌گیری آموزشی (CITO) در هلند، چندین CAT تا به حال اجرا کرده ‌است؛ مانند، MATCAT، (CITO، ۱۹۹۹)، TURCAT، (CITO، ۲۰۰۸)، DSLCAT، (CITO، ۲۰۰۲) و kindergartenCAT. MATCAT، برای تشخیص نقص‌های ریاضی در دانشجویان ایجاد شده‌است (ورشور و استریتمن[۱۰۷]، ۲۰۰۰). TURCAT، مهارت زبان ترکی را به عنوان زبان دوم سنجش می‌کند، DLSCAT، نیز زبان هلندی را به عنوان زبان دوم سنجش می‌کند، و kindergartenCAT شامل آزمون‌هایی برای اندازه‌گیری ترتیب، زبان، توانایی جهت یابی زمانی و مکانی کودکان می‌باشد (ایگن، ۲۰۰۴). این CATها تقریباً همانند همه‌ی سیستم‌های CAT عملیاتی با کاربرد سؤالاتی در خزانه سروکار دارد که به‌طور متنوعی توزیع می‌شوند (ولدکمپ، ورشور و ایگن، ۲۰۰۷).
مولفه­های تعیین‌کننده در طراحی الگوریتم‌های اجرایی CAT
ریکیسی(۱۹۸۹)، چهار مولفه‌ی عمده‌ی CAT را شیوه‌ی انتخاب سؤال اول و به دنبال آن شیوه‌ی انتخاب سؤالات بعدی و نمره‌دهی آزمون در طول اجرای آزمون، قاعده‌ی اتمام آزمون، برآورد توانایی و خزانه‌ی سؤال بیان کرد. در سال‌های اخیر دو مولفه‌ی دیگر به آن اضافه شدند و به‌طور وسیعی وارد مطالعه شده‌اند، این دو مولفه عبارت‌اند از کنترل مواجهه سؤال و تعادل محتوایی. این دو مولفه در انتخاب سؤال محدودیت‌هایی وارد می‌کنند، به‌طوری‌که سؤالاتی انتخاب شوند که نه تنها ویژگی‌های آماری‌شان بلکه ویژگی‌های محتوایی و امنیت آنها نیز مدنظر باشد (برگستروم و لانز[۱۰۸]، ۱۹۹۹).
الگوریتم­های انتخاب سؤال اول[۱۰۹] و انتخاب سؤالات بعدی، قواعد اتمام آزمون[۱۱۰]
دو مولفه‌ی اول CAT به دلیل این‌که به هم مرتبط هستند در این بخش شرح داده می‌شود. الگوریتم‌های انتخاب سؤال برای CAT از قواعدی تبعیت می‌کنند که عبارتند از؛ ۱). چه سؤالی باید برای شروع آزمون انتخاب شود، ۲). آزمون به چه صورتی ادامه یابد و آزمون به چه صورت نمره داده شود و ۳). چه موقع آزمون متوقف شود. پس از اینکه این مراحل انجام شد، برآورد توانایی پایانی و یا نمره پایانی آزمودنی محاسبه می‌شود (پارشال، اسپری، کالن و دیوی، ۲۰۰۲).
شیوه‌ی انتخاب سؤال اولیه
نقطه شروع در CAT به سطح دشواری سؤال آغازین و یا سؤالاتی که برای یک آزمودنی اجرا شده، وابسته است. سه رویکرد برای انتخاب سؤال آغازین وجود دارد:
۱). رویکرد بهترین حدس؛ رویکرد اول بیان می‌کند که، سؤالی با دشواری متوسط به عنوان سؤال آغازین اجرا شود. به عبارتی “اگر هیچ اطلاعی در مورد سطح توانایی آزمودنی نداشته باشیم، بهترین حدس ما این است که او همانند اکثریت آزمودنی‌های دیگر عمل می‌کند”.
۲). رویکرد تخمین از روی نمرات تست دیگر و یا اطلاعات تست دیگر؛ این رویکرد بیان می‌کند که، برای تصحیح برآورد اولیه‌ی توانایی آزمودنی از آزمون‌های دیگر استفاده کنیم و سپس مناسب‌ترین سطح دشواری را برای سؤال اول انتخاب کنیم.
۳). رویکرد شروع آسان؛ تاکید این رویکرد بر این است که، تست را با سؤال آسانی شروع کنیم تا آزمودنی در ابتدا دل‌گرم شود و با امیدواری تست را ادامه دهد (پارشال، اسپری، کالن و دیوی، ۲۰۰۲).
عوامل تاثیرگذار بر انتخاب سؤالات بعدی و شیوه‌ی نمره‌دهی
در CAT، انتخاب سؤال بهینه بر این اساس است که، علاوه بر این‌که کارایی آزمون را به حداکثر می‌رساند، آزمونی با طول کوتاه و در عین حال آگاهی‌دهنده به هر آزمودنی ارائه شود. در حالی‌که، سنجش انطباقی با انتخاب متوالی سؤالاتی که اندازه‌گیری بهینه‌ای در هر سطح توانایی برآورد شده‌ی آزمودنی ایجاد می‌کنند، به کارایی می‌رسد، در برنامه‌های سنجش انطباقی عملیاتی، به‌طور نوعی در انتخاب سؤال باید به عوامل دیگری هم توجه کرد. به‌طور کلی، سؤالات با توجه به حداقل سه هدف اغلب متضاد انتخاب می‌شوند: (۱). کارایی آزمون را از طریق اندازه‌گیری سریع و دقیق توانایی آزمودنی افزایش دهد؛ (۲). این اطمینان را ایجاد کند که آزمون از لحاظ محتوایی تعادل مناسبی دارد؛ (۳). از امنیت خزانه‌ی سؤال، از طریق کنترل نرخی که سؤالات بهینه اجرا می‌شوند، محافظت کند (پارشال، اسپری، کالن و دیوی، ۲۰۰۲؛ پارشال، دیوی و نرینگ، ۱۹۹۸). در این قسمت تنها هدف اول مورد بررسی قرار می‌گیرد، و دو هدف دیگر، به عنوان مولفه‌های دیگر CAT در قسمت‌های مجزایی بررسی می‌شود.
شیوه‌های انتخاب سؤال به منظور افزایش کارایی آزمون و نمره دهی آزمون
در CAT ، سؤالات جدید به‌طور انطباقی با توجه به برآورد موقت سطح توانایی آزمودنی، براساس پاسخ به سؤالات که قبلاً اجرا شده، انتخاب می‌شوند (دیوی، پارشال، ۱۹۹۵). سؤالات برای افزایش کارایی آزمون از طریق سه رویکرد متفاوت انتخاب می‌شوند درحال حاضر، سه روشی که به طور ‌وسیع‌تری برای انتخاب سؤال در سنجش انطباقی به کار‌می‌رود عبارتند از بیشینه آگاهی[۱۱۱] (MI) (براون[۱۱۲] و ویس[۱۱۳]، ۱۹۷۷) و بیشینه‌ی دقت پسین[۱۱۴] (MPP) (اوون، ۱۹۷۵) و آگاهی وزن‌دار[۱۱۵] (WI) (پارشال، اسپری، کالن و دیوی، ۲۰۰۲).
۱). شیوه‌ی بیشینه‌ی آگاهی انتخاب سؤال
آگاهی سؤال یا آگاهی فیشر معیار متداولی است که از طریق آن سهمی که هر سؤال، سطح توانایی آزمودنی را اندازه‌گیری می‌کند را مشخص می‌کند. به دلیل این‌که، آگاهی سؤال رابطه‌ی معکوسی با واریانس برآورد توانایی دارد، هدف اغلب شیوه‌های انتخاب سؤال این است که تا جایی که امکان دارد میزان آگاهی بیشتری جمع آوری کنند. در مدل سه پارامتری لوجستیک، مقدار آگاهی هر سؤال در هر سطح توانایی بیشتر به پارامتر a سؤال بستگی دارد. تحت ساده‌ترین شیوه‌های انتخاب سؤال CAT، سؤالی که بیشترین میزان آگاهی را در برآورد توانایی دارد، برای اجرا انتخاب می‌شود (براون و وایس، ۱۹۷۷). از همین‌رو روش بیشینه‌ی اطلاعات (MI)، سؤالی را انتخاب می‌کند که مقدار آگاهی فیشر را در برآورد توانایی جدید آزمودنی بیشینه کند. فرض کنید ، تابع پاسخ سؤال را برای سؤال نشان می‌دهد و می‌باشد. بنابراین، برای سؤالی که به صورت دوارزشی نمره داده شده‌ است، آگاهی فیشر بر اساس معادله‌ی (۲-۱) عبارت است از (لرد، ۱۹۸۰):
(۲-۱)
؛ احتمال پاسخ درست با معین می‌باشد.
؛ احتمال پاسخ نادرست با معین می‌باشد.
با جایگزین کردن مشخصات مدل معادله‌ی (۲-۱)، برای مدل سه پارامتری لوجستیک دو ارزشی، معادله به صورت معادله‌ی (۲-۲) ساده می‌شود (همبلتون، سوامیناتان و راجرز[۱۱۶]، ۱۹۹۱؛ لرد، ۱۹۸۰):
(۲-۲)
در معادله‌ی (۲-۲)، ، ، و ؛ پارامتر ضریب تشخیص سؤال می‌باشد، ؛ پارامتر سطح دشواری سؤال می‌باشد و ؛ پارامتر حدس سؤال ( یعنی احتمال اینکه آزمودنی با خیلی پایین به سؤال پاسخ صحیحی بدهد)، می‌باشد. معادله‌ی (۲-۲) نشان می‌دهد چنانچه به نزدیک شود و نیز افزایش یابد و به صفر نزدیک شود، آگاهی سؤال افزایش می‌یابد (هملتون و همکاران، ۱۹۹۱).
انتخاب آزاد (نامقید[۱۱۷]) روش MI ، سؤال را انتخاب می‌کند که آگاهی فیشر را در بیشینه کند. و موقت برای آزمودنی بعد از n سؤال برآورد می‌شوند. زمانی که سؤالاتی که در CAT قرار می‌گیرد با بهره گرفتن از روش MI انتخاب شوند، دقت به ازای هر سؤالی که اجرا می‌شود، افزایش می‌یابد (هملتون و همکاران، ۱۹۹۱). انتخاب سؤال به روش بیشینه‌ی آگاهی از لحاظ محاسباتی بسیار سرراست است، زیرا عملیات محاسبه‌ی توابع آگاهی می‌تواند قبل از این‌که هر یک از آزمودن‌ها آزمون دهند، محاسبه شود. نتایج آگاهی‌های محاسبه شده در خانه‌های جدول بر اساس میزان آگاهی‌شان مرتب می‌شوند (پارشال، اسپری، کالن و دیوی، ۲۰۰۲). در عمل، اغلب انتخاب سؤال به روش MI بر روی جدول آگاهی که قبلاً محاسبه شده‌ی استوار است، که در آن جدول سؤالات بر اساس آگاهی که در هر تعداد از مقادیر فراهم می‌کند، منظم می‌شوند. انتخاب سؤال برای همه‌ی هایی که در حدود فواصل مقدار جدول‌بندی شده قرار دارند، یکسان است. به جای محاسبه‌ی میزان آگاهی فیشر برای هر یک از سؤالات خزانه‌ی سؤال در مقدار برآورد جدید ، در هر زمانی که سؤال بعدی باید انتخاب شود، لازم است که تنها یک مرتبه برای هر سؤال در هر نقطه جدول‌بندی شده محاسبه شود. روش انتخاب سؤالی که بر جدول آگاهی مبتنی است تقریباً اطلاعات کمتری ایحاد می‌کند، امّا از لحاظ محاسباتی نسبت به روش MI دشواری کمتری دارد. این شیوه‌های انتخاب سؤال آماری، بر ملاحظات عملی از قبیل نرخ مواجهه سؤال اثر می‌گذارند (گو و ریکیسی، ۲۰۰۷). البته، متاسفانه، خطای برآورد اغلب به انتخاب سؤالات از ستونی منجر می‌شوند که مقدار توانایی واقعی را پوشش نمی‌دهد. این قضیه، مخصوصاً زمانی واقعیت پیدا می‌کند که تعداد کمی سؤال اجرا می‌شود. و زمانی‌که سؤالات ضرایب تشخیص بالایی دارند که باعث می‌شود به بالای جدول آگاهی نزدیک شوند، وخیم‌تر می‌شود. چون این سؤالات بیشتر مورد توجه قرار می‌گیرند. اغلب این سؤالات دامنه‌ی محدودی از توانایی را تشخیص می‌دهند و بقیه‌ی دامنه‌ی توانایی را ضعیف تشخیص می‌دهند. بنابراین، سؤالاتی که به خوبی برآورد موقت توانایی را اندازه‌گیری می‌کنند، ممکن است به‌طور ضعیفی مقدار واقعی توانایی را اندازه‌گیری کنند (پارشال، اسپری، کالن و دیوی، ۲۰۰۲). بنابراین توصیه می‌شود، زمانی که این شیوه‌ی انتخاب سؤال در الگوریتم CAT به کار می‌رود، از روش‌های مناسب کنترل مواجهه استفاده شود (گو و ریکیسی، ۲۰۰۷).
۲). شیوه‌ی انتخاب سؤال به روش بیشینه‌ی دقت پسین

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...