نظریههای اندازهگیری از یک بعد به دو دستهء اساسی تقسیم میشود:نظریهء کلاسیک و نظریههای جدید اندازهگیری (IRT) 1. این پژوهش از طریق دادههای حاصل از اجرای سه آزمون ریاضیات،فیزیک و درس فنی که در مورد ۴۳۰ نفر از داوطلبان کنکور داخلی وزارت نیرو اجرا شده بود،بهمقایسهء نظریات کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی پرداخته است.
تحلیلهای کلاسیک دادهها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدلهای جدید اندازهگیری از طریق نرمافزار رایانهای BILOG در کالیفرنیای آمریکا انجام گرفته است.مقایسهء مدلهای مختلف اندازهگیری از نظر برآوردهای متفاوت یا مشابه پارامترهای سؤال بهوسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل کلاسیک و مدلهای IRT برآوردهای متفاوتی برای پارامترهای سؤال بهدست میدهند و برآورد پارامترهای سؤال برپایهء مدلهایIRT ،بهویژه مدل سه پارامتری،دقیقتر از برآورد پارامترهای سؤال براساس مدل کلاسیک و مدلهای سادهتر IRT است.مقایسهء مدلها از نظر برآورد متفاوت پارامتر توانایی آزمودنیها بهوسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدلها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه پارامتری نسبت به مدل کلاسیک و حتی مدلهای یک و دو پارامتری IRT برآوردهای متفاوتتر و دقیقتری ارائه میدهد.
مقایسهء مدلهای اندازهگیری(کلاسیک و سؤال-پاسخ)از لحاظ برآورد پارامترهای سؤال و توانایی
معرفی مقاله
نوشتهء مهدی فراهانی
نظریههای اندازهگیری از یک بعد به دو دستهء اساسی تقسیم میشود:نظریهء کلاسیک و نظریههای جدید اندازهگیری (IRT) 1. این پژوهش از طریق دادههای حاصل از اجرای سه آزمون ریاضیات،فیزیک و درس فنی که در مورد ۴۳۰ نفر از داوطلبان کنکور داخلی وزارت نیرو اجرا شده بود،بهمقایسهء نظریات کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی پرداخته است.
تحلیلهای کلاسیک دادهها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدلهای جدید اندازهگیری از طریق نرمافزار رایانهای BILOG در کالیفرنیای آمریکا انجام گرفته است.مقایسهء مدلهای مختلف اندازهگیری از نظر برآوردهای متفاوت یا مشابه پارامترهای سؤال بهوسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل کلاسیک و مدلهای IRT برآوردهای متفاوتی برای پارامترهای سؤال بهدست میدهند و برآورد پارامترهای سؤال برپایهء مدلهای
IRT ،بهویژه مدل سه پارامتری،دقیقتر از برآورد پارامترهای سؤال براساس مدل کلاسیک و مدلهای سادهتر IRT است.مقایسهء مدلها از نظر برآورد متفاوت پارامتر توانایی آزمودنیها بهوسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدلها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه پارامتری نسبت به مدل کلاسیک و حتی مدلهای یک و دو پارامتری IRT برآوردهای متفاوتتر و دقیقتری ارائه میدهد.
این مقاله خلاصهای است از پایاننامهء تحصیلی دورهء کارشناسی ارشد آقای مهدی فراهانی،کارشناس آموزش وزارت نیرو که با راهنمایی آقای دکتر محمد کاظم سلیمیزاده،عضو هیأت علمی دانشگاه علامه طباطبایی تهیهشده و در اختیار فصلنامه قرار گرفته است.بدین وسیله از ایشان سپاسگزاری میشود.
«فصلنامه»
مقدمه
مدل یا نظریه،رکن اساسی هر رشتهء علمی محسوب میشود.دراندازهگیری و روانسنجی نیز نظریهها و مدلهایی وجود دارد که از لحاظ تاریخی و سیر روند تکاملی،به دو دستهء کلاسیک(نظریهء ضعیف نمرهء حقیقی)و سؤال-پاسخ(به اختصار IRT )تقسیم میشوند(۱).
مبانی مدل کلاسیک اندازهگیری را در اوایل قرن حاضر،اسپیرمن معرفی و پایهریزی کرد(۲).این مدل سپس در دو کتاب گالیکسن و لرد و ناویک به اوج توسعه و بسط خود رسید(۳ و ۴)اما همزمان با بسط این مدل،ضعفهای جدی آن بیشتر آشکار شد و روانسنجان و متخصصان آزمونسازی را بیش از پیش بهسمت مدلهای جدید سوق داد (۵).از نیمهء دوم قرن بیستم بهتدریج زمینهء ارائهء نظریات جدید مطرح شد و کسانی مانند لرد (۶)،راش(بهنقل از رایت،۱۹۷۷)(۷)،برنبام(۸)،رایت و همبلتون(۹)در این مسیر گامهای مؤثری برداشتند.
هماینک فعالیتهای آزمونسازی و اندازهگیری در زمینههای مختلف-از پیشرفت تحصیلی گرفته تا سنجش نگرشها و…-در آمریکا و اروپا و براساس مدلهای جدید (IRT) بررسی و ساخته میشود و مدل کلاسیک اعتبار بیشتر برای بحث در مورد تاریخچهء نهضت آزمونسازی یا برآورد پارامترهای نظریات جدید بهعنوان برآورد اوّلیه و مقدماتی مورد استفاده قرار میگیرد.معلمان هرچند در محدودهء کلاس درس بهظاهر کمتر میتوانند از مدلهای اندازهگیری بهره ببرند اما اطلاع از مبانی نظری طراحی،اجرا و تجزیه و تحلیل آزمونهای پیشرفت تحصیلی و یافتههای جدید،بینش و بصیرت بهتری در مورد یکی از وظایف مهم معلمان-یعنی سنجش محصلان-در اختیار آنها قرار میدهد.
مطالعهء منابع مربوط به موضوع پژوهش
در بعضی از مطالعات قبلی،محققان بهمقایسهء مدلها از نظر دقت برآورد پارامترهای سؤال و توانایی پرداخته و برخی دیگر،تأثیر حجم نمونهء آزمودنی و سؤال یا نقض مفروضات را در برآورد پارامترها بررسی کردهاند.با توجه به محدودیت مقالهء حاضر، بهطور عمده نتایج دستهء اوّل(مقایسهء مدلها در برآورد پارامترها)ارائه میشود.
یکی از نتایج مطالعات مربوط بهمقایسهء دقت برآورد پارامترها در مدلهای اندازهگیری حاکی از آن است که مدل منطقی سه پارامتری نسبت به مدلهای یک و دو پارامتری با آزمونهای ۲۰ سؤالی در برآورد جایگاه افراد در صفت مکنون و رتبهبندی آزمودنیها براساس صفت مورد سنجش دارای قدرت بیشتری است.نکتهء دیگر آنکه
پژوهشگران با تقسیم آزمودنیها به دو گروه بالا و پایین(۰ تا ۵/۲– ?L و ۵/۲ تا ۰- ?u ) و مقایسهء دقت برآورد جایگاه حقیقی افراد برحسب مدلهای IRT ،نشان دادند که افزایش دقت و قابلیت پیشبینی توانایی افراد توسط مدل سه پارامتری نسبت به سایر مدلها،در گروههای باتوانش پایین بیشتر از گروههای باتوانش بالاست؛زیرا امکان استفاده از حدس و شانس کاذب در گروههای با توانایی کم بیشتر است و تنها مدل سه پارامتری در برآورد پارامترها بهعامل Ci (مجانب پایین ICC )توجه میکند.مقایسهء مدلهای یک و دو پارامتری(بررسی تأثیر پارامتر قدرت تشخیص سؤال در برآورد توانایی افراد)تمایز و تفاوت جدی نشان نداد(۱۰).
راید برای تحلیل دادههای چهار خرده آزمون مورد استفاده-شامل محاسبات عددی، تجسم فضای سهبعدی،خزانهء لغات و استدلال ریاضی-از نرمافزارهای BILOG و TESTFACT بهره گرفت و براساس یک نمونهء ۴۰۶ نفره از آزمودنیها و با حذف سؤالهایی که کمتر از ۷۵ درصد آزمودنیها به آنها پاسخ داده بودند،نتیجه گرفت که هر چهار خردهآزمون از لحاظ سطح دشواری سؤالها و قدرت تشخیص افراد در سطوح مختلف توانایی،تفاوت داشته است.بنابراین،مدلهای یک و دو پارامتری از لحاظ برآورد پارامترها تفاوت معنیدار نشان دادهاند(۱۱).
هومن در تحقیقی با استفاده از آزمون تهران-استنفرد-بینه (TSB) (12)به بررسی و مقایسهء برآورد پارامترهای دشواری و توانایی پرداخت و درواقع،توانمندی مدل راش را در برآورد پارامترها در شرایط نقض مفروضات بررسی کرد.نتیجهء کلی تحقیق مذکور آن است که مدل راش برای برآورد پارامتر دشواری سؤالها وقتی ai سؤالها تفاوت دارد، مناسب نیست اما برای برآورد توانایی افراد مناسب و خوب است(۱۳).
در مورد مدل دوپارامتری و تفاوت برآورد توانایی برپایهء آن و مدل کلاسیک، انصارین به پژوهش دست زد.او با استفاده از دادههای حاصل از اجرای آزمون هوش تهران-استنفرد-بینه (TSB) به برآورد منحنی ویژهء سؤالها،پارامترهای دشواری و قدرت تشخیص سؤالها و توانایی آزمودنیها اقدام کرد.نتیجه آنکه نمرات خام یکسان دارای برآورد یکسانی از توانایی و موقعیت آزمودنی بر روی پیوستار مکنون نبودند(۱۴ و ۱۵).
دیوجی طی یک بررسی،کاربرد مدل یک پارامتری راش را برای سؤالهای چند گزینهای مورد بررسی قرار داده است اما بهرغم استفاده از مدل راش برای برآورد پارامترها در سؤالهای چند گزینهای،بهعقیدهء دیوجی بهعلت نبود پارامتر حدس و قدرت تشخیص یکسان در مدل راش،این کاربردها درست نیست(۱۶).البته علاوه بر دیوجی،
محققان دیگری هم به نامناسب بودن استفاده از مدل راش برای سؤالهای چند گزینهای اشاره کردهاند؛از جمله،آندرسن عدم برازش مدل را به نابرابری قدرت تشخیص نسبت داده است.همبلتون و تراب نشان دادهاند که مدل دوپارامتری،توزیع نمرات را بهتر از مدل راش پیشبینی میکند(۹).
همبلتون و موری از طریق نمودار باقیمانده برای آزمونهای ریاضی،برازش مدل سه پارامتری و عدم برازش مدل تکپارامتری را برای دادهها مطرح کردهاند(۱۶).
یکی از موضوعها و نکات مهم در مورد مدلهای IRT ،حجم نمونهء آزمودنیها و سؤال است.این دو عامل،بهویژه در مدل سهپارامتری،میتواند بر برآورد پارامترهای سؤال و توانایی تأثیرات جدی داشته باشد.همبلتون و کوک در یک مطالعه با انتخاب آزمونهایی با سه طول ۱۰،۲۰ و ۸۰ سؤالی و نمونههایی با حجم ۵۰،۲۰۰ و ۱۰۰۰ آزمودنی به بررسی اثرات حجم نمونهء آزمودنی و ویژگیهای خزانهء سؤال و تعداد سؤال بر خطای استاندارد برآورد توانایی اقدام کردند.طول آزمون ۱۰ سؤالی حد اقل طول ممکن برای یک آزمون و آزمون ۸۰ سؤالی نیز از طولهای متداول تست است.در مورد حجم نمونهء آزمودنی ۵۰ و ۱۰۰۰ نفر نیز بههمینگونه استدلال کردهاند.سؤالها از دو خزانهء سؤال استخراج شدند.در عمل،سؤالهای خزانهء ۱ دارای دامنهء عریضتری برای پارامترهای دشواری و قدرت تشخیص سؤال بودند.پارامتر حدس هردو خزانهء سؤال ۲۵/۰ در نظر گرفته شد.جمعبندی نتایج این مطالعه بهصورت زیر است:
۱.حجم نمونهء پاسخگویان و طول آزمون،دو عامل بسیار مهم در دقت منحنیهای SE(?) است.موارد نقض و استثنای این امر به نوسانات نمونهگیری مربوط میشود.
۲.در کرانههای پیوستار توانایی،دقت منحنیهای SE(?) حتی با وجود نمونههای بزرگ آزمودنی،بسیار پایین است.
۳.در اکثر موارد با نمونههای ۲۰۰ آزمودنی و ۲۰ سؤال،دقت برآورد خطای استاندارد توانایی قابل قبول خواهد بود.البته این نکته بیشتر در دامنهء وسط توانایی [۱+،۱-]صادق است.
۴.افزایش طول تست از ۱۰ به ۲۰ سؤال بیش از افزایش آن از ۲۰ به ۸۰ سؤال،دقت SE را بهبود میبخشد.
۵.در مورد حجم نمونه نیز افزایش افراد از ۵۰ به ۲۰۰،بیش از ۲۰۰ به ۱۰۰۰ نفر دقت برآورد SE را ارتقا میدهد(۱۷).
لرد طی یک مطالعه و ضمن مقایسهء مدلهای یک و دوپارامتری IRT در برآورد نمرهء حقیقی آزمودنیها،تلاش کرده است تأثیر حجم نمونه را بررسی کند.دادههای مطالعه
شامل پاسخ ۳۰۰۰ دانشآموز کلاس ششم به آزمون خزانهء لغات متروپولیتن با برنامه LOGIST تجزیه و تحلیل شده است.نتایج مطالعه نشان داد وقتی حجم نمونه کوچک باشد،پارامتر قدرت تشخیص (ai) سؤالها و پارامتر مجانب یا حدس سؤالها (ci) را نمیتوان بهدقت تعیین کرد.ازاینرو،در بعضی موقعیتهای معین و محدود و با حجم نمونهء کوچکتر از ۱۰۰ یا ۲۰۰ آزمودنی،برآوردکنندهء نمره حقیقی X آزمودنی در مدل راش(یکپارامتری)میتواند اندکی بهتر از برآوردکنندهء نمرهء حقیقی برپایهء مدل دو پارامتری باشد(۶).
بیان اهداف و فرضیههای پژوهش
هدف اصلی پژوهش حاضر مقایسهء مدلهای اندازهگیری(کلاسیک و سؤال-پاسخ)از لحاظ برآوردهای متفاوت یا مشابهی است که برای پارامترهای سؤالهای آزمون و توانایی آزمودنیها بهدست میدهند.
فرضیههای این پژوهش که آزمون آنها مورد توجه است،عبارتاند از:
۱.کاربرد مدلهای سؤال-پاسخ(با تعداد پارامتر مناسب)برای برآورد دقیق مشخصات سؤال بر مدل کلاسیک برتری دارد.
۲.برآورد توانایی آزمودنیها با استفاده از مدلهای IRT (با تعداد پارامتر مناسب)از برآورد توانایی افراد برپایهء مدل کلاسیک دقیقتر است.
۳.در صورت وجود عامل حدس در پاسخ دادن به سؤالها،افزودن پارامتر حدس (Ci) به مدل IRT ،مدل برازندهتری برای دادهها ایجاد میکند.
روش اجرای پژوهش
الف.آزمودنیها
جامعهء این پژوهش را همهء داوطلبان آزمون ورودی دورههای داخلی وزارت نیرو تشکیل میدهد و نمونهء تحقیق تعداد ۵۵۳ نفر از داوطلبانی هستند که در آزمون داخلی گزینش دانشجو(مورخ ۶/۳/۱۳۷۳)در رشتهء قدرت(مقطع کاردانی)شرکت کردهاند. برای نمونهبرداری همهء شرکتکنندگان انتخاب شدند.در واقع،شرکتکنندگان در آزمون مذکور نمونهای از همهء داوطلبان فرض شدهاند.حجم نمونهء اوّلیه ۵۵۳ نفر بود اما تعدادی از پاسخنامهها بهعلت مخدوش و غیرقابل استفاده بودن از نمونه حذف شد و حجم نمونهء نهایی به ۴۳۰ نفر کاهش یافت.
ب.روشهای آماری
برای تجزیه و تحلیل دادهها ابتدا در ایران مشخصههای کلاسیک سؤالها و آزمونها محاسبه شد.سپس دادهها که شامل پاسخهای ۴۳۰ آزمودنی به سؤالهای چهار گزینهای سه خردهآزمون ۲۰ سؤالی بود،از طریق نظام شبکهء جهانی اطلاعات (Internet به یکی از دانشگاههای آمریکا(دانشگاه UCLA )ارسال گردید.پس از تحلیل دادهها با نرمافزار بایلوگ،خروجی کامپیوتر شامل برآورد پارامترهای سؤال و توانایی افراد،به ایران فرستاده شد.۱۳خلاصهء اطلاعات در مورد خردهآزمون ریاضیات بههمراه نمودارهای دشواری و قدرت تشخیص سؤالها در پایان مقاله ارائه شده است(نمودار شمارهء ۱ و ۲ و جدول شمارهء ۴).
برای تعیین برتری مدلهای سؤال-پاسخ بر مدل کلاسیک در برآورد دقیق مشخصات سؤال(فرضیهء ۱ پژوهش)از یک ابزار نیرومند نظریات جدید اندازهگیری به نام تابع آگاهی۱۴استفاده شد.تابع آگاهی نظامی است که ورودی آن پارامترهای سؤال و خروجی آن میزان آگاهیدهندگی آزمون میباشد.متفاوت بودن تابع آگاهی یک آزمون برحسب مدلهای اندازهگیری،بیانگر تفاوت مدلها از برآوردهایی است که برای پارامترهای سؤالهای آزمون مذکور محاسبه شده است.برای بررسی معناداری تفاوت تابع آگاهی آزمونها بهعلت وابسته بودن دادهها،از آزمون t برای دادههای وابسته استفاده شد و تابع آگاهی هر آزمون که براساس مدلهای یک و دوپارامتری و کلاسیک برآورد شده بود،با تابع آگاهی همان آزمون در مدل سهپارامتری مقایسه گردید.معناداری تفاوت این توابع آگاهی با t آزمون شد.
بهمنظور آزمون فرضیهء دوم-تفاوت یا عدم تفاوت مدلها در برآورد توانایی و سطح صفت مکنون آزمودنیها-از آزمون مجذور کای از نوع نیکویی برازش استفاده شد تا مدلهای یک و دوپارامتری و کلاسیک را در مقایسه با مدل سهپارامتری آزمون کند. برای این منظور،ابتدا نمرات به مقیاس استاندارد یا Z برده شدند و سپس به ۱۲ طبقه از [۵/۲-،۳-]تا[۳،۵/۲]تقسیم گردیدند.آنگاه فراوانی طبقات براساس آزمون نیکویی برازش با درجات آزادی۱- k – df مقایسه و در دو سطح معناداری ۰۵/۰ و ۰۱/۰ بررسی شد.
برای بررسی و تعیین برازش یا عدم برازش هریک از مدلهای IRT با دادهها،یعنی به منظور آزمون فرضیهء ۳ پژوهش مبنی بر برازندگی بیشتر مدل سهپارامتری نسبت به سایر مدلهای IRT ،نرمافزار BILOG از نوعی آزمون مجذور کای استفاده میکند.فرض صفر آزمون نیکویی برازش مدل-دادهها بر تناسب و برازش مدل با دادهها تأکید میورزد و در
واقع،تفاوت مدل با دادهها را انکار میکند و فرض خلاف عدم برازش را بیان میدارد.در عمل،سطح احتمال مجذور کای محاسبهشدهء هر سؤال با ۰۱/۰ و ۰۵/۰ مقایسه میشود. در صورت بزرگتر بودن سطح احتمال هر سؤال از ۰۱/۰ یا ۰۵/۰،نتیجه گرفته میشود که سؤال با مدل دارای برازش نسبی(۰۵/۰> ? >01/0)یا برازش کامل(۰۵/۰< ? ) است.
پ.ابزار گردآوری دادهها
ابزار مورد استفاده برای گردآوری دادههای پژوهش شامل سه آزمون بیست سؤالی ریاضیات،فیزیک و درس فنی بهصورت چهار گزینهای بوده است.درسهای مذکور جزء مواد امتحانی اصلی و مشترک آزمونهای گزینش دانشجو در وزارت نیرو بهشمار میروند.سایر مواد امتحانی تعداد آزمودنی کمی دارد.این آزمونها بهوسیلهء متخصصان حیطههای مزبور که معمولا جزء کارشناسان وزارت نیرو هستند،طراحی و تهیه میشود.در مورد نحوهء اجرای ابزار تا حد قابل قبولی میتوان شرایط استاندارد و اصولی را برای آنها در نظر گرفت.از جمله در ابتدای دفترچهء آزمون دربارهء شیوهء پاسخگویی به سؤالها،مدت زمان اجرا،وجود نمرهء منفی در آزمون،تعداد سؤالهای هر خردهآزمون و …توضیحاتی ذکر شده است.
یافتههای پژوهش
برای آزمون فرضیهء ۱،مقایسهء مدل سهپارامتری و مدل کلاسیک از نظر برآوردهایی که برای پارامترهای سؤالها بهدست میدهند،از تابع آگاهی خردهآزمونها بهره گرفته شد. تفاوت توابع آگاهی هر آزمون که حاصل مدلهای مختلف بود،محاسبه و با آزمون t برای دادههای وابسته آزمون شد.نتایج نشان داد که نه تنها بین تابع آگاهی هر آزمون براساس مدل کلاسیک تفاوت قابل توجهی دیده میشود و این تفاوت حتی در سطح ۰۱/۰> ? و با بیش از ۹۹ درصد اطمینان معنادار است بلکه توابع آگاهی مدلهای دو پارامتری و یکپارامتری نیز برای آزمون از تابع آگاهی هر خردهآزمون براساس مدل کلاسیک در همین سطح تفاوت معناداری دارد.در واقع،با درجهء آزادی ۳۲ و مقدار t مبین ۴۵/۲ تنها توابع آگاهی آزمونها بین مدلهای یک و دوپارامتری معنادار نبود و سایر مقادیر همه تفاوت معناداری داشتند.بنابراین،میتوان گفت علاوه بر مدل سه پارامتری IRT ،حتی مدلهای دو و یکپارامتری نیز پارامترهای سؤالها را دقیقتر و مناسبتر از مدل کلاسیک برآورد میکنند و فرضیهء صفر رد و فرضیهء اوّل پژوهش با بیش از ۹۹ درصد اطمینان تأیید میشود(جدول شمارهء ۱).
جدول شمارهء ۱-محاسبهء آزمون t گروههای وابسته برای تفاوت بین توابع آگاهی آزمونها برحسب مدلهای مختلف
(به تصویر صفحه مراجعه شود) ۴۵/۲-۰۱/۰ t(cr) 69/1-05/0 t(cr) 32- df 33- n
فرضیهء ۲ مدعی است که مدل سهپارامتری نظریهء سؤال-پاسخ توانایی افراد را نسبت به مدل کلاسیک اندازهگیری بهگونهای متفاوت و دقیقتر برآورد میکند.به این ترتیب،باید برای آزمون این فرضیه،تفاوت مدل سهپارامتری از مدل کلاسیک در برآورد توانایی بررسی شود.به این منظور،آزمون مجذور کای بین مدل سهپارامتری و مدل کلاسیک (البته مدلهای دو و یکپارامتری نیز)اجرا شد تا تفاوت فراوانیهای افراد در طبقات مختلف آزمون شود.نتایج نشان داد که نه تنها توانایی برآوردشده برای افراد براساس مدل سهپارامتری از مدل کلاسیک متفاوت است بلکه حتی مدلهای دو و یکپارامتری نیز در برآورد پارامتر توانایی آزمودنیها با مدل سهپارامتری تفاوت و تمایز دارد.این امر در سطح ۰۱/۰> ? هم معنیدار بود.از سوی دیگر،از آنجا که مدل سهپارامتری از لحاظ تعداد پارامتر مناسبترین مدل برای دادههای حاضر محسوب میشود و طبق نتایج آزمون خوبی برازندگی،برازش و مناسبت کاملا آشکاری با دادههای پژوهش دارد،توانایی برآوردشده برای افراد را که از مدل سهپارامتری بهدست آمده است،میتوان دقیقتر و مناسبتر از توانایی حاصل از سایر مدلهای اندازهگیری تلقی کرد.بنابراین،فرضیهء صفر رد و فرضیهء دوم پژوهش حاضر نیز با بیش از ۹۹ درصد اطمینان تأیید میشود(جدول شمارهء ۲).
جدول شمارهء ۲-برازندگی مدل-دادهها برحسب مدلهای IRT (تعداد سؤالها)
(به تصویر صفحه مراجعه شود) ۸<؟ df ؟>2 9<؟ df ؟>2 9<؟ df ؟>3
جدول شمارهء ۳-مجذور کای محاسبهشده بین پارامتر توانایی مدل سهپارامتری و مدلهای دو و یکپارامتری و کلاسیک
(به تصویر صفحه مراجعه شود) ۷۲۵/۲۴-۰۱/۰ X2(cr) 675/19-05/0 X2(cr) 11- df
برای آزمون فرضیهء ۳ پژوهش از نوعی آزمون خوبی برازندگی استفاده شد و برازش سؤالهای آزمون با مدلهای یک،دو و سهپارامتری بررسی گردید.براساس نتایج بهدست آمده،مدل سهپارامتری برازش چشمگیری با دادهها داشت؛درحالیکه نه تنها مدل دو پارامتری بلکه مدل یکپارامتری نیز بدون برازش شناخته شد.بنابراین،فرضیهء سوم پژوهش نیز با بیش از ۹۹ درصد اطمینان و در سطح ۰۱/۰> ? معنادار شناخته شد و فرض صفر رد و فرض پژوهش(خلاف)تأیید گردید.بدین ترتیب مدل سهپارامتری،برای دادههای آزمونهای مورد استفاده در این پژوهش نسبت به سایر مدلهای IRT برازندهتر و مناسبتر شناخته شد(جدول شمارهء ۳).
نتیجهگیری
مطابق نتایج تحقیقات و مطالعات قبلی در زمینهء نظریههای جدید اندازهگیری، IRT و مقایسهء آن با نظریهء کلاسیک آزمون،این مطالعه نیز نشان داد که در سطح بالایی از اطمینان میتوان گفت:
۱.مدلهای IRT نسبت بهمدل کلاسیک اندازهگیری در برآورد پارامترهای سؤالها و توانایی آزمودنیها دارای مناسبت،دقت و برازندگی بیشتری است.این نتیجه در مورد آزمونهای پیشرفت تحصیلی چهار گزینهای که مبنای مطالعهء حاضر بوده است،با بیش از ۹۹ درصد اطمینان صدق میکند.
۲.در بین مدلهای نظریهء سؤال-پاسخ (IRT) برای برآورد پارامترهای سؤال و توانایی افراد،مدل سهپارامتری در مورد آزمونهای پیشرفت تحصیلی چند گزینهای این پژوهش، نسبت به مدلهای یک و دوپارامتری برتری خاصی نشان داد.
۳.در بین مدلهای یک و دوپارامتری IRT از لحاظ برآورد پارامترهای سؤال براساس دادههای خردهآزمونهای حاضر،تفاوت چشمگیری ملاحظه نمیشود.ازاینرو میتوان تأثیرگذاری پارامتر قدرت تشخیص سؤالها را بر برآورد پارامتر دشواری چندان شدید و جدی ندانست.بهزبان دیگر،سؤالهای مورد استفاده در خردهآزمونهای این مطالعه دارای قدرت تشخیص خیلی متفاوت و مؤثری نیستند اما در مورد برآورد پارامتر توانایی آزمودنیها،میتوان نتیجه گرفت که براساس دادههای حاضر،بین مدلهای یک و دوپارامتری در مقام مقایسه با مدل سهپارامتری،برآورد پارامتر توانایی تا حدی متفاوت است و در مورد آزمونهای چند گزینهای پارامتر شیب بر روی برآورد پارامتر توانایی تأثیر داشته است.
پینوشتها
(۱).نظریات جدید اندازهگیری و روانسنجی نخست با اصطلاح صفت مکنون یا خصیصهء مکنون بهشدت پیوند خورد اما بهتدریج با عنوان نظریهء سؤال-پاسخ یا Item Response Theory (با علامت اختصاری IRT )یا نظریهء منحنی ویژهء سؤال رواج یافت که برای مقاصد آزمونسازی و تحلیل آماری دادهها مناسبتر بهنظر میرسد(همبلتون،۱۹۹۳).
(۲). Information Function
(۳).برای تحلیل دادهها در آمریکا بهوسیلهء نرمافزار BILOG ،علاوه بر مساعی فراوان استاد محترم راهنما آقای دکتر سلیمیزاده،نگارنده بر خود لازم میداند از عنایت استاد ارجمند دکتر جمال عابدی،عضو هیأت علمی دانشگاه مذکور که تحلیل دادهها را مسیر کردند،تشکر و سپاسگزاری نماید.
منابع
۱. Allen.J.M.. Yen, M.W.(1979).Introduction to measurement thoery.California: wadsworth.
۲.ثرندایک،رابرت؛روانسنجی کاربردی،مترجم:حیدر علی هومن،تهران،دانشگاه تهران،۱۳۶۹.
(به تصویر صفحه مراجعه شود)
(به تصویر صفحه مراجعه شود) ۱۲.هومن،حیدر علی؛مقایسهء مدل تکپارامتری راش و مدل دوپارامتری،پایاننامهء منتشرنشدهء دانشگاه آزاد اسلامی،۱۳۷۳.
۱۳.هومن،حیدر علی؛هوشآزمای انفرادی تهران-استنفرد-بینه.فصلنامهء علوم تربیتی دانشگاه تهران، ویژهنامهء روانسنجی،دورهء جدید،سال یکم،شمارهء ۱-۴.
۱۴.انصارین،علیرضا؛برآورد خم ویژهء سؤال و توانایی آزمودنیها در مقیاس تهران-استنفرد-بینه بر پایهء مدل دوپارامتری صفت مکنون،پایاننامهء منتشرنشدهء دانشگاه آزاد اسلامی،۱۳۷۱.
۱۵.هومن،حیدر علی؛روش تهیهء آزمون هوش،تهران،دانشگاه تهران،۱۳۷۵.
۱۶. Divgi.D.R.(1986).Does the Rasch model really work for multiple choice items? Not if you look closely.Journal of Educational Measurement, 23,283-298.
۱۷. Hambleton, R.K.. Cook.L.L.(1983).The robustness of item response models and effects of test length and sample size on the precision of ability estimates.In D.J.Weiss(Ed.). New horizons in testing(pp.31-49).New York:Academic Press.
پایان مقاله