مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ)

Mahmoud Hosseiniدسامبر 30, 2011

0 438 خواندن این مطلب 14 دقیقه زمان میبرد

نظریه‏های اندازه‏گیری از یک بعد به دو دستهء اساسی تقسیم‏ می‏شود:نظریهء کلاسیک و نظریه‏های جدید اندازه‏گیری (IRT) 1. این پژوهش از طریق داده‏های حاصل از اجرای سه آزمون‏ ریاضیات،فیزیک و درس فنی که در مورد 430 نفر از داوطلبان‏ کنکور داخلی وزارت نیرو اجرا شده بود،به‏مقایسهء نظریات‏ کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی‏ پرداخته است.

تحلیل‏های کلاسیک داده‏ها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدل‏های جدید اندازه‏گیری از طریق نرم‏افزار رایانه‏ای BILOG در کالیفرنیای آمریکا انجام‏ گرفته است.مقایسهء مدل‏های مختلف اندازه‏گیری از نظر برآوردهای‏ متفاوت یا مشابه پارامترهای سؤال به‏وسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل‏ کلاسیک و مدل‏های IRT برآوردهای متفاوتی برای پارامترهای‏ سؤال به‏دست می‏دهند و برآورد پارامترهای سؤال برپایهء مدل‏هایIRT ،به‏ویژه مدل سه پارامتری،دقیق‏تر از برآورد پارامترهای سؤال‏ براساس مدل کلاسیک و مدل‏های ساده‏تر IRT است.مقایسهء مدل‏ها از نظر برآورد متفاوت پارامتر توانایی آزمودنی‏ها به‏وسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدل‏ها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه‏ پارامتری نسبت به مدل کلاسیک و حتی مدل‏های یک و دو پارامتری IRT برآوردهای متفاوت‏تر و دقیق‏تری ارائه می‏دهد.

آدرس مقاله در پایگاه مجلات تخصصی نور: مجله تعلیم و تربیت (آموزش و پرورش) » پاییز 1380 – شماره 67 (از صفحه 83 تا 98)

URL : http://www.noormags.com/view/Magazine/ViewPages.aspx?ArticleId=216353

عنوان مقاله: مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ) از لحاظ برآورد پارامترهای سؤال و توانایی (16 صفحه)

نویسنده : فراهانی، مهدی

چکیده :

کلمات کلیدی :

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 83)

مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآورد پارامترهای‏ سؤال و توانایی

معرفی مقاله

نوشتهء مهدی فراهانی

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 84)

IRT ،به‏ویژه مدل سه پارامتری،دقیق‏تر از برآورد پارامترهای سؤال‏ براساس مدل کلاسیک و مدل‏های ساده‏تر IRT است.مقایسهء مدل‏ها از نظر برآورد متفاوت پارامتر توانایی آزمودنی‏ها به‏وسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدل‏ها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه‏ پارامتری نسبت به مدل کلاسیک و حتی مدل‏های یک و دو پارامتری IRT برآوردهای متفاوت‏تر و دقیق‏تری ارائه می‏دهد.

این مقاله خلاصه‏ای است از پایان‏نامهء تحصیلی دورهء کارشناسی ارشد آقای مهدی فراهانی،کارشناس آموزش وزارت نیرو که با راهنمایی آقای دکتر محمد کاظم سلیمی‏زاده،عضو هیأت علمی‏ دانشگاه علامه طباطبایی تهیه‏شده و در اختیار فصلنامه قرار گرفته‏ است.بدین وسیله از ایشان سپاس‏گزاری می‏شود.

«فصلنامه»

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 85)

مقدمه

مدل یا نظریه،رکن اساسی هر رشتهء علمی محسوب می‏شود.دراندازه‏گیری و روان‏سنجی نیز نظریه‏ها و مدل‏هایی وجود دارد که از لحاظ تاریخی و سیر روند تکاملی،به‏ دو دستهء کلاسیک(نظریهء ضعیف نمرهء حقیقی)و سؤال-پاسخ(به اختصار IRT )تقسیم‏ می‏شوند(1).

مبانی مدل کلاسیک اندازه‏گیری را در اوایل قرن حاضر،اسپیرمن معرفی و پایه‏ریزی‏ کرد(2).این مدل سپس در دو کتاب گالیکسن و لرد و ناویک به اوج توسعه و بسط خود رسید(3 و 4)اما هم‏زمان با بسط این مدل،ضعف‏های جدی آن بیش‏تر آشکار شد و روان‏سنجان و متخصصان آزمون‏سازی را بیش از پیش به‏سمت مدل‏های جدید سوق داد (5).از نیمهء دوم قرن بیستم به‏تدریج زمینهء ارائهء نظریات جدید مطرح شد و کسانی مانند لرد (6)،راش(به‏نقل از رایت،1977)(7)،برن‏بام(8)،رایت و همبلتون(9)در این مسیر گام‏های مؤثری برداشتند.

هم‏اینک فعالیت‏های آزمون‏سازی و اندازه‏گیری در زمینه‏های مختلف-از پیشرفت‏ تحصیلی گرفته تا سنجش نگرش‏ها و…-در آمریکا و اروپا و براساس مدل‏های جدید (IRT) بررسی و ساخته می‏شود و مدل کلاسیک اعتبار بیش‏تر برای بحث در مورد تاریخچهء نهضت آزمون‏سازی یا برآورد پارامترهای نظریات جدید به‏عنوان برآورد اوّلیه‏ و مقدماتی مورد استفاده قرار می‏گیرد.معلمان هرچند در محدودهء کلاس درس به‏ظاهر کم‏تر می‏توانند از مدل‏های اندازه‏گیری بهره ببرند اما اطلاع از مبانی نظری طراحی،اجرا و تجزیه و تحلیل آزمون‏های پیشرفت تحصیلی و یافته‏های جدید،بینش و بصیرت بهتری در مورد یکی از وظایف مهم معلمان-یعنی سنجش محصلان-در اختیار آن‏ها قرار می‏دهد.

مطالعهء منابع مربوط به موضوع پژوهش

در بعضی از مطالعات قبلی،محققان به‏مقایسهء مدل‏ها از نظر دقت برآورد پارامترهای‏ سؤال و توانایی پرداخته و برخی دیگر،تأثیر حجم نمونهء آزمودنی و سؤال یا نقض‏ مفروضات را در برآورد پارامترها بررسی کرده‏اند.با توجه به محدودیت مقالهء حاضر، به‏طور عمده نتایج دستهء اوّل(مقایسهء مدل‏ها در برآورد پارامترها)ارائه می‏شود.

یکی از نتایج مطالعات مربوط به‏مقایسهء دقت برآورد پارامترها در مدل‏های‏ اندازه‏گیری حاکی از آن است که مدل منطقی سه پارامتری نسبت به مدل‏های یک و دو پارامتری با آزمون‏های 20 سؤالی در برآورد جایگاه افراد در صفت مکنون و رتبه‏بندی‏ آزمودنی‏ها براساس صفت مورد سنجش دارای قدرت بیش‏تری است.نکتهء دیگر آن‏که

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 86)

پژوهشگران با تقسیم آزمودنی‏ها به دو گروه بالا و پایین(0 تا 5/2– ?L و 5/2 تا 0- ?u ) و مقایسهء دقت برآورد جایگاه حقیقی افراد برحسب مدل‏های IRT ،نشان دادند که افزایش‏ دقت و قابلیت پیش‏بینی توانایی افراد توسط مدل سه پارامتری نسبت به سایر مدل‏ها،در گروه‏های باتوانش پایین بیش‏تر از گروه‏های باتوانش بالاست؛زیرا امکان استفاده از حدس‏ و شانس کاذب در گروه‏های با توانایی کم بیش‏تر است و تنها مدل سه پارامتری در برآورد پارامترها به‏عامل Ci (مجانب پایین ICC )توجه می‏کند.مقایسهء مدل‏های یک و دو پارامتری(بررسی تأثیر پارامتر قدرت تشخیص سؤال در برآورد توانایی افراد)تمایز و تفاوت جدی نشان نداد(10).

راید برای تحلیل داده‏های چهار خرده آزمون مورد استفاده-شامل محاسبات عددی، تجسم فضای سه‏بعدی،خزانهء لغات و استدلال ریاضی-از نرم‏افزارهای BILOG و TESTFACT بهره گرفت و براساس یک نمونهء 406 نفره از آزمودنی‏ها و با حذف‏ سؤال‏هایی که کم‏تر از 75 درصد آزمودنی‏ها به آن‏ها پاسخ داده بودند،نتیجه گرفت که هر چهار خرده‏آزمون از لحاظ سطح دشواری سؤال‏ها و قدرت تشخیص افراد در سطوح‏ مختلف توانایی،تفاوت داشته است.بنابراین،مدل‏های یک و دو پارامتری از لحاظ برآورد پارامترها تفاوت معنی‏دار نشان داده‏اند(11).

هومن در تحقیقی با استفاده از آزمون تهران-استنفرد-بینه (TSB) (12)به بررسی و مقایسهء برآورد پارامترهای دشواری و توانایی پرداخت و درواقع،توانمندی مدل راش را در برآورد پارامترها در شرایط نقض مفروضات بررسی کرد.نتیجهء کلی تحقیق مذکور آن‏ است که مدل راش برای برآورد پارامتر دشواری سؤال‏ها وقتی ai سؤال‏ها تفاوت دارد، مناسب نیست اما برای برآورد توانایی افراد مناسب و خوب است(13).

در مورد مدل دوپارامتری و تفاوت برآورد توانایی برپایهء آن و مدل کلاسیک، انصارین به پژوهش دست زد.او با استفاده از داده‏های حاصل از اجرای آزمون هوش‏ تهران-استنفرد-بینه (TSB) به برآورد منحنی ویژهء سؤال‏ها،پارامترهای دشواری و قدرت تشخیص سؤال‏ها و توانایی آزمودنی‏ها اقدام کرد.نتیجه آن‏که نمرات خام یکسان‏ دارای برآورد یکسانی از توانایی و موقعیت آزمودنی بر روی پیوستار مکنون نبودند(14 و 15).

دیوجی طی یک بررسی،کاربرد مدل یک پارامتری راش را برای سؤال‏های چند گزینه‏ای مورد بررسی قرار داده است اما به‏رغم استفاده از مدل راش برای برآورد پارامترها در سؤال‏های چند گزینه‏ای،به‏عقیدهء دیوجی به‏علت نبود پارامتر حدس و قدرت‏ تشخیص یکسان در مدل راش،این کاربردها درست نیست(16).البته علاوه بر دیوجی،

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 87)

محققان دیگری هم به نامناسب بودن استفاده از مدل راش برای سؤال‏های چند گزینه‏ای‏ اشاره کرده‏اند؛از جمله،آندرسن عدم برازش مدل را به نابرابری قدرت تشخیص نسبت‏ داده است.همبلتون و تراب نشان داده‏اند که مدل دوپارامتری،توزیع نمرات را بهتر از مدل راش پیش‏بینی می‏کند(9).

همبلتون و موری از طریق نمودار باقی‏مانده برای آزمون‏های ریاضی،برازش مدل سه‏ پارامتری و عدم برازش مدل تک‏پارامتری را برای داده‏ها مطرح کرده‏اند(16).

یکی از موضوع‏ها و نکات مهم در مورد مدل‏های IRT ،حجم نمونهء آزمودنی‏ها و سؤال‏ است.این دو عامل،به‏ویژه در مدل سه‏پارامتری،می‏تواند بر برآورد پارامترهای سؤال و توانایی تأثیرات جدی داشته باشد.همبلتون و کوک در یک مطالعه با انتخاب آزمون‏هایی‏ با سه طول 10،20 و 80 سؤالی و نمونه‏هایی با حجم 50،200 و 1000 آزمودنی به‏ بررسی اثرات حجم نمونهء آزمودنی و ویژگی‏های خزانهء سؤال و تعداد سؤال بر خطای‏ استاندارد برآورد توانایی اقدام کردند.طول آزمون 10 سؤالی حد اقل طول ممکن برای‏ یک آزمون و آزمون 80 سؤالی نیز از طول‏های متداول تست است.در مورد حجم نمونهء آزمودنی 50 و 1000 نفر نیز به‏همین‏گونه استدلال کرده‏اند.سؤال‏ها از دو خزانهء سؤال‏ استخراج شدند.در عمل،سؤال‏های خزانهء 1 دارای دامنهء عریض‏تری برای پارامترهای‏ دشواری و قدرت تشخیص سؤال بودند.پارامتر حدس هردو خزانهء سؤال 25/0 در نظر گرفته شد.جمع‏بندی نتایج این مطالعه به‏صورت زیر است:

1.حجم نمونهء پاسخ‏گویان و طول آزمون،دو عامل بسیار مهم در دقت منحنی‏های SE(?) است.موارد نقض و استثنای این امر به نوسانات نمونه‏گیری مربوط می‏شود.

2.در کرانه‏های پیوستار توانایی،دقت منحنی‏های SE(?) حتی با وجود نمونه‏های‏ بزرگ آزمودنی،بسیار پایین است.

3.در اکثر موارد با نمونه‏های 200 آزمودنی و 20 سؤال،دقت برآورد خطای‏ استاندارد توانایی قابل قبول خواهد بود.البته این نکته بیش‏تر در دامنهء وسط توانایی‏ [1+،1-]صادق است.

4.افزایش طول تست از 10 به 20 سؤال بیش از افزایش آن از 20 به 80 سؤال،دقت‏ SE را بهبود می‏بخشد.

5.در مورد حجم نمونه نیز افزایش افراد از 50 به 200،بیش از 200 به 1000 نفر دقت‏ برآورد SE را ارتقا می‏دهد(17).

لرد طی یک مطالعه و ضمن مقایسهء مدل‏های یک و دوپارامتری IRT در برآورد نمرهء حقیقی آزمودنی‏ها،تلاش کرده است تأثیر حجم نمونه را بررسی کند.داده‏های مطالعه

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 88)

شامل پاسخ 3000 دانش‏آموز کلاس ششم به آزمون خزانهء لغات متروپولیتن با برنامه‏ LOGIST تجزیه و تحلیل شده است.نتایج مطالعه نشان داد وقتی حجم نمونه کوچک‏ باشد،پارامتر قدرت تشخیص (ai) سؤال‏ها و پارامتر مجانب یا حدس سؤال‏ها (ci) را نمی‏توان به‏دقت تعیین کرد.ازاین‏رو،در بعضی موقعیت‏های معین و محدود و با حجم‏ نمونهء کوچک‏تر از 100 یا 200 آزمودنی،برآوردکنندهء نمره حقیقی X آزمودنی در مدل‏ راش(یک‏پارامتری)می‏تواند اندکی بهتر از برآوردکنندهء نمرهء حقیقی برپایهء مدل دو پارامتری باشد(6).

بیان اهداف و فرضیه‏های پژوهش

هدف اصلی پژوهش حاضر مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآوردهای متفاوت یا مشابهی است که برای پارامترهای سؤال‏های آزمون و توانایی‏ آزمودنی‏ها به‏دست می‏دهند.

فرضیه‏های این پژوهش که آزمون آن‏ها مورد توجه است،عبارت‏اند از:

1.کاربرد مدل‏های سؤال-پاسخ(با تعداد پارامتر مناسب)برای برآورد دقیق‏ مشخصات سؤال بر مدل کلاسیک برتری دارد.

2.برآورد توانایی آزمودنی‏ها با استفاده از مدل‏های IRT (با تعداد پارامتر مناسب)از برآورد توانایی افراد برپایهء مدل کلاسیک دقیق‏تر است.

3.در صورت وجود عامل حدس در پاسخ دادن به سؤال‏ها،افزودن پارامتر حدس (Ci) به مدل IRT ،مدل برازنده‏تری برای داده‏ها ایجاد می‏کند.

روش اجرای پژوهش

الف.آزمودنی‏ها

جامعهء این پژوهش را همهء داوطلبان آزمون ورودی دوره‏های داخلی وزارت نیرو تشکیل می‏دهد و نمونهء تحقیق تعداد 553 نفر از داوطلبانی هستند که در آزمون داخلی‏ گزینش دانشجو(مورخ 6/3/1373)در رشتهء قدرت(مقطع کاردانی)شرکت کرده‏اند. برای نمونه‏برداری همهء شرکت‏کنندگان انتخاب شدند.در واقع،شرکت‏کنندگان در آزمون‏ مذکور نمونه‏ای از همهء داوطلبان فرض شده‏اند.حجم نمونهء اوّلیه 553 نفر بود اما تعدادی از پاسخ‏نامه‏ها به‏علت مخدوش و غیرقابل استفاده بودن از نمونه حذف شد و حجم نمونهء نهایی به 430 نفر کاهش یافت.

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 89)

ب.روش‏های آماری

برای تجزیه و تحلیل داده‏ها ابتدا در ایران مشخصه‏های کلاسیک سؤال‏ها و آزمون‏ها محاسبه شد.سپس داده‏ها که شامل پاسخ‏های 430 آزمودنی به سؤال‏های چهار گزینه‏ای سه‏ خرده‏آزمون 20 سؤالی بود،از طریق نظام شبکهء جهانی اطلاعات (Internet به یکی از دانشگاه‏های آمریکا(دانشگاه UCLA )ارسال گردید.پس از تحلیل داده‏ها با نرم‏افزار بای‏لوگ،خروجی کامپیوتر شامل برآورد پارامترهای سؤال و توانایی افراد،به ایران‏ فرستاده شد.13خلاصهء اطلاعات در مورد خرده‏آزمون ریاضیات به‏همراه نمودارهای‏ دشواری و قدرت تشخیص سؤال‏ها در پایان مقاله ارائه شده است(نمودار شمارهء 1 و 2 و جدول شمارهء 4).

برای تعیین برتری مدل‏های سؤال-پاسخ بر مدل کلاسیک در برآورد دقیق مشخصات‏ سؤال(فرضیهء 1 پژوهش)از یک ابزار نیرومند نظریات جدید اندازه‏گیری به نام تابع‏ آگاهی‏14استفاده شد.تابع آگاهی نظامی است که ورودی آن پارامترهای سؤال و خروجی‏ آن میزان آگاهی‏دهندگی آزمون می‏باشد.متفاوت بودن تابع آگاهی یک آزمون برحسب‏ مدل‏های اندازه‏گیری،بیانگر تفاوت مدل‏ها از برآوردهایی است که برای پارامترهای‏ سؤال‏های آزمون مذکور محاسبه شده است.برای بررسی معناداری تفاوت تابع آگاهی‏ آزمون‏ها به‏علت وابسته بودن داده‏ها،از آزمون t برای داده‏های وابسته استفاده شد و تابع‏ آگاهی هر آزمون که براساس مدل‏های یک و دوپارامتری و کلاسیک برآورد شده بود،با تابع آگاهی همان آزمون در مدل سه‏پارامتری مقایسه گردید.معناداری تفاوت این توابع‏ آگاهی با t آزمون شد.

به‏منظور آزمون فرضیهء دوم-تفاوت یا عدم تفاوت مدل‏ها در برآورد توانایی و سطح‏ صفت مکنون آزمودنی‏ها-از آزمون مجذور کای از نوع نیکویی برازش استفاده شد تا مدل‏های یک و دوپارامتری و کلاسیک را در مقایسه با مدل سه‏پارامتری آزمون کند. برای این منظور،ابتدا نمرات به مقیاس استاندارد یا Z برده شدند و سپس به 12 طبقه از [5/2-،3-]تا[3،5/2]تقسیم گردیدند.آن‏گاه فراوانی طبقات براساس آزمون نیکویی‏ برازش با درجات آزادی‏1- k – df مقایسه و در دو سطح معناداری 05/0 و 01/0 بررسی‏ شد.

برای بررسی و تعیین برازش یا عدم برازش هریک از مدل‏های IRT با داده‏ها،یعنی به‏ منظور آزمون فرضیهء 3 پژوهش مبنی بر برازندگی بیش‏تر مدل سه‏پارامتری نسبت به سایر مدل‏های IRT ،نرم‏افزار BILOG از نوعی آزمون مجذور کای استفاده می‏کند.فرض صفر آزمون نیکویی برازش مدل-داده‏ها بر تناسب و برازش مدل با داده‏ها تأکید می‏ورزد و در

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 90)

واقع،تفاوت مدل با داده‏ها را انکار می‏کند و فرض خلاف عدم برازش را بیان می‏دارد.در عمل،سطح احتمال مجذور کای محاسبه‏شدهء هر سؤال با 01/0 و 05/0 مقایسه می‏شود. در صورت بزرگ‏تر بودن سطح احتمال هر سؤال از 01/0 یا 05/0،نتیجه گرفته می‏شود که سؤال با مدل دارای برازش نسبی(05/0> ? >01/0)یا برازش کامل(05/0< ? ) است.

پ.ابزار گردآوری داده‏ها

ابزار مورد استفاده برای گردآوری داده‏های پژوهش شامل سه آزمون بیست سؤالی‏ ریاضیات،فیزیک و درس فنی به‏صورت چهار گزینه‏ای بوده است.درس‏های مذکور جزء مواد امتحانی اصلی و مشترک آزمون‏های گزینش دانشجو در وزارت نیرو به‏شمار می‏روند.سایر مواد امتحانی تعداد آزمودنی کمی دارد.این آزمون‏ها به‏وسیلهء متخصصان‏ حیطه‏های مزبور که معمولا جزء کارشناسان وزارت نیرو هستند،طراحی و تهیه می‏شود.در مورد نحوهء اجرای ابزار تا حد قابل قبولی می‏توان شرایط استاندارد و اصولی را برای آن‏ها در نظر گرفت.از جمله در ابتدای دفترچهء آزمون دربارهء شیوهء پاسخ‏گویی به‏ سؤال‏ها،مدت زمان اجرا،وجود نمرهء منفی در آزمون،تعداد سؤال‏های هر خرده‏آزمون و …توضیحاتی ذکر شده است.

یافته‏های پژوهش

برای آزمون فرضیهء 1،مقایسهء مدل سه‏پارامتری و مدل کلاسیک از نظر برآوردهایی‏ که برای پارامترهای سؤال‏ها به‏دست می‏دهند،از تابع آگاهی خرده‏آزمون‏ها بهره گرفته شد. تفاوت توابع آگاهی هر آزمون که حاصل مدل‏های مختلف بود،محاسبه و با آزمون t برای‏ داده‏های وابسته آزمون شد.نتایج نشان داد که نه تنها بین تابع آگاهی هر آزمون براساس‏ مدل کلاسیک تفاوت قابل توجهی دیده می‏شود و این تفاوت حتی در سطح‏ 01/0> ? و با بیش از 99 درصد اطمینان معنادار است بلکه توابع آگاهی مدل‏های دو پارامتری و یک‏پارامتری نیز برای آزمون از تابع آگاهی هر خرده‏آزمون براساس مدل‏ کلاسیک در همین سطح تفاوت معناداری دارد.در واقع،با درجهء آزادی 32 و مقدار t مبین 45/2 تنها توابع آگاهی آزمون‏ها بین مدل‏های یک و دوپارامتری معنادار نبود و سایر مقادیر همه تفاوت معناداری داشتند.بنابراین،می‏توان گفت علاوه بر مدل سه‏ پارامتری IRT ،حتی مدل‏های دو و یک‏پارامتری نیز پارامترهای سؤال‏ها را دقیق‏تر و مناسب‏تر از مدل کلاسیک برآورد می‏کنند و فرضیهء صفر رد و فرضیهء اوّل پژوهش با بیش‏ از 99 درصد اطمینان تأیید می‏شود(جدول شمارهء 1).

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 91)

جدول شمارهء 1-محاسبهء آزمون t گروه‏های وابسته برای تفاوت بین توابع آگاهی آزمون‏ها برحسب مدل‏های مختلف

(به تصویر صفحه مراجعه شود) 45/2-01/0 t(cr) 69/1-05/0 t(cr) 32- df 33- n

فرضیهء 2 مدعی است که مدل سه‏پارامتری نظریهء سؤال-پاسخ توانایی افراد را نسبت به‏ مدل کلاسیک اندازه‏گیری به‏گونه‏ای متفاوت و دقیق‏تر برآورد می‏کند.به این ترتیب،باید برای آزمون این فرضیه،تفاوت مدل سه‏پارامتری از مدل کلاسیک در برآورد توانایی‏ بررسی شود.به این منظور،آزمون مجذور کای بین مدل سه‏پارامتری و مدل کلاسیک‏ (البته مدل‏های دو و یک‏پارامتری نیز)اجرا شد تا تفاوت فراوانی‏های افراد در طبقات‏ مختلف آزمون شود.نتایج نشان داد که نه تنها توانایی برآوردشده برای افراد براساس مدل‏ سه‏پارامتری از مدل کلاسیک متفاوت است بلکه حتی مدل‏های دو و یک‏پارامتری نیز در برآورد پارامتر توانایی آزمودنی‏ها با مدل سه‏پارامتری تفاوت و تمایز دارد.این امر در سطح 01/0> ? هم معنی‏دار بود.از سوی دیگر،از آن‏جا که مدل سه‏پارامتری از لحاظ تعداد پارامتر مناسب‏ترین مدل برای داده‏های حاضر محسوب می‏شود و طبق نتایج آزمون‏ خوبی برازندگی،برازش و مناسبت کاملا آشکاری با داده‏های پژوهش دارد،توانایی‏ برآوردشده برای افراد را که از مدل سه‏پارامتری به‏دست آمده است،می‏توان دقیق‏تر و مناسب‏تر از توانایی حاصل از سایر مدل‏های اندازه‏گیری تلقی کرد.بنابراین،فرضیهء صفر رد و فرضیهء دوم پژوهش حاضر نیز با بیش از 99 درصد اطمینان تأیید می‏شود(جدول‏ شمارهء 2).

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 92)

جدول شمارهء 2-برازندگی مدل-داده‏ها برحسب مدل‏های IRT (تعداد سؤال‏ها)

(به تصویر صفحه مراجعه شود) 8<؟ df ؟>2 9<؟ df ؟>2 9<؟ df ؟>3

جدول شمارهء 3-مجذور کای محاسبه‏شده بین پارامتر توانایی مدل سه‏پارامتری‏ و مدل‏های دو و یک‏پارامتری و کلاسیک

(به تصویر صفحه مراجعه شود) 725/24-01/0 X2(cr) 675/19-05/0 X2(cr) 11- df

برای آزمون فرضیهء 3 پژوهش از نوعی آزمون خوبی برازندگی استفاده شد و برازش‏ سؤال‏های آزمون با مدل‏های یک،دو و سه‏پارامتری بررسی گردید.براساس نتایج به‏دست‏ آمده،مدل سه‏پارامتری برازش چشم‏گیری با داده‏ها داشت؛درحالی‏که نه تنها مدل دو پارامتری بلکه مدل یک‏پارامتری نیز بدون برازش شناخته شد.بنابراین،فرضیهء سوم‏ پژوهش نیز با بیش از 99 درصد اطمینان و در سطح 01/0> ? معنادار شناخته شد و فرض‏ صفر رد و فرض پژوهش(خلاف)تأیید گردید.بدین ترتیب مدل سه‏پارامتری،برای‏ داده‏های آزمون‏های مورد استفاده در این پژوهش نسبت به سایر مدل‏های IRT برازنده‏تر و مناسب‏تر شناخته شد(جدول شمارهء 3).

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 93)

نتیجه‏گیری

مطابق نتایج تحقیقات و مطالعات قبلی در زمینهء نظریه‏های جدید اندازه‏گیری، IRT و مقایسهء آن با نظریهء کلاسیک آزمون،این مطالعه نیز نشان داد که در سطح بالایی از اطمینان‏ می‏توان گفت:

1.مدل‏های IRT نسبت به‏مدل کلاسیک اندازه‏گیری در برآورد پارامترهای سؤال‏ها و توانایی آزمودنی‏ها دارای مناسبت،دقت و برازندگی بیش‏تری است.این نتیجه در مورد آزمون‏های پیشرفت تحصیلی چهار گزینه‏ای که مبنای مطالعهء حاضر بوده است،با بیش از 99 درصد اطمینان صدق می‏کند.

2.در بین مدل‏های نظریهء سؤال-پاسخ (IRT) برای برآورد پارامترهای سؤال و توانایی‏ افراد،مدل سه‏پارامتری در مورد آزمون‏های پیشرفت تحصیلی چند گزینه‏ای این پژوهش، نسبت به مدل‏های یک و دوپارامتری برتری خاصی نشان داد.

3.در بین مدل‏های یک و دوپارامتری IRT از لحاظ برآورد پارامترهای سؤال‏ براساس داده‏های خرده‏آزمون‏های حاضر،تفاوت چشم‏گیری ملاحظه نمی‏شود.ازاین‏رو می‏توان تأثیرگذاری پارامتر قدرت تشخیص سؤال‏ها را بر برآورد پارامتر دشواری چندان‏ شدید و جدی ندانست.به‏زبان دیگر،سؤال‏های مورد استفاده در خرده‏آزمون‏های این‏ مطالعه دارای قدرت تشخیص خیلی متفاوت و مؤثری نیستند اما در مورد برآورد پارامتر توانایی آزمودنی‏ها،می‏توان نتیجه گرفت که براساس داده‏های حاضر،بین مدل‏های یک و دوپارامتری در مقام مقایسه با مدل سه‏پارامتری،برآورد پارامتر توانایی تا حدی متفاوت‏ است و در مورد آزمون‏های چند گزینه‏ای پارامتر شیب بر روی برآورد پارامتر توانایی‏ تأثیر داشته است.

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 94)

پی‏نوشت‏ها

(1).نظریات جدید اندازه‏گیری و روان‏سنجی نخست با اصطلاح صفت مکنون یا خصیصهء مکنون به‏شدت‏ پیوند خورد اما به‏تدریج با عنوان نظریهء سؤال-پاسخ یا Item Response Theory (با علامت اختصاری‏ IRT )یا نظریهء منحنی ویژهء سؤال رواج یافت که برای مقاصد آزمون‏سازی و تحلیل آماری داده‏ها مناسب‏تر به‏نظر می‏رسد(همبلتون،1993).

(2). Information Function

(3).برای تحلیل داده‏ها در آمریکا به‏وسیلهء نرم‏افزار BILOG ،علاوه بر مساعی فراوان استاد محترم راهنما آقای دکتر سلیمی‏زاده،نگارنده بر خود لازم می‏داند از عنایت استاد ارجمند دکتر جمال عابدی،عضو هیأت علمی دانشگاه مذکور که تحلیل داده‏ها را مسیر کردند،تشکر و سپاس‏گزاری نماید.

منابع

1. Allen.J.M.. Yen, M.W.(1979).Introduction to measurement thoery.California: wadsworth.

2.ثرندایک،رابرت؛روان‏سنجی کاربردی،مترجم:حیدر علی هومن،تهران،دانشگاه تهران،1369.

(به تصویر صفحه مراجعه شود)

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 95)

(به تصویر صفحه مراجعه شود) 12.هومن،حیدر علی؛مقایسهء مدل تک‏پارامتری راش و مدل دوپارامتری،پایان‏نامهء منتشرنشدهء دانشگاه‏ آزاد اسلامی،1373.

13.هومن،حیدر علی؛هوش‏آزمای انفرادی تهران-استنفرد-بینه.فصلنامهء علوم تربیتی دانشگاه تهران، ویژه‏نامهء روان‏سنجی،دورهء جدید،سال یکم،شمارهء 1-4.

14.انصارین،علیرضا؛برآورد خم ویژهء سؤال و توانایی آزمودنی‏ها در مقیاس تهران-استنفرد-بینه بر پایهء مدل دوپارامتری صفت مکنون،پایان‏نامهء منتشرنشدهء دانشگاه آزاد اسلامی،1371.

15.هومن،حیدر علی؛روش تهیهء آزمون هوش،تهران،دانشگاه تهران،1375.

16. Divgi.D.R.(1986).Does the Rasch model really work for multiple choice items? Not if you look closely.Journal of Educational Measurement, 23,283-298.

17. Hambleton, R.K.. Cook.L.L.(1983).The robustness of item response models and effects of test length and sample size on the precision of ability estimates.In D.J.Weiss(Ed.). New horizons in testing(pp.31-49).New York:Academic Press.

تعلیم و تربیت (آموزش و پرورش) » شماره 67 (صفحه 96)

پایان مقاله

برچسب ها

Mahmoud Hosseiniدسامبر 30, 2011

0 438 خواندن این مطلب 14 دقیقه زمان میبرد