پیرامون یادگیری

مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ)

نظریه‏های اندازه‏گیری از یک بعد به دو دستهء اساسی تقسیم‏ می‏شود:نظریهء کلاسیک و نظریه‏های جدید اندازه‏گیری (IRT) 1. این پژوهش از طریق داده‏های حاصل از اجرای سه آزمون‏ ریاضیات،فیزیک و درس فنی که در مورد ۴۳۰ نفر از داوطلبان‏ کنکور داخلی وزارت نیرو اجرا شده بود،به‏مقایسهء نظریات‏ کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی‏ پرداخته است.

تحلیل‏های کلاسیک داده‏ها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدل‏های جدید اندازه‏گیری از طریق نرم‏افزار رایانه‏ای BILOG در کالیفرنیای آمریکا انجام‏ گرفته است.مقایسهء مدل‏های مختلف اندازه‏گیری از نظر برآوردهای‏ متفاوت یا مشابه پارامترهای سؤال به‏وسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل‏ کلاسیک و مدل‏های IRT برآوردهای متفاوتی برای پارامترهای‏ سؤال به‏دست می‏دهند و برآورد پارامترهای سؤال برپایهء مدل‏هایIRT ،به‏ویژه مدل سه پارامتری،دقیق‏تر از برآورد پارامترهای سؤال‏ براساس مدل کلاسیک و مدل‏های ساده‏تر IRT است.مقایسهء مدل‏ها از نظر برآورد متفاوت پارامتر توانایی آزمودنی‏ها به‏وسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدل‏ها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه‏ پارامتری نسبت به مدل کلاسیک و حتی مدل‏های یک و دو پارامتری IRT برآوردهای متفاوت‏تر و دقیق‏تری ارائه می‏دهد.

 

آدرس مقاله در پایگاه مجلات تخصصی نور: مجله تعلیم و تربیت (آموزش و پرورش) » پاییز ۱۳۸۰ – شماره ۶۷ (از صفحه ۸۳ تا ۹۸)
عنوان مقاله: مقایسه مدل های اندازه گیری (کلاسیک و سؤال پاسخ) از لحاظ برآورد پارامترهای سؤال و توانایی (۱۶ صفحه)
نویسنده : فراهانی، مهدی
چکیده :
کلمات کلیدی :

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۸۳)


مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآورد پارامترهای‏ سؤال و توانایی

معرفی مقاله

نوشتهء مهدی فراهانی

نظریه‏های اندازه‏گیری از یک بعد به دو دستهء اساسی تقسیم‏ می‏شود:نظریهء کلاسیک و نظریه‏های جدید اندازه‏گیری (IRT) 1. این پژوهش از طریق داده‏های حاصل از اجرای سه آزمون‏ ریاضیات،فیزیک و درس فنی که در مورد ۴۳۰ نفر از داوطلبان‏ کنکور داخلی وزارت نیرو اجرا شده بود،به‏مقایسهء نظریات‏ کلاسیک و جدید از لحاظ برآورد پارامترهای سؤال و توانایی‏ پرداخته است.

تحلیل‏های کلاسیک داده‏ها از طریق برنامهء SPSS و برآورد پارامترهای سؤال و توانایی برحسب مدل‏های جدید اندازه‏گیری از طریق نرم‏افزار رایانه‏ای BILOG در کالیفرنیای آمریکا انجام‏ گرفته است.مقایسهء مدل‏های مختلف اندازه‏گیری از نظر برآوردهای‏ متفاوت یا مشابه پارامترهای سؤال به‏وسیلهء تابع آگاهی و آزمون t وابسته،به آزمون و ارزیابی گذاشته شد.نتایج نشان داد که مدل‏ کلاسیک و مدل‏های IRT برآوردهای متفاوتی برای پارامترهای‏ سؤال به‏دست می‏دهند و برآورد پارامترهای سؤال برپایهء مدل‏های

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۸۴)


IRT ،به‏ویژه مدل سه پارامتری،دقیق‏تر از برآورد پارامترهای سؤال‏ براساس مدل کلاسیک و مدل‏های ساده‏تر IRT است.مقایسهء مدل‏ها از نظر برآورد متفاوت پارامتر توانایی آزمودنی‏ها به‏وسیلهء آزمون کای اسکوئر آزموده شد.نتایج این مرحله نیز تفاوت مدل‏ها را در برآورد پارامتر توانایی آشکار ساخت و نشان داد که مدل سه‏ پارامتری نسبت به مدل کلاسیک و حتی مدل‏های یک و دو پارامتری IRT برآوردهای متفاوت‏تر و دقیق‏تری ارائه می‏دهد.

این مقاله خلاصه‏ای است از پایان‏نامهء تحصیلی دورهء کارشناسی ارشد آقای مهدی فراهانی،کارشناس آموزش وزارت نیرو که با راهنمایی آقای دکتر محمد کاظم سلیمی‏زاده،عضو هیأت علمی‏ دانشگاه علامه طباطبایی تهیه‏شده و در اختیار فصلنامه قرار گرفته‏ است.بدین وسیله از ایشان سپاس‏گزاری می‏شود.

«فصلنامه»

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۸۵)


مقدمه

مدل یا نظریه،رکن اساسی هر رشتهء علمی محسوب می‏شود.دراندازه‏گیری و روان‏سنجی نیز نظریه‏ها و مدل‏هایی وجود دارد که از لحاظ تاریخی و سیر روند تکاملی،به‏ دو دستهء کلاسیک(نظریهء ضعیف نمرهء حقیقی)و سؤال-پاسخ(به اختصار IRT )تقسیم‏ می‏شوند(۱).

مبانی مدل کلاسیک اندازه‏گیری را در اوایل قرن حاضر،اسپیرمن معرفی و پایه‏ریزی‏ کرد(۲).این مدل سپس در دو کتاب گالیکسن و لرد و ناویک به اوج توسعه و بسط خود رسید(۳ و ۴)اما هم‏زمان با بسط این مدل،ضعف‏های جدی آن بیش‏تر آشکار شد و روان‏سنجان و متخصصان آزمون‏سازی را بیش از پیش به‏سمت مدل‏های جدید سوق داد (۵).از نیمهء دوم قرن بیستم به‏تدریج زمینهء ارائهء نظریات جدید مطرح شد و کسانی مانند لرد (۶)،راش(به‏نقل از رایت،۱۹۷۷)(۷)،برن‏بام(۸)،رایت و همبلتون(۹)در این مسیر گام‏های مؤثری برداشتند.

هم‏اینک فعالیت‏های آزمون‏سازی و اندازه‏گیری در زمینه‏های مختلف-از پیشرفت‏ تحصیلی گرفته تا سنجش نگرش‏ها و…-در آمریکا و اروپا و براساس مدل‏های جدید (IRT) بررسی و ساخته می‏شود و مدل کلاسیک اعتبار بیش‏تر برای بحث در مورد تاریخچهء نهضت آزمون‏سازی یا برآورد پارامترهای نظریات جدید به‏عنوان برآورد اوّلیه‏ و مقدماتی مورد استفاده قرار می‏گیرد.معلمان هرچند در محدودهء کلاس درس به‏ظاهر کم‏تر می‏توانند از مدل‏های اندازه‏گیری بهره ببرند اما اطلاع از مبانی نظری طراحی،اجرا و تجزیه و تحلیل آزمون‏های پیشرفت تحصیلی و یافته‏های جدید،بینش و بصیرت بهتری در مورد یکی از وظایف مهم معلمان-یعنی سنجش محصلان-در اختیار آن‏ها قرار می‏دهد.

مطالعهء منابع مربوط به موضوع پژوهش

در بعضی از مطالعات قبلی،محققان به‏مقایسهء مدل‏ها از نظر دقت برآورد پارامترهای‏ سؤال و توانایی پرداخته و برخی دیگر،تأثیر حجم نمونهء آزمودنی و سؤال یا نقض‏ مفروضات را در برآورد پارامترها بررسی کرده‏اند.با توجه به محدودیت مقالهء حاضر، به‏طور عمده نتایج دستهء اوّل(مقایسهء مدل‏ها در برآورد پارامترها)ارائه می‏شود.

یکی از نتایج مطالعات مربوط به‏مقایسهء دقت برآورد پارامترها در مدل‏های‏ اندازه‏گیری حاکی از آن است که مدل منطقی سه پارامتری نسبت به مدل‏های یک و دو پارامتری با آزمون‏های ۲۰ سؤالی در برآورد جایگاه افراد در صفت مکنون و رتبه‏بندی‏ آزمودنی‏ها براساس صفت مورد سنجش دارای قدرت بیش‏تری است.نکتهء دیگر آن‏که

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۸۶)


پژوهشگران با تقسیم آزمودنی‏ها به دو گروه بالا و پایین(۰ تا ۵/۲– ?L و ۵/۲ تا ۰- ?u ) و مقایسهء دقت برآورد جایگاه حقیقی افراد برحسب مدل‏های IRT ،نشان دادند که افزایش‏ دقت و قابلیت پیش‏بینی توانایی افراد توسط مدل سه پارامتری نسبت به سایر مدل‏ها،در گروه‏های باتوانش پایین بیش‏تر از گروه‏های باتوانش بالاست؛زیرا امکان استفاده از حدس‏ و شانس کاذب در گروه‏های با توانایی کم بیش‏تر است و تنها مدل سه پارامتری در برآورد پارامترها به‏عامل Ci (مجانب پایین ICC )توجه می‏کند.مقایسهء مدل‏های یک و دو پارامتری(بررسی تأثیر پارامتر قدرت تشخیص سؤال در برآورد توانایی افراد)تمایز و تفاوت جدی نشان نداد(۱۰).

راید برای تحلیل داده‏های چهار خرده آزمون مورد استفاده-شامل محاسبات عددی، تجسم فضای سه‏بعدی،خزانهء لغات و استدلال ریاضی-از نرم‏افزارهای BILOG و TESTFACT بهره گرفت و براساس یک نمونهء ۴۰۶ نفره از آزمودنی‏ها و با حذف‏ سؤال‏هایی که کم‏تر از ۷۵ درصد آزمودنی‏ها به آن‏ها پاسخ داده بودند،نتیجه گرفت که هر چهار خرده‏آزمون از لحاظ سطح دشواری سؤال‏ها و قدرت تشخیص افراد در سطوح‏ مختلف توانایی،تفاوت داشته است.بنابراین،مدل‏های یک و دو پارامتری از لحاظ برآورد پارامترها تفاوت معنی‏دار نشان داده‏اند(۱۱).

هومن در تحقیقی با استفاده از آزمون تهران-استنفرد-بینه (TSB) (12)به بررسی و مقایسهء برآورد پارامترهای دشواری و توانایی پرداخت و درواقع،توانمندی مدل راش را در برآورد پارامترها در شرایط نقض مفروضات بررسی کرد.نتیجهء کلی تحقیق مذکور آن‏ است که مدل راش برای برآورد پارامتر دشواری سؤال‏ها وقتی ai سؤال‏ها تفاوت دارد، مناسب نیست اما برای برآورد توانایی افراد مناسب و خوب است(۱۳).

در مورد مدل دوپارامتری و تفاوت برآورد توانایی برپایهء آن و مدل کلاسیک، انصارین به پژوهش دست زد.او با استفاده از داده‏های حاصل از اجرای آزمون هوش‏ تهران-استنفرد-بینه (TSB) به برآورد منحنی ویژهء سؤال‏ها،پارامترهای دشواری و قدرت تشخیص سؤال‏ها و توانایی آزمودنی‏ها اقدام کرد.نتیجه آن‏که نمرات خام یکسان‏ دارای برآورد یکسانی از توانایی و موقعیت آزمودنی بر روی پیوستار مکنون نبودند(۱۴ و ۱۵).

دیوجی طی یک بررسی،کاربرد مدل یک پارامتری راش را برای سؤال‏های چند گزینه‏ای مورد بررسی قرار داده است اما به‏رغم استفاده از مدل راش برای برآورد پارامترها در سؤال‏های چند گزینه‏ای،به‏عقیدهء دیوجی به‏علت نبود پارامتر حدس و قدرت‏ تشخیص یکسان در مدل راش،این کاربردها درست نیست(۱۶).البته علاوه بر دیوجی،

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۸۷)


محققان دیگری هم به نامناسب بودن استفاده از مدل راش برای سؤال‏های چند گزینه‏ای‏ اشاره کرده‏اند؛از جمله،آندرسن عدم برازش مدل را به نابرابری قدرت تشخیص نسبت‏ داده است.همبلتون و تراب نشان داده‏اند که مدل دوپارامتری،توزیع نمرات را بهتر از مدل راش پیش‏بینی می‏کند(۹).

همبلتون و موری از طریق نمودار باقی‏مانده برای آزمون‏های ریاضی،برازش مدل سه‏ پارامتری و عدم برازش مدل تک‏پارامتری را برای داده‏ها مطرح کرده‏اند(۱۶).

یکی از موضوع‏ها و نکات مهم در مورد مدل‏های IRT ،حجم نمونهء آزمودنی‏ها و سؤال‏ است.این دو عامل،به‏ویژه در مدل سه‏پارامتری،می‏تواند بر برآورد پارامترهای سؤال و توانایی تأثیرات جدی داشته باشد.همبلتون و کوک در یک مطالعه با انتخاب آزمون‏هایی‏ با سه طول ۱۰،۲۰ و ۸۰ سؤالی و نمونه‏هایی با حجم ۵۰،۲۰۰ و ۱۰۰۰ آزمودنی به‏ بررسی اثرات حجم نمونهء آزمودنی و ویژگی‏های خزانهء سؤال و تعداد سؤال بر خطای‏ استاندارد برآورد توانایی اقدام کردند.طول آزمون ۱۰ سؤالی حد اقل طول ممکن برای‏ یک آزمون و آزمون ۸۰ سؤالی نیز از طول‏های متداول تست است.در مورد حجم نمونهء آزمودنی ۵۰ و ۱۰۰۰ نفر نیز به‏همین‏گونه استدلال کرده‏اند.سؤال‏ها از دو خزانهء سؤال‏ استخراج شدند.در عمل،سؤال‏های خزانهء ۱ دارای دامنهء عریض‏تری برای پارامترهای‏ دشواری و قدرت تشخیص سؤال بودند.پارامتر حدس هردو خزانهء سؤال ۲۵/۰ در نظر گرفته شد.جمع‏بندی نتایج این مطالعه به‏صورت زیر است:

۱.حجم نمونهء پاسخ‏گویان و طول آزمون،دو عامل بسیار مهم در دقت منحنی‏های SE(?) است.موارد نقض و استثنای این امر به نوسانات نمونه‏گیری مربوط می‏شود.

۲.در کرانه‏های پیوستار توانایی،دقت منحنی‏های SE(?) حتی با وجود نمونه‏های‏ بزرگ آزمودنی،بسیار پایین است.

۳.در اکثر موارد با نمونه‏های ۲۰۰ آزمودنی و ۲۰ سؤال،دقت برآورد خطای‏ استاندارد توانایی قابل قبول خواهد بود.البته این نکته بیش‏تر در دامنهء وسط توانایی‏ [۱+،۱-]صادق است.

۴.افزایش طول تست از ۱۰ به ۲۰ سؤال بیش از افزایش آن از ۲۰ به ۸۰ سؤال،دقت‏ SE را بهبود می‏بخشد.

۵.در مورد حجم نمونه نیز افزایش افراد از ۵۰ به ۲۰۰،بیش از ۲۰۰ به ۱۰۰۰ نفر دقت‏ برآورد SE را ارتقا می‏دهد(۱۷).

لرد طی یک مطالعه و ضمن مقایسهء مدل‏های یک و دوپارامتری IRT در برآورد نمرهء حقیقی آزمودنی‏ها،تلاش کرده است تأثیر حجم نمونه را بررسی کند.داده‏های مطالعه

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۸۸)


شامل پاسخ ۳۰۰۰ دانش‏آموز کلاس ششم به آزمون خزانهء لغات متروپولیتن با برنامه‏ LOGIST تجزیه و تحلیل شده است.نتایج مطالعه نشان داد وقتی حجم نمونه کوچک‏ باشد،پارامتر قدرت تشخیص (ai) سؤال‏ها و پارامتر مجانب یا حدس سؤال‏ها (ci) را نمی‏توان به‏دقت تعیین کرد.ازاین‏رو،در بعضی موقعیت‏های معین و محدود و با حجم‏ نمونهء کوچک‏تر از ۱۰۰ یا ۲۰۰ آزمودنی،برآوردکنندهء نمره حقیقی X آزمودنی در مدل‏ راش(یک‏پارامتری)می‏تواند اندکی بهتر از برآوردکنندهء نمرهء حقیقی برپایهء مدل دو پارامتری باشد(۶).

بیان اهداف و فرضیه‏های پژوهش

هدف اصلی پژوهش حاضر مقایسهء مدل‏های اندازه‏گیری(کلاسیک و سؤال-پاسخ)از لحاظ برآوردهای متفاوت یا مشابهی است که برای پارامترهای سؤال‏های آزمون و توانایی‏ آزمودنی‏ها به‏دست می‏دهند.

فرضیه‏های این پژوهش که آزمون آن‏ها مورد توجه است،عبارت‏اند از:

۱.کاربرد مدل‏های سؤال-پاسخ(با تعداد پارامتر مناسب)برای برآورد دقیق‏ مشخصات سؤال بر مدل کلاسیک برتری دارد.

۲.برآورد توانایی آزمودنی‏ها با استفاده از مدل‏های IRT (با تعداد پارامتر مناسب)از برآورد توانایی افراد برپایهء مدل کلاسیک دقیق‏تر است.

۳.در صورت وجود عامل حدس در پاسخ دادن به سؤال‏ها،افزودن پارامتر حدس (Ci) به مدل IRT ،مدل برازنده‏تری برای داده‏ها ایجاد می‏کند.

روش اجرای پژوهش
الف.آزمودنی‏ها

جامعهء این پژوهش را همهء داوطلبان آزمون ورودی دوره‏های داخلی وزارت نیرو تشکیل می‏دهد و نمونهء تحقیق تعداد ۵۵۳ نفر از داوطلبانی هستند که در آزمون داخلی‏ گزینش دانشجو(مورخ ۶/۳/۱۳۷۳)در رشتهء قدرت(مقطع کاردانی)شرکت کرده‏اند. برای نمونه‏برداری همهء شرکت‏کنندگان انتخاب شدند.در واقع،شرکت‏کنندگان در آزمون‏ مذکور نمونه‏ای از همهء داوطلبان فرض شده‏اند.حجم نمونهء اوّلیه ۵۵۳ نفر بود اما تعدادی از پاسخ‏نامه‏ها به‏علت مخدوش و غیرقابل استفاده بودن از نمونه حذف شد و حجم نمونهء نهایی به ۴۳۰ نفر کاهش یافت.

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۸۹)


ب.روش‏های آماری

برای تجزیه و تحلیل داده‏ها ابتدا در ایران مشخصه‏های کلاسیک سؤال‏ها و آزمون‏ها محاسبه شد.سپس داده‏ها که شامل پاسخ‏های ۴۳۰ آزمودنی به سؤال‏های چهار گزینه‏ای سه‏ خرده‏آزمون ۲۰ سؤالی بود،از طریق نظام شبکهء جهانی اطلاعات (Internet به یکی از دانشگاه‏های آمریکا(دانشگاه UCLA )ارسال گردید.پس از تحلیل داده‏ها با نرم‏افزار بای‏لوگ،خروجی کامپیوتر شامل برآورد پارامترهای سؤال و توانایی افراد،به ایران‏ فرستاده شد.۱۳خلاصهء اطلاعات در مورد خرده‏آزمون ریاضیات به‏همراه نمودارهای‏ دشواری و قدرت تشخیص سؤال‏ها در پایان مقاله ارائه شده است(نمودار شمارهء ۱ و ۲ و جدول شمارهء ۴).

برای تعیین برتری مدل‏های سؤال-پاسخ بر مدل کلاسیک در برآورد دقیق مشخصات‏ سؤال(فرضیهء ۱ پژوهش)از یک ابزار نیرومند نظریات جدید اندازه‏گیری به نام تابع‏ آگاهی‏۱۴استفاده شد.تابع آگاهی نظامی است که ورودی آن پارامترهای سؤال و خروجی‏ آن میزان آگاهی‏دهندگی آزمون می‏باشد.متفاوت بودن تابع آگاهی یک آزمون برحسب‏ مدل‏های اندازه‏گیری،بیانگر تفاوت مدل‏ها از برآوردهایی است که برای پارامترهای‏ سؤال‏های آزمون مذکور محاسبه شده است.برای بررسی معناداری تفاوت تابع آگاهی‏ آزمون‏ها به‏علت وابسته بودن داده‏ها،از آزمون t برای داده‏های وابسته استفاده شد و تابع‏ آگاهی هر آزمون که براساس مدل‏های یک و دوپارامتری و کلاسیک برآورد شده بود،با تابع آگاهی همان آزمون در مدل سه‏پارامتری مقایسه گردید.معناداری تفاوت این توابع‏ آگاهی با t آزمون شد.

به‏منظور آزمون فرضیهء دوم-تفاوت یا عدم تفاوت مدل‏ها در برآورد توانایی و سطح‏ صفت مکنون آزمودنی‏ها-از آزمون مجذور کای از نوع نیکویی برازش استفاده شد تا مدل‏های یک و دوپارامتری و کلاسیک را در مقایسه با مدل سه‏پارامتری آزمون کند. برای این منظور،ابتدا نمرات به مقیاس استاندارد یا Z برده شدند و سپس به ۱۲ طبقه از [۵/۲-،۳-]تا[۳،۵/۲]تقسیم گردیدند.آن‏گاه فراوانی طبقات براساس آزمون نیکویی‏ برازش با درجات آزادی‏۱- k – df مقایسه و در دو سطح معناداری ۰۵/۰ و ۰۱/۰ بررسی‏ شد.

برای بررسی و تعیین برازش یا عدم برازش هریک از مدل‏های IRT با داده‏ها،یعنی به‏ منظور آزمون فرضیهء ۳ پژوهش مبنی بر برازندگی بیش‏تر مدل سه‏پارامتری نسبت به سایر مدل‏های IRT ،نرم‏افزار BILOG از نوعی آزمون مجذور کای استفاده می‏کند.فرض صفر آزمون نیکویی برازش مدل-داده‏ها بر تناسب و برازش مدل با داده‏ها تأکید می‏ورزد و در

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۹۰)


واقع،تفاوت مدل با داده‏ها را انکار می‏کند و فرض خلاف عدم برازش را بیان می‏دارد.در عمل،سطح احتمال مجذور کای محاسبه‏شدهء هر سؤال با ۰۱/۰ و ۰۵/۰ مقایسه می‏شود. در صورت بزرگ‏تر بودن سطح احتمال هر سؤال از ۰۱/۰ یا ۰۵/۰،نتیجه گرفته می‏شود که سؤال با مدل دارای برازش نسبی(۰۵/۰> ? >01/0)یا برازش کامل(۰۵/۰< ? ) است.

پ.ابزار گردآوری داده‏ها

ابزار مورد استفاده برای گردآوری داده‏های پژوهش شامل سه آزمون بیست سؤالی‏ ریاضیات،فیزیک و درس فنی به‏صورت چهار گزینه‏ای بوده است.درس‏های مذکور جزء مواد امتحانی اصلی و مشترک آزمون‏های گزینش دانشجو در وزارت نیرو به‏شمار می‏روند.سایر مواد امتحانی تعداد آزمودنی کمی دارد.این آزمون‏ها به‏وسیلهء متخصصان‏ حیطه‏های مزبور که معمولا جزء کارشناسان وزارت نیرو هستند،طراحی و تهیه می‏شود.در مورد نحوهء اجرای ابزار تا حد قابل قبولی می‏توان شرایط استاندارد و اصولی را برای آن‏ها در نظر گرفت.از جمله در ابتدای دفترچهء آزمون دربارهء شیوهء پاسخ‏گویی به‏ سؤال‏ها،مدت زمان اجرا،وجود نمرهء منفی در آزمون،تعداد سؤال‏های هر خرده‏آزمون و …توضیحاتی ذکر شده است.

یافته‏های پژوهش

برای آزمون فرضیهء ۱،مقایسهء مدل سه‏پارامتری و مدل کلاسیک از نظر برآوردهایی‏ که برای پارامترهای سؤال‏ها به‏دست می‏دهند،از تابع آگاهی خرده‏آزمون‏ها بهره گرفته شد. تفاوت توابع آگاهی هر آزمون که حاصل مدل‏های مختلف بود،محاسبه و با آزمون t برای‏ داده‏های وابسته آزمون شد.نتایج نشان داد که نه تنها بین تابع آگاهی هر آزمون براساس‏ مدل کلاسیک تفاوت قابل توجهی دیده می‏شود و این تفاوت حتی در سطح‏ ۰۱/۰> ? و با بیش از ۹۹ درصد اطمینان معنادار است بلکه توابع آگاهی مدل‏های دو پارامتری و یک‏پارامتری نیز برای آزمون از تابع آگاهی هر خرده‏آزمون براساس مدل‏ کلاسیک در همین سطح تفاوت معناداری دارد.در واقع،با درجهء آزادی ۳۲ و مقدار t مبین ۴۵/۲ تنها توابع آگاهی آزمون‏ها بین مدل‏های یک و دوپارامتری معنادار نبود و سایر مقادیر همه تفاوت معناداری داشتند.بنابراین،می‏توان گفت علاوه بر مدل سه‏ پارامتری IRT ،حتی مدل‏های دو و یک‏پارامتری نیز پارامترهای سؤال‏ها را دقیق‏تر و مناسب‏تر از مدل کلاسیک برآورد می‏کنند و فرضیهء صفر رد و فرضیهء اوّل پژوهش با بیش‏ از ۹۹ درصد اطمینان تأیید می‏شود(جدول شمارهء ۱).

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۹۱)


جدول شمارهء ۱-محاسبهء آزمون t گروه‏های وابسته برای تفاوت بین توابع آگاهی آزمون‏ها برحسب مدل‏های مختلف

(به تصویر صفحه مراجعه شود) ۴۵/۲-۰۱/۰ t(cr) 69/1-05/0 t(cr) 32- df 33- n

فرضیهء ۲ مدعی است که مدل سه‏پارامتری نظریهء سؤال-پاسخ توانایی افراد را نسبت به‏ مدل کلاسیک اندازه‏گیری به‏گونه‏ای متفاوت و دقیق‏تر برآورد می‏کند.به این ترتیب،باید برای آزمون این فرضیه،تفاوت مدل سه‏پارامتری از مدل کلاسیک در برآورد توانایی‏ بررسی شود.به این منظور،آزمون مجذور کای بین مدل سه‏پارامتری و مدل کلاسیک‏ (البته مدل‏های دو و یک‏پارامتری نیز)اجرا شد تا تفاوت فراوانی‏های افراد در طبقات‏ مختلف آزمون شود.نتایج نشان داد که نه تنها توانایی برآوردشده برای افراد براساس مدل‏ سه‏پارامتری از مدل کلاسیک متفاوت است بلکه حتی مدل‏های دو و یک‏پارامتری نیز در برآورد پارامتر توانایی آزمودنی‏ها با مدل سه‏پارامتری تفاوت و تمایز دارد.این امر در سطح ۰۱/۰> ? هم معنی‏دار بود.از سوی دیگر،از آن‏جا که مدل سه‏پارامتری از لحاظ تعداد پارامتر مناسب‏ترین مدل برای داده‏های حاضر محسوب می‏شود و طبق نتایج آزمون‏ خوبی برازندگی،برازش و مناسبت کاملا آشکاری با داده‏های پژوهش دارد،توانایی‏ برآوردشده برای افراد را که از مدل سه‏پارامتری به‏دست آمده است،می‏توان دقیق‏تر و مناسب‏تر از توانایی حاصل از سایر مدل‏های اندازه‏گیری تلقی کرد.بنابراین،فرضیهء صفر رد و فرضیهء دوم پژوهش حاضر نیز با بیش از ۹۹ درصد اطمینان تأیید می‏شود(جدول‏ شمارهء ۲).

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۹۲)


جدول شمارهء ۲-برازندگی مدل-داده‏ها برحسب مدل‏های IRT (تعداد سؤال‏ها)

(به تصویر صفحه مراجعه شود) ۸<؟ df ؟>2 9<؟ df ؟>2 9<؟ df ؟>3

جدول شمارهء ۳-مجذور کای محاسبه‏شده بین پارامتر توانایی مدل سه‏پارامتری‏ و مدل‏های دو و یک‏پارامتری و کلاسیک

(به تصویر صفحه مراجعه شود) ۷۲۵/۲۴-۰۱/۰ X2(cr) 675/19-05/0 X2(cr) 11- df

برای آزمون فرضیهء ۳ پژوهش از نوعی آزمون خوبی برازندگی استفاده شد و برازش‏ سؤال‏های آزمون با مدل‏های یک،دو و سه‏پارامتری بررسی گردید.براساس نتایج به‏دست‏ آمده،مدل سه‏پارامتری برازش چشم‏گیری با داده‏ها داشت؛درحالی‏که نه تنها مدل دو پارامتری بلکه مدل یک‏پارامتری نیز بدون برازش شناخته شد.بنابراین،فرضیهء سوم‏ پژوهش نیز با بیش از ۹۹ درصد اطمینان و در سطح ۰۱/۰> ? معنادار شناخته شد و فرض‏ صفر رد و فرض پژوهش(خلاف)تأیید گردید.بدین ترتیب مدل سه‏پارامتری،برای‏ داده‏های آزمون‏های مورد استفاده در این پژوهش نسبت به سایر مدل‏های IRT برازنده‏تر و مناسب‏تر شناخته شد(جدول شمارهء ۳).

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۹۳)


نتیجه‏گیری

مطابق نتایج تحقیقات و مطالعات قبلی در زمینهء نظریه‏های جدید اندازه‏گیری، IRT و مقایسهء آن با نظریهء کلاسیک آزمون،این مطالعه نیز نشان داد که در سطح بالایی از اطمینان‏ می‏توان گفت:

۱.مدل‏های IRT نسبت به‏مدل کلاسیک اندازه‏گیری در برآورد پارامترهای سؤال‏ها و توانایی آزمودنی‏ها دارای مناسبت،دقت و برازندگی بیش‏تری است.این نتیجه در مورد آزمون‏های پیشرفت تحصیلی چهار گزینه‏ای که مبنای مطالعهء حاضر بوده است،با بیش از ۹۹ درصد اطمینان صدق می‏کند.

۲.در بین مدل‏های نظریهء سؤال-پاسخ (IRT) برای برآورد پارامترهای سؤال و توانایی‏ افراد،مدل سه‏پارامتری در مورد آزمون‏های پیشرفت تحصیلی چند گزینه‏ای این پژوهش، نسبت به مدل‏های یک و دوپارامتری برتری خاصی نشان داد.

۳.در بین مدل‏های یک و دوپارامتری IRT از لحاظ برآورد پارامترهای سؤال‏ براساس داده‏های خرده‏آزمون‏های حاضر،تفاوت چشم‏گیری ملاحظه نمی‏شود.ازاین‏رو می‏توان تأثیرگذاری پارامتر قدرت تشخیص سؤال‏ها را بر برآورد پارامتر دشواری چندان‏ شدید و جدی ندانست.به‏زبان دیگر،سؤال‏های مورد استفاده در خرده‏آزمون‏های این‏ مطالعه دارای قدرت تشخیص خیلی متفاوت و مؤثری نیستند اما در مورد برآورد پارامتر توانایی آزمودنی‏ها،می‏توان نتیجه گرفت که براساس داده‏های حاضر،بین مدل‏های یک و دوپارامتری در مقام مقایسه با مدل سه‏پارامتری،برآورد پارامتر توانایی تا حدی متفاوت‏ است و در مورد آزمون‏های چند گزینه‏ای پارامتر شیب بر روی برآورد پارامتر توانایی‏ تأثیر داشته است.

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۹۴)


پی‏نوشت‏ها

(۱).نظریات جدید اندازه‏گیری و روان‏سنجی نخست با اصطلاح صفت مکنون یا خصیصهء مکنون به‏شدت‏ پیوند خورد اما به‏تدریج با عنوان نظریهء سؤال-پاسخ یا Item Response Theory (با علامت اختصاری‏ IRT )یا نظریهء منحنی ویژهء سؤال رواج یافت که برای مقاصد آزمون‏سازی و تحلیل آماری داده‏ها مناسب‏تر به‏نظر می‏رسد(همبلتون،۱۹۹۳).

(۲). Information Function

(۳).برای تحلیل داده‏ها در آمریکا به‏وسیلهء نرم‏افزار BILOG ،علاوه بر مساعی فراوان استاد محترم راهنما آقای دکتر سلیمی‏زاده،نگارنده بر خود لازم می‏داند از عنایت استاد ارجمند دکتر جمال عابدی،عضو هیأت علمی دانشگاه مذکور که تحلیل داده‏ها را مسیر کردند،تشکر و سپاس‏گزاری نماید.

منابع

۱. Allen.J.M.. Yen, M.W.(1979).Introduction to measurement thoery.California: wadsworth.

۲.ثرندایک،رابرت؛روان‏سنجی کاربردی،مترجم:حیدر علی هومن،تهران،دانشگاه تهران،۱۳۶۹.

(به تصویر صفحه مراجعه شود)

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۹۵)


(به تصویر صفحه مراجعه شود) ۱۲.هومن،حیدر علی؛مقایسهء مدل تک‏پارامتری راش و مدل دوپارامتری،پایان‏نامهء منتشرنشدهء دانشگاه‏ آزاد اسلامی،۱۳۷۳.

۱۳.هومن،حیدر علی؛هوش‏آزمای انفرادی تهران-استنفرد-بینه.فصلنامهء علوم تربیتی دانشگاه تهران، ویژه‏نامهء روان‏سنجی،دورهء جدید،سال یکم،شمارهء ۱-۴.

۱۴.انصارین،علیرضا؛برآورد خم ویژهء سؤال و توانایی آزمودنی‏ها در مقیاس تهران-استنفرد-بینه بر پایهء مدل دوپارامتری صفت مکنون،پایان‏نامهء منتشرنشدهء دانشگاه آزاد اسلامی،۱۳۷۱.

۱۵.هومن،حیدر علی؛روش تهیهء آزمون هوش،تهران،دانشگاه تهران،۱۳۷۵.

۱۶. Divgi.D.R.(1986).Does the Rasch model really work for multiple choice items? Not if you look closely.Journal of Educational Measurement, 23,283-298.

۱۷. Hambleton, R.K.. Cook.L.L.(1983).The robustness of item response models and effects of test length and sample size on the precision of ability estimates.In D.J.Weiss(Ed.). New horizons in testing(pp.31-49).New York:Academic Press.

تعلیم و تربیت (آموزش و پرورش) » شماره ۶۷ (صفحه ۹۶)


پایان مقاله

Mahmoud Hosseini

من یک معلم هستم. سال ۱۳۸۸ بازنشسته شد‌ه‌ام. با توجه به علاقه فراوان درزمینه فعالیتهای آموزشی و فرهنگی واستفاده از تجربه های دیگران و نیز انتقال تجربه‌های شخصی خودپیرامون اینگونه مسایل درمهر ماه ۱۳۸۸ وبلاگ بانک مقالات آموزشی وفرهنگی را به آدرس www.mh1342.blogfa.com   راه‌اندازی نمودم. خوشبختانه وبلاگ با استقبال خوبی مواجه شد و درهمین راستا به صورت مستقل سایت خود را نیز با آدرس http://www.eduarticle.me فعال نمودم. اکنون سایت با امکانات بیشتر و طراحی زیباتر دردسترس مراجعه کنندگان قرار گرفته است. قابل ذکر است کلیه مطالب و مقالات ارایه شده در این سایت الزاما مورد تایید نمی‌باشدو تمام مسؤولیت آن به عهده نویسندگان آنها است.استفاده ازیادداشتها و مقالات شخصی و اختصاصی سایت با ذکرمنبع بلامانع است.مطالبی که در صفحه نخست مشاهده می‌کنید مطالبی است که روزانه به سایت اضافه می گردد برای دیدن مطالب مورد نظر به فهرست اصلی ،کلید واژه‌های پایین مطلبها و موتور جستجو سایت مراجعه بفرمایید.مراجعه کنندگان عزیز در صورت تمایل می توانند مقالات و نوشته های خود را ارسال تا با کمال افتخار به نام خودشان ثبت گردد. ممکن است نام نویسندگان و منابع  بعضی از مقاله ها سهوا از قلم افتاده باشد که قبلا عذر خواهی می‌نمایم .در ضمن باید ازهمراهی همکار فرهنگی خانم وحیده وحدتی کمال تشکر را داشته باشم.        منتظرنظرات وپیشنهادهای سازنده شما هستم. 

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

همچنین ببینید
بستن
دکمه بازگشت به بالا