Калькулятор теории ответа на задание
(IRT)
Основные модели IRT
Теория ответа на задание (Item Response Theory, IRT) — это семейство математических моделей, описывающих вероятность правильного ответа испытуемого на пункт теста как функцию латентной черты θ и параметров пункта. В отличие от классической теории тестов (КТТ), IRT обеспечивает инвариантность параметров относительно выборки.
Модель Раша (1PL)
Однопараметрическая модель, разработанная датским математиком Георгом Рашем в 1960 году. Каждый пункт описывается только параметром трудности b — значением θ, при котором вероятность правильного ответа равна 50%. Дискриминация фиксирована: a = 1. Применяется в российских стандартизированных тестах ЕГЭ и ОГЭ.
2-параметрическая (2PL)
Предложена Аллан Бирнбаумом в 1968 году как расширение модели Раша. Добавляет параметр дискриминации a — крутизну ICC в точке перегиба. Высокое a означает, что пункт хорошо разделяет испытуемых с близкими уровнями θ. Применяется в PISA, TIMSS и большинстве крупномасштабных оценочных программ.
3-параметрическая (3PL)
Трёхпараметрическая модель добавляет параметр псевдоугадывания c — нижнюю асимптоту ICC. При очень низком θ даже слабые испытуемые имеют ненулевую вероятность правильного ответа (угадывание при множественном выборе). Используется в SAT, GRE, TIMSS для заданий с вариантами ответа.
История и теория IRT/ полное руководство
Теория ответа на задание сформировалась в середине XX века как альтернатива классической теории тестов. Сегодня IRT — стандарт психометрики для крупномасштабных оценочных программ по всему миру, включая российские ЕГЭ и ОГЭ.
История: от Раша до современности
Фредерик Лорд публикует статью о выборке-зависимости показателей КТТ, закладывая теоретическую основу для IRT
Георг Раш (Дания) формулирует однопараметрическую логистическую модель в книге «Probabilistic Models for Some Intelligence and Attainment Tests»
Аллан Бирнбаум разрабатывает двух- и трёхпараметрические модели, публикует в сборнике Лорда и Новика «Statistical Theories of Mental Test Scores»
Лорд публикует «Applications of Item Response Theory to Practical Testing Problems» — фундаментальный учебник по применению IRT
IRT внедряется в PISA (ОЭСР), TIMSS (IEA), российское ЕГЭ, ОГЭ и ОРКиСЭ как стандарт психометрического анализа
IRT vs КТТ: принципиальные различия
| Критерий | КТТ | IRT |
|---|---|---|
| Зависимость от выборки | Параметры зависят от выборки | Инвариантность параметров |
| Стандартная ошибка | Одинакова для всех θ | Условная, меняется по θ |
| Сравнение тестов | Требует эквивалентных форм | Единая шкала θ для разных пунктов |
| Адаптивное тестирование | Не поддерживает CAT | Основа для CAT-систем |
| Сложность анализа | Простота расчётов | Требует ПО (R, IRTPRO) |
Применение в российском образовании
ЕГЭ и ОГЭ (ФИПИ)
Федеральный институт педагогических измерений использует IRT-анализ для калибровки банков заданий, установки пороговых баллов и выравнивания форм ЕГЭ разных лет.
ОРКиСЭ (оценка качества)
Оценка результатов обучения в рамках ОРКиСЭ использует модель Раша для анализа диагностических работ и построения шкал образовательных достижений.
PISA и TIMSS
Международные сравнительные исследования, в которых участвует Россия, используют 2PL-модели для сравнения образовательных достижений между странами по единой шкале.
Адаптивное тестирование (CAT)
Российские ВУЗы и корпоративные учебные центры внедряют CAT-системы на основе IRT. Алгоритм подбирает следующий пункт, максимизирующий I(θ) для текущей оценки θ.
Методы оценки параметров θ
MLE (Maximum Likelihood)
Метод максимального правдоподобия. Даёт точечную оценку θ. Проблема: не определён для всех правильных/всех неправильных паттернов ответов.
EAP (Expected A Posteriori)
Байесовская оценка: математическое ожидание апостериорного распределения θ. Работает при любом паттерне ответов. Используется в CAT-системах.
MAP (Maximum A Posteriori)
Байесовская точечная оценка: мода апостериорного распределения. Компромисс между MLE и EAP. Применяется при промежуточных измерениях в CAT.
Инвариантность параметров — ключевое свойство IRT
Инвариантность означает, что параметры пункта (a, b, c) не зависят от состава группы испытуемых, а оценка θ испытуемого не зависит от набора предъявленных пунктов (при выполнении предположений модели). Это позволяет: (1) сравнивать результаты тестов разных лет через единую шкалу, (2) использовать разные формы теста без потери сопоставимости, (3) строить адаптивные тесты из единого банка. В КТТ такая инвариантность не достигается — параметры пункта зависят от выборки.
Программное обеспечение: IRTPRO (Vector Psychometric Group), flexMIRT, Winsteps (Раш), R-пакеты mirt, ltm, TAM. Для российских задач — открытый пакет TAM в R.
Допущения IRT: Унидимензиональность (тест измеряет одну латентную черту), локальная независимость пунктов (при фиксированном θ ответы независимы), монотонность ICC (вероятность растёт с θ).
Ключевые концепции IRT
Основные функции и показатели теории ответа на задание, необходимые для разработки и анализа тестов.
ICC / Item Characteristic Curve
Кривая характеристики пунктаS-образная кривая, описывающая вероятность правильного ответа P(θ) как функцию латентной черты θ. Параметр b — точка перегиба (P = 0.5). Параметр a — наклон в точке перегиба (крутизна кривой). Параметр c — нижняя асимптота (вероятность угадывания). ICC — основной инструмент оценки качества тестового пункта в IRT.
IIF / Item Information Function
Информационная функция пунктаПоказывает, насколько точно конкретный пункт измеряет θ в каждой точке шкалы. Формула 2PL: I(θ) = a²·P·Q. Максимум достигается при θ = b, максимальное значение = a²/4. Пункты с высоким a дают больше информации. IIF суммируются для получения TIF всего теста. Используется для отбора пунктов в CAT и оптимизации банка.
TIF / Test Information Function
Информационная функция тестаСуммарная точность теста: TIF(θ) = Σ I_i(θ). TIF показывает, для каких значений θ тест измеряет наиболее точно. Хорошо спроектированный тест достижений должен иметь высокую TIF в диапазоне пороговых баллов. Для аттестации — высокая TIF у порогового θ. Для CAT — равномерное покрытие шкалы.
SEM / Standard Error of Measurement
Стандартная ошибка измеренияУсловная стандартная ошибка SE(θ) = 1/√TIF(θ). В IRT SE меняется вдоль шкалы: меньше там, где тест наиболее информативен. 95% доверительный интервал для θ: θ ± 1.96·SE(θ). SE < 0.35 соответствует надёжности > 0.90 (приблизительно). Критически важно для принятия высокоставочных решений (ЕГЭ, аттестация).
Советы по применению IRT
Практические рекомендации для разработчиков тестов и психометристов.
1Выбирайте модель по задаче
Используйте модель Раша для образовательных тестов с дихотомической оценкой, когда важна инвариантность. Применяйте 2PL, когда пункты существенно различаются по дискриминации. 3PL — только для MCQ-тестов с реальным угадыванием, когда c значимо превышает 0.
2Контролируйте качество пунктов
Параметр дискриминации a < 0.5 — сигнал к пересмотру пункта. Трудность b за пределами [−2.5, +2.5] означает, что пункт почти никогда не даёт информации в целевом диапазоне θ. Параметр c > 0.35 указывает на серьёзную проблему с дистракторами.
3Проверяйте подгонку модели
Перед использованием IRT проверьте допущения: унидимензиональность (EFA, CFA или DETECT), локальную независимость (Q3-статистика Ингебо), монотонность ICC (непараметрический IRT). Нарушение допущений приводит к смещённым оценкам параметров.
4Оптимизируйте TIF для цели теста
Для аттестационного теста максимизируйте TIF в диапазоне порогового балла (θ = 0 на стандартизированной шкале). Для диагностики широкого диапазона — добивайтесь равномерного TIF. Для CAT — создавайте пул пунктов с разными b, покрывающими весь диапазон целевых θ.
5Используйте байесовскую оценку θ
Метод EAP предпочтительнее MLE при малом числе пунктов (менее 20) или экстремальных паттернах ответов. EAP сжимает оценки к среднему, что снижает крайние значения и улучшает надёжность оценки. Большинство CAT-систем используют EAP для оперативной оценки θ.
6Достаточный объём выборки для калибровки
Модель Раша: минимум 200–250 испытуемых. 2PL: 500–1000. 3PL: 1000–2000. При меньших выборках параметр c (угадывание) оценивается крайне ненадёжно. Для ЕГЭ ФИПИ использует выборки от 100 тысяч участников, что обеспечивает высокую точность калибровки.
Как пользоваться калькулятором
Пошаговая инструкция для анализа тестовых данных по моделям IRT.
Выберите модель IRT
Перейдите на вкладку соответствующей модели: Раша (1PL) для простых образовательных тестов, 2PL для заданий с разной дискриминацией, 3PL для MCQ с угадыванием, TIF для анализа теста в целом.
Введите параметры
Задайте уровень способности θ (от −3 до +3), трудность b, дискриминацию a (0.5–2.5) и угадывание c (0–0.35). Для TIF: параметры a и b для 5 пунктов в таблице.
Изучите ICC и графики
Калькулятор мгновенно строит кривую ICC от θ = −3 до +3. Наблюдайте, как изменение a влияет на крутизну, b — на горизонтальное смещение, c — на нижнюю асимптоту.
Интерпретируйте результаты
Оцените вероятность P(θ), информацию I(θ) и SE. Для теста: сравните TIF в целевом диапазоне θ с требованиями надёжности. SE < 0.35 — надёжность выше 0.90.
Часто задаваемые вопросы
Был ли этот калькулятор полезен?
Инструмент справочный — не заменяет эксперта
Только для информационных целей. Все расчёты, результаты и данные, предоставляемые инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.
Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.
Профессиональные решения — медицинские, финансовые, инженерные — должны приниматься только после консультации с квалифицированным специалистом. Не используйте автоматический расчёт как единственное основание для важных решений.
Ограничение ответственности. Авторы и разработчики сервиса не несут ответственности за прямой или косвенный ущерб, возникший из-за использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию результатов.
Похожие калькуляторы
Калькулятор психометрики и тестологии
Расчёт альфы Кронбаха, стандартной ошибки измерения (SEM), нормирование баллов (z, T, IQ, стэнайн) и дифференцирующая способность пунктов теста.
/psychometrics-calculatorКалькулятор IQ и коэффициента интеллекта
Оценка IQ по баллу теста (Векслер, Равен, Кеттел), расчёт перцентиля и g-фактора. Краткий ориентировочный тест на интеллект. Норма 100±15.
/iq-calculatorКалькулятор профессиональной пригодности
Тест на способности и профессиональную пригодность. Оцените свои вербальные, числовые, логические и пространственные способности для выбора карьеры.
/aptitude-calculatorПсихометрический калькулятор: Z-оценка, IQ, надежность
Профессиональные психометрические расчеты. Перевод сырых баллов в стандартные шкалы (Z, T, IQ), расчет Альфы Кронбаха и нормализация тестов.
/psychometry-calculatorКалькулятор когнитивной науки: Хик, Фиттс, память и внимание
Когнитивные расчёты онлайн: закон Хика, закон Фиттса, кривая забывания Эббингауза, рабочая память Миллера, когнитивная нагрузка NASA-TLX.
/cognitive-science-calculatorКалькулятор клинической психологии: BDI, STAI, MBI, GAD-7 и PHQ-9
Клинико-психологические шкалы онлайн: депрессия Бека (BDI-II), тревожность Спилбергера (STAI), выгорание Маслач (MBI), стресс PSS-10.
/clinical-psychology-calculatorКалькулятор нейропсихологии: MMSE, MoCA, FAB и тест Струпа
Нейропсихологическая оценка онлайн: подсчёт баллов MMSE, MoCA, FAB, тест рисования часов, интерференция Струпа, индекс латерализации.
/neuropsychology-calculatorКалькулятор психологии развития: Эриксон, Эльконин, Пиаже и вехи развития
Расчёты психологии развития: стадии Эриксона, периодизация Эльконина, когнитивное развитие Пиаже, психомоторные вехи, скорректированный возраст.
/developmental-psychology-calculatorКалькулятор психологии здоровья: стресс Холмса-Раэ, копинг и качество жизни
Расчёты психологии здоровья: шкала стресса Холмса-Раэ, модель убеждений о здоровье, стадии Прохазки, копинг Лазаруса, EQ-5D, HLI.
/health-psychology-calculatorКалькулятор судебной психологии: HCR-20, CBCA, PCL-R и вменяемость
Судебно-психологические расчёты: оценка риска рецидива (HCR-20), анализ показаний (CBCA), шкала психопатии (PCL-R), вменяемость по УК РФ.
/forensic-psychology-calculatorКалькулятор психофизики: Вебер-Фехнер, Стивенс, d-prime и время реакции
Психофизические расчёты онлайн: закон Вебера-Фехнера, степенной закон Стивенса, теория обнаружения сигнала (d′), закон Хика.
/psychophysics-calculatorКалькулятор социальной психологии: социометрия, конформизм и групповая динамика
Социально-психологические расчёты онлайн: социометрический индекс, шкала Богардуса, модель Латане, Кендалл W, групповое мышление.
/social-psychology-calculatorКалькулятор педагогической психологии: ЗБР, кривая обучения и SM-2
Расчёты педагогической психологии: зона ближайшего развития (Выготский), кривая обучения, интервальное повторение SM-2, таксономия Блума.
/educational-psychology-calculatorКалькулятор спортивной психологии: Йеркс-Додсон, RPE, выгорание и POMS
Спортивно-психологические расчёты: закон Йеркса-Додсона, шкала Борга (RPE), профиль настроения POMS, выгорание, Mental Toughness.
/sports-psychology-calculatorДневник выгорания и стресса
Дневник стресса и риска эмоционального выгорания на работе. Шкалы МКБ-11 QD85 и Maslach. 16 триггеров, 11 копинг-стратегий. IndexedDB.
/dnevnik-vygoraniya-i-stresa-na-rabote-pwa