Психометрика и педагогические измерения

Калькулятор теории ответа на задание
(IRT)

Q: В чём отличие IRT от классической теории тестов (КТТ)?

Главное отличие — инвариантность. В КТТ параметры пункта (трудность, дискриминация) зависят от выборки испытуемых: трудный пункт на сильной выборке кажется лёгким. В IRT параметры пункта описывают его истинные свойства, независимо от группы. Кроме того, КТТ даёт одну константную стандартную ошибку для всех испытуемых, тогда как IRT вычисляет условную SE(θ) — разную для разных уровней θ. IRT поддерживает адаптивное тестирование, КТТ — нет.

Q: Когда следует применять модель Раша, а когда 2PL или 3PL?

Модель Раша (1PL) применяется, когда важна строгая инвариантность и все пункты предполагаются одинаково дискриминативными. Подходит для образовательных тестов достижений, ЕГЭ и ОГЭ. 2PL используется, когда пункты имеют существенно разную дискриминацию — например, в когнитивных тестах с открытыми ответами. 3PL применяется для MCQ-тестов, где угадывание является реальным фактором (SAT, PISA). Выбор модели подтверждается статистическими тестами подгонки (model-fit).

Q: Что такое θ (тета) в IRT?

Theta (θ) — это латентная черта, которую измеряет тест: способность, знание, установка или личностная черта. В стандартизированном виде θ распределена нормально со средним 0 и стандартным отклонением 1. Диапазон практически значимых значений: от −3 до +3. θ = 0 — средний уровень; θ = +2 — сильно выше среднего; θ = −2 — сильно ниже. Параметр b пункта находится на той же шкале: пункт наиболее информативен для испытуемых с θ ≈ b.

Q: Что такое ICC и как её интерпретировать?

ICC (Item Characteristic Curve) — кривая характеристики пункта, S-образная зависимость вероятности правильного ответа от θ. Три ключевых параметра: b — горизонтальное положение кривой (трудность, точка перегиба P = 0.5 для 1PL/2PL); a — наклон в точке перегиба (дискриминация); c — нижняя асимптота (угадывание). Хороший пункт: крутой подъём (высокое a) в диагностически важном диапазоне θ, трудность близко к порогу теста, минимальное угадывание.

Q: Что такое адаптивное тестирование (CAT) и как его строить?

CAT (Computer Adaptive Testing) — система, которая подбирает следующий пункт теста на основе текущей оценки θ испытуемого. Алгоритм: (1) начать с пункта средней трудности; (2) оценить θ методом EAP или MLE; (3) выбрать следующий пункт, максимизирующий I(θ); (4) повторять до остановки (достигнут SE-критерий или израсходованы пункты). CAT сокращает количество пунктов на 50–60% при той же точности. Требует банка из 200–500 откалиброванных пунктов по IRT.

Q: Как IRT применяется в ЕГЭ?

ФИПИ (Федеральный институт педагогических измерений) использует IRT для калибровки банков заданий ЕГЭ и ОГЭ. Параметры пунктов (трудность b, дискриминация a) оцениваются на данных предыдущих лет. Шкала первичных баллов переводится в тестовые баллы с помощью IRT-выравнивания (equating), что обеспечивает сопоставимость результатов разных годов и вариантов. Пороговые баллы устанавливаются на шкале θ.

Q: Что такое инвариантность параметров и почему она важна?

Инвариантность означает, что параметры пункта (a, b, c) остаются стабильными при оценке на разных выборках (при выполнении допущений модели). Инвариантность оценки θ означает, что результат испытуемого не зависит от того, какой набор пунктов из банка ему предъявлен. Это позволяет: сравнивать испытуемых, проходивших разные варианты теста; сравнивать результаты разных лет; строить CAT с единым банком. Инвариантность проверяется статистическими тестами (DIF-анализ — Differential Item Functioning).

Q: Как оценить θ испытуемого по его паттерну ответов?

Оценка θ по паттерну ответов выполняется итерационными методами. MLE: максимизирует функцию правдоподобия L(θ|u), где u — вектор ответов 0/1. EAP: вычисляет E[θ|u] = ∫θ·L(u|θ)·π(θ)dθ, где π(θ) — априорное распределение. MAP: максимизирует апостериорное распределение. В практике CAT θ обновляется после каждого ответа. Для ручной оценки по таблицам: сумма баллов пункта × log-правдоподобие по IRT-параметрам. Калькулятор показывает P(θ) при введённых параметрах, что помогает понять принцип оценки.

Q: Какое программное обеспечение использовать для IRT-анализа в России?

Открытые (бесплатные): R-пакет mirt (многомерный IRT, 1-4PL, политомические модели), ltm (ограниченный, только 2PL/3PL), TAM (педагогические измерения, модель Раша). Коммерческие: IRTPRO (Vector Psychometric), flexMIRT (конкурент IRTPRO), Winsteps/Facets (специализированно для Раша). Для ЕГЭ ФИПИ использует специализированное ПО на основе алгоритмов BILOG-MG. Для начала обучения рекомендуется пакет mirt в R — он бесплатный, поддерживает все основные модели и активно развивается.

Рассчитайте кривые характеристики пунктов (ICC), информационные функции (IIF/TIF) и стандартную ошибку измерения по моделям Раша, 2PL и 3PL. Инструмент для разработчиков тестов ЕГЭ, ОГЭ и международных исследований PISA/TIMSS.

Калькулятор теории IRT

Item Response Theory — современный психометрический подход к анализу тестовых данных

Модель Раша (1PL)

Однопараметрическая логистическая модель. Каждый пункт теста характеризуется только трудностью b. Дискриминация a фиксирована и равна 1.

P(θ) = e^(θ − b) / (1 + e^(θ − b))

Уровень способности θ (theta)

Диапазон: от −3 (низкие) до +3 (высокие)

Трудность задания b

Значение θ, при котором P = 0.5

Вероятность P(θ)

50.0%

Вероятность правильного ответа при θ = 0, b = 0

Разность θ − b

0.00

Если > 0 — способность выше трудности

Интерпретация

Средняя

P = 0.5000

Кривая характеристики пункта (ICC) — Модель Раша

Точка перегиба при θ = b = 0; P = 0.50

Когда применяется модель Раша?

• Тесты достижений с дихотомическими ответами (верно/неверно)
• ЕГЭ, ОГЭ, ОРКиСЭ — российские стандартизированные измерения
• Когда необходима инвариантность параметров пункта
• Адаптивное тестирование (CAT) с унифицированной дискриминацией

1–3PL

Модели IRT

Раш, двух- и трёхпараметрические логистические

Латентная черта

Измеряемое скрытое свойство испытуемого

ICC

Кривая характеристики

Связь θ и вероятности правильного ответа

CAT

Адаптивное тестирование

Индивидуальный подбор пунктов в реальном времени

Основные модели IRT

Теория ответа на задание (Item Response Theory, IRT) — это семейство математических моделей, описывающих вероятность правильного ответа испытуемого на пункт теста как функцию латентной черты θ и параметров пункта. В отличие от классической теории тестов (КТТ), IRT обеспечивает инвариантность параметров относительно выборки.

📈

Модель Раша (1PL)

Однопараметрическая модель, разработанная датским математиком Георгом Рашем в 1960 году. Каждый пункт описывается только параметром трудности b — значением θ, при котором вероятность правильного ответа равна 50%. Дискриминация фиксирована: a = 1. Применяется в российских стандартизированных тестах ЕГЭ и ОГЭ.

P(θ) = e^(θ−b) / (1 + e^(θ−b))

📊

2-параметрическая (2PL)

Предложена Аллан Бирнбаумом в 1968 году как расширение модели Раша. Добавляет параметр дискриминации a — крутизну ICC в точке перегиба. Высокое a означает, что пункт хорошо разделяет испытуемых с близкими уровнями θ. Применяется в PISA, TIMSS и большинстве крупномасштабных оценочных программ.

P(θ) = 1 / (1 + e^(−a·(θ−b)))

📋

3-параметрическая (3PL)

Трёхпараметрическая модель добавляет параметр псевдоугадывания c — нижнюю асимптоту ICC. При очень низком θ даже слабые испытуемые имеют ненулевую вероятность правильного ответа (угадывание при множественном выборе). Используется в SAT, GRE, TIMSS для заданий с вариантами ответа.

P(θ) = c + (1−c) / (1+e^(−a·(θ−b)))

История и теория IRT/ полное руководство

Теория ответа на задание сформировалась в середине XX века как альтернатива классической теории тестов. Сегодня IRT — стандарт психометрики для крупномасштабных оценочных программ по всему миру, включая российские ЕГЭ и ОГЭ.

История: от Раша до современности

1952

Фредерик Лорд публикует статью о выборке-зависимости показателей КТТ, закладывая теоретическую основу для IRT

1960

Георг Раш (Дания) формулирует однопараметрическую логистическую модель в книге «Probabilistic Models for Some Intelligence and Attainment Tests»

1968

Аллан Бирнбаум разрабатывает двух- и трёхпараметрические модели, публикует в сборнике Лорда и Новика «Statistical Theories of Mental Test Scores»

1980

Лорд публикует «Applications of Item Response Theory to Practical Testing Problems» — фундаментальный учебник по применению IRT

2000-е

IRT внедряется в PISA (ОЭСР), TIMSS (IEA), российское ЕГЭ, ОГЭ и ОРКиСЭ как стандарт психометрического анализа

IRT vs КТТ: принципиальные различия

Критерий	КТТ	IRT
Зависимость от выборки	Параметры зависят от выборки	Инвариантность параметров
Стандартная ошибка	Одинакова для всех θ	Условная, меняется по θ
Сравнение тестов	Требует эквивалентных форм	Единая шкала θ для разных пунктов
Адаптивное тестирование	Не поддерживает CAT	Основа для CAT-систем
Сложность анализа	Простота расчётов	Требует ПО (R, IRTPRO)

Применение в российском образовании

ЕГЭ и ОГЭ (ФИПИ)

Федеральный институт педагогических измерений использует IRT-анализ для калибровки банков заданий, установки пороговых баллов и выравнивания форм ЕГЭ разных лет.

ОРКиСЭ (оценка качества)

Оценка результатов обучения в рамках ОРКиСЭ использует модель Раша для анализа диагностических работ и построения шкал образовательных достижений.

PISA и TIMSS

Международные сравнительные исследования, в которых участвует Россия, используют 2PL-модели для сравнения образовательных достижений между странами по единой шкале.

Адаптивное тестирование (CAT)

Российские ВУЗы и корпоративные учебные центры внедряют CAT-системы на основе IRT. Алгоритм подбирает следующий пункт, максимизирующий I(θ) для текущей оценки θ.

Методы оценки параметров θ

MLE (Maximum Likelihood)

Метод максимального правдоподобия. Даёт точечную оценку θ. Проблема: не определён для всех правильных/всех неправильных паттернов ответов.

EAP (Expected A Posteriori)

Байесовская оценка: математическое ожидание апостериорного распределения θ. Работает при любом паттерне ответов. Используется в CAT-системах.

MAP (Maximum A Posteriori)

Байесовская точечная оценка: мода апостериорного распределения. Компромисс между MLE и EAP. Применяется при промежуточных измерениях в CAT.

Инвариантность параметров — ключевое свойство IRT

Инвариантность означает, что параметры пункта (a, b, c) не зависят от состава группы испытуемых, а оценка θ испытуемого не зависит от набора предъявленных пунктов (при выполнении предположений модели). Это позволяет: (1) сравнивать результаты тестов разных лет через единую шкалу, (2) использовать разные формы теста без потери сопоставимости, (3) строить адаптивные тесты из единого банка. В КТТ такая инвариантность не достигается — параметры пункта зависят от выборки.

Программное обеспечение: IRTPRO (Vector Psychometric Group), flexMIRT, Winsteps (Раш), R-пакеты mirt, ltm, TAM. Для российских задач — открытый пакет TAM в R.

Допущения IRT: Унидимензиональность (тест измеряет одну латентную черту), локальная независимость пунктов (при фиксированном θ ответы независимы), монотонность ICC (вероятность растёт с θ).

Ключевые концепции IRT

Основные функции и показатели теории ответа на задание, необходимые для разработки и анализа тестов.

📈

ICC / Item Characteristic Curve

Кривая характеристики пункта

S-образная кривая, описывающая вероятность правильного ответа P(θ) как функцию латентной черты θ. Параметр b — точка перегиба (P = 0.5). Параметр a — наклон в точке перегиба (крутизна кривой). Параметр c — нижняя асимптота (вероятность угадывания). ICC — основной инструмент оценки качества тестового пункта в IRT.

📊

IIF / Item Information Function

Информационная функция пункта

Показывает, насколько точно конкретный пункт измеряет θ в каждой точке шкалы. Формула 2PL: I(θ) = a²·P·Q. Максимум достигается при θ = b, максимальное значение = a²/4. Пункты с высоким a дают больше информации. IIF суммируются для получения TIF всего теста. Используется для отбора пунктов в CAT и оптимизации банка.

📑

TIF / Test Information Function

Информационная функция теста

Суммарная точность теста: TIF(θ) = Σ I_i(θ). TIF показывает, для каких значений θ тест измеряет наиболее точно. Хорошо спроектированный тест достижений должен иметь высокую TIF в диапазоне пороговых баллов. Для аттестации — высокая TIF у порогового θ. Для CAT — равномерное покрытие шкалы.

📏

SEM / Standard Error of Measurement

Стандартная ошибка измерения

Условная стандартная ошибка SE(θ) = 1/√TIF(θ). В IRT SE меняется вдоль шкалы: меньше там, где тест наиболее информативен. 95% доверительный интервал для θ: θ ± 1.96·SE(θ). SE < 0.35 соответствует надёжности > 0.90 (приблизительно). Критически важно для принятия высокоставочных решений (ЕГЭ, аттестация).

Советы по применению IRT

Практические рекомендации для разработчиков тестов и психометристов.

1Выбирайте модель по задаче

Используйте модель Раша для образовательных тестов с дихотомической оценкой, когда важна инвариантность. Применяйте 2PL, когда пункты существенно различаются по дискриминации. 3PL — только для MCQ-тестов с реальным угадыванием, когда c значимо превышает 0.

2Контролируйте качество пунктов

Параметр дискриминации a < 0.5 — сигнал к пересмотру пункта. Трудность b за пределами [−2.5, +2.5] означает, что пункт почти никогда не даёт информации в целевом диапазоне θ. Параметр c > 0.35 указывает на серьёзную проблему с дистракторами.

3Проверяйте подгонку модели

Перед использованием IRT проверьте допущения: унидимензиональность (EFA, CFA или DETECT), локальную независимость (Q3-статистика Ингебо), монотонность ICC (непараметрический IRT). Нарушение допущений приводит к смещённым оценкам параметров.

4Оптимизируйте TIF для цели теста

Для аттестационного теста максимизируйте TIF в диапазоне порогового балла (θ = 0 на стандартизированной шкале). Для диагностики широкого диапазона — добивайтесь равномерного TIF. Для CAT — создавайте пул пунктов с разными b, покрывающими весь диапазон целевых θ.

5Используйте байесовскую оценку θ

Метод EAP предпочтительнее MLE при малом числе пунктов (менее 20) или экстремальных паттернах ответов. EAP сжимает оценки к среднему, что снижает крайние значения и улучшает надёжность оценки. Большинство CAT-систем используют EAP для оперативной оценки θ.

6Достаточный объём выборки для калибровки

Модель Раша: минимум 200–250 испытуемых. 2PL: 500–1000. 3PL: 1000–2000. При меньших выборках параметр c (угадывание) оценивается крайне ненадёжно. Для ЕГЭ ФИПИ использует выборки от 100 тысяч участников, что обеспечивает высокую точность калибровки.

Как пользоваться калькулятором

Пошаговая инструкция для анализа тестовых данных по моделям IRT.

Выберите модель IRT

Перейдите на вкладку соответствующей модели: Раша (1PL) для простых образовательных тестов, 2PL для заданий с разной дискриминацией, 3PL для MCQ с угадыванием, TIF для анализа теста в целом.

Введите параметры

Задайте уровень способности θ (от −3 до +3), трудность b, дискриминацию a (0.5–2.5) и угадывание c (0–0.35). Для TIF: параметры a и b для 5 пунктов в таблице.

Изучите ICC и графики

Калькулятор мгновенно строит кривую ICC от θ = −3 до +3. Наблюдайте, как изменение a влияет на крутизну, b — на горизонтальное смещение, c — на нижнюю асимптоту.

Интерпретируйте результаты

Оцените вероятность P(θ), информацию I(θ) и SE. Для теста: сравните TIF в целевом диапазоне θ с требованиями надёжности. SE < 0.35 — надёжность выше 0.90.

ЧАСТЫЕ ВОПРОСЫ

Часто задаваемые вопросы

Теория ответа на задание (Item Response Theory, IRT) — это семейство психометрических моделей, описывающих вероятность правильного ответа испытуемого на тестовый пункт как функцию скрытой (латентной) черты θ и параметров пункта. В отличие от классической теории тестов (КТТ), IRT обеспечивает инвариантность: параметры пункта не зависят от выборки испытуемых, а оценка θ — от набора пунктов. Это позволяет создавать сопоставимые измерения на разных выборках и строить адаптивные тесты.