Калькулятор теории ответа на задание
(IRT)
Основные модели IRT
Теория ответа на задание (Item Response Theory, IRT) — это семейство математических моделей, описывающих вероятность правильного ответа испытуемого на пункт теста как функцию латентной черты θ и параметров пункта. В отличие от классической теории тестов (КТТ), IRT обеспечивает инвариантность параметров относительно выборки.
Модель Раша (1PL)
Однопараметрическая модель, разработанная датским математиком Георгом Рашем в 1960 году. Каждый пункт описывается только параметром трудности b — значением θ, при котором вероятность правильного ответа равна 50%. Дискриминация фиксирована: a = 1. Применяется в российских стандартизированных тестах ЕГЭ и ОГЭ.
2-параметрическая (2PL)
Предложена Аллан Бирнбаумом в 1968 году как расширение модели Раша. Добавляет параметр дискриминации a — крутизну ICC в точке перегиба. Высокое a означает, что пункт хорошо разделяет испытуемых с близкими уровнями θ. Применяется в PISA, TIMSS и большинстве крупномасштабных оценочных программ.
3-параметрическая (3PL)
Трёхпараметрическая модель добавляет параметр псевдоугадывания c — нижнюю асимптоту ICC. При очень низком θ даже слабые испытуемые имеют ненулевую вероятность правильного ответа (угадывание при множественном выборе). Используется в SAT, GRE, TIMSS для заданий с вариантами ответа.
История и теория IRT/ полное руководство
Теория ответа на задание сформировалась в середине XX века как альтернатива классической теории тестов. Сегодня IRT — стандарт психометрики для крупномасштабных оценочных программ по всему миру, включая российские ЕГЭ и ОГЭ.
История: от Раша до современности
Фредерик Лорд публикует статью о выборке-зависимости показателей КТТ, закладывая теоретическую основу для IRT
Георг Раш (Дания) формулирует однопараметрическую логистическую модель в книге «Probabilistic Models for Some Intelligence and Attainment Tests»
Аллан Бирнбаум разрабатывает двух- и трёхпараметрические модели, публикует в сборнике Лорда и Новика «Statistical Theories of Mental Test Scores»
Лорд публикует «Applications of Item Response Theory to Practical Testing Problems» — фундаментальный учебник по применению IRT
IRT внедряется в PISA (ОЭСР), TIMSS (IEA), российское ЕГЭ, ОГЭ и ОРКиСЭ как стандарт психометрического анализа
IRT vs КТТ: принципиальные различия
| Критерий | КТТ | IRT |
|---|---|---|
| Зависимость от выборки | Параметры зависят от выборки | Инвариантность параметров |
| Стандартная ошибка | Одинакова для всех θ | Условная, меняется по θ |
| Сравнение тестов | Требует эквивалентных форм | Единая шкала θ для разных пунктов |
| Адаптивное тестирование | Не поддерживает CAT | Основа для CAT-систем |
| Сложность анализа | Простота расчётов | Требует ПО (R, IRTPRO) |
Применение в российском образовании
ЕГЭ и ОГЭ (ФИПИ)
Федеральный институт педагогических измерений использует IRT-анализ для калибровки банков заданий, установки пороговых баллов и выравнивания форм ЕГЭ разных лет.
ОРКиСЭ (оценка качества)
Оценка результатов обучения в рамках ОРКиСЭ использует модель Раша для анализа диагностических работ и построения шкал образовательных достижений.
PISA и TIMSS
Международные сравнительные исследования, в которых участвует Россия, используют 2PL-модели для сравнения образовательных достижений между странами по единой шкале.
Адаптивное тестирование (CAT)
Российские ВУЗы и корпоративные учебные центры внедряют CAT-системы на основе IRT. Алгоритм подбирает следующий пункт, максимизирующий I(θ) для текущей оценки θ.
Методы оценки параметров θ
MLE (Maximum Likelihood)
Метод максимального правдоподобия. Даёт точечную оценку θ. Проблема: не определён для всех правильных/всех неправильных паттернов ответов.
EAP (Expected A Posteriori)
Байесовская оценка: математическое ожидание апостериорного распределения θ. Работает при любом паттерне ответов. Используется в CAT-системах.
MAP (Maximum A Posteriori)
Байесовская точечная оценка: мода апостериорного распределения. Компромисс между MLE и EAP. Применяется при промежуточных измерениях в CAT.
Инвариантность параметров — ключевое свойство IRT
Инвариантность означает, что параметры пункта (a, b, c) не зависят от состава группы испытуемых, а оценка θ испытуемого не зависит от набора предъявленных пунктов (при выполнении предположений модели). Это позволяет: (1) сравнивать результаты тестов разных лет через единую шкалу, (2) использовать разные формы теста без потери сопоставимости, (3) строить адаптивные тесты из единого банка. В КТТ такая инвариантность не достигается — параметры пункта зависят от выборки.
Программное обеспечение: IRTPRO (Vector Psychometric Group), flexMIRT, Winsteps (Раш), R-пакеты mirt, ltm, TAM. Для российских задач — открытый пакет TAM в R.
Допущения IRT: Унидимензиональность (тест измеряет одну латентную черту), локальная независимость пунктов (при фиксированном θ ответы независимы), монотонность ICC (вероятность растёт с θ).
Ключевые концепции IRT
Основные функции и показатели теории ответа на задание, необходимые для разработки и анализа тестов.
ICC / Item Characteristic Curve
Кривая характеристики пунктаS-образная кривая, описывающая вероятность правильного ответа P(θ) как функцию латентной черты θ. Параметр b — точка перегиба (P = 0.5). Параметр a — наклон в точке перегиба (крутизна кривой). Параметр c — нижняя асимптота (вероятность угадывания). ICC — основной инструмент оценки качества тестового пункта в IRT.
IIF / Item Information Function
Информационная функция пунктаПоказывает, насколько точно конкретный пункт измеряет θ в каждой точке шкалы. Формула 2PL: I(θ) = a²·P·Q. Максимум достигается при θ = b, максимальное значение = a²/4. Пункты с высоким a дают больше информации. IIF суммируются для получения TIF всего теста. Используется для отбора пунктов в CAT и оптимизации банка.
TIF / Test Information Function
Информационная функция тестаСуммарная точность теста: TIF(θ) = Σ I_i(θ). TIF показывает, для каких значений θ тест измеряет наиболее точно. Хорошо спроектированный тест достижений должен иметь высокую TIF в диапазоне пороговых баллов. Для аттестации — высокая TIF у порогового θ. Для CAT — равномерное покрытие шкалы.
SEM / Standard Error of Measurement
Стандартная ошибка измеренияУсловная стандартная ошибка SE(θ) = 1/√TIF(θ). В IRT SE меняется вдоль шкалы: меньше там, где тест наиболее информативен. 95% доверительный интервал для θ: θ ± 1.96·SE(θ). SE < 0.35 соответствует надёжности > 0.90 (приблизительно). Критически важно для принятия высокоставочных решений (ЕГЭ, аттестация).
Советы по применению IRT
Практические рекомендации для разработчиков тестов и психометристов.
1Выбирайте модель по задаче
Используйте модель Раша для образовательных тестов с дихотомической оценкой, когда важна инвариантность. Применяйте 2PL, когда пункты существенно различаются по дискриминации. 3PL — только для MCQ-тестов с реальным угадыванием, когда c значимо превышает 0.
2Контролируйте качество пунктов
Параметр дискриминации a < 0.5 — сигнал к пересмотру пункта. Трудность b за пределами [−2.5, +2.5] означает, что пункт почти никогда не даёт информации в целевом диапазоне θ. Параметр c > 0.35 указывает на серьёзную проблему с дистракторами.
3Проверяйте подгонку модели
Перед использованием IRT проверьте допущения: унидимензиональность (EFA, CFA или DETECT), локальную независимость (Q3-статистика Ингебо), монотонность ICC (непараметрический IRT). Нарушение допущений приводит к смещённым оценкам параметров.
4Оптимизируйте TIF для цели теста
Для аттестационного теста максимизируйте TIF в диапазоне порогового балла (θ = 0 на стандартизированной шкале). Для диагностики широкого диапазона — добивайтесь равномерного TIF. Для CAT — создавайте пул пунктов с разными b, покрывающими весь диапазон целевых θ.
5Используйте байесовскую оценку θ
Метод EAP предпочтительнее MLE при малом числе пунктов (менее 20) или экстремальных паттернах ответов. EAP сжимает оценки к среднему, что снижает крайние значения и улучшает надёжность оценки. Большинство CAT-систем используют EAP для оперативной оценки θ.
6Достаточный объём выборки для калибровки
Модель Раша: минимум 200–250 испытуемых. 2PL: 500–1000. 3PL: 1000–2000. При меньших выборках параметр c (угадывание) оценивается крайне ненадёжно. Для ЕГЭ ФИПИ использует выборки от 100 тысяч участников, что обеспечивает высокую точность калибровки.
Как пользоваться калькулятором
Пошаговая инструкция для анализа тестовых данных по моделям IRT.
Выберите модель IRT
Перейдите на вкладку соответствующей модели: Раша (1PL) для простых образовательных тестов, 2PL для заданий с разной дискриминацией, 3PL для MCQ с угадыванием, TIF для анализа теста в целом.
Введите параметры
Задайте уровень способности θ (от −3 до +3), трудность b, дискриминацию a (0.5–2.5) и угадывание c (0–0.35). Для TIF: параметры a и b для 5 пунктов в таблице.
Изучите ICC и графики
Калькулятор мгновенно строит кривую ICC от θ = −3 до +3. Наблюдайте, как изменение a влияет на крутизну, b — на горизонтальное смещение, c — на нижнюю асимптоту.
Интерпретируйте результаты
Оцените вероятность P(θ), информацию I(θ) и SE. Для теста: сравните TIF в целевом диапазоне θ с требованиями надёжности. SE < 0.35 — надёжность выше 0.90.
Часто задаваемые вопросы

Лиана Арифметова
Миссия: Демократизировать сложные расчеты. Превратить страх перед числами в ясность и контроль. Девиз: «Любая повторяющаяся задача заслуживает своего калькулятора».
Отказ от ответственности
Только для информационных целей. Все расчёты, результаты и данные, предоставляемые данным инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.
Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.
Медицинские, финансовые и профессиональные решения должны приниматься исключительно на основании консультации с квалифицированными специалистами — врачом, финансовым советником, инженером или другим профессионалом в соответствующей области. Не используйте результаты данного инструмента как единственное основание для принятия важных решений.
Ограничение ответственности. Авторы и разработчики сервиса не несут никакой ответственности за прямой или косвенный ущерб, возникший в результате использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию и применение полученных результатов.
Похожие инструменты
Калькулятор CHA2DS2-VASc
Оценка риска инсульта при фибрилляции предсердий по шкале CHA2DS2-VASc. Клинические рекомендации ESC.
Калькулятор сухой массы тела (LBM)
Рассчитайте сухую массу тела (LBM - Lean Body Mass) без жира. Формулы Бура, Джеймса и Юма для спортсменов.
Калькулятор пособия по уходу за ребёнком до 1.5 лет
Расчёт пособия по уходу за ребёнком: 40% от среднего заработка, минимум и максимум.
Калькулятор платы за отопление
Расчёт платы за отопление по нормативу или показаниям ОДПУ. Тариф Гкал, площадь, ОДН.
Проверка контрастности WCAG
Контрастность цветов по WCAG 2.1 (AA и AAA). Доступность сайта для людей с нарушениями зрения.
Калькулятор бизнес метрик: ROI, ROAS, LTV, CAC, NPS, EBITDA
Комплексный анализ бизнеса. Рассчитайте окупаемость (ROI/ROAS), эффективность маркетинга (CAC, LTV, Churn), лояльность (NPS) и прибыль (EBITDA, Маржа).
Калькулятор пищевой химии
Активность воды, срок годности продуктов, энергетическая ценность, pH, пищевые добавки E-номера, конвертер Brix.
Калькулятор радиаторов отопления
Количество секций радиатора для квартиры или дома. Учёт теплопотерь, стен, этажности и климата по СНиП.
Калькулятор мыловарения (SAP)
Расчёт щёлочи по SAP-числам масел для мыла с нуля. NaOH, KOH, пережир, вода.
Калькулятор расхода утеплителя
Расчёт толщины и количества утеплителя по СП 50.13330. Минвата, пенополистирол, ЭППС, PIR, эковата.
Калькулятор машинного обучения: метрики, обучение, гиперпараметры
Расчёты ML: метрики модели (F1, Precision, Recall, MCC), стоимость обучения на GPU, поиск гиперпараметров, анализ датасета, сложность модели (FLOPs) и кросс-валидация.
Калькулятор комбинаторики
Перестановки P(n), сочетания C(n,k), размещения A(n,k) и вариации с повторениями. Факториал, биномиальные коэффициенты.
Калькулятор ландшафтного дизайна
Расчёт бюджета ландшафтного дизайна: газон, дорожки, растения, освещение, полив. Стоимость материалов и работ.
Калькулятор стехиометрии: балансировка и выход реакции
Балансировка химических уравнений (онлайн), расчет лимитирующего реагента и выхода реакции (теоретический/процентный).
JSON форматтер и валидатор
Онлайн форматирование, валидация и минификация JSON с русским интерфейсом. Подсветка синтаксиса, древовидный просмотр, статистика и проверка ошибок.