calcal.ru
Психометрика и педагогические измерения

Калькулятор теории ответа на задание (IRT)

Рассчитайте кривые характеристики пунктов (ICC), информационные функции (IIF/TIF) и стандартную ошибку измерения по моделям Раша, 2PL и 3PL. Инструмент для разработчиков тестов ЕГЭ, ОГЭ и международных исследований PISA/TIMSS.

1–3PL
Модели IRT
Раш, двух- и трёхпараметрические логистические
θ
Латентная черта
Измеряемое скрытое свойство испытуемого
ICC
Кривая характеристики
Связь θ и вероятности правильного ответа
CAT
Адаптивное тестирование
Индивидуальный подбор пунктов в реальном времени

Основные модели IRT

Теория ответа на задание (Item Response Theory, IRT) — это семейство математических моделей, описывающих вероятность правильного ответа испытуемого на пункт теста как функцию латентной черты θ и параметров пункта. В отличие от классической теории тестов (КТТ), IRT обеспечивает инвариантность параметров относительно выборки.

📈

Модель Раша (1PL)

Однопараметрическая модель, разработанная датским математиком Георгом Рашем в 1960 году. Каждый пункт описывается только параметром трудности b — значением θ, при котором вероятность правильного ответа равна 50%. Дискриминация фиксирована: a = 1. Применяется в российских стандартизированных тестах ЕГЭ и ОГЭ.

P(θ) = e^(θ−b) / (1 + e^(θ−b))
📊

2-параметрическая (2PL)

Предложена Аллан Бирнбаумом в 1968 году как расширение модели Раша. Добавляет параметр дискриминации a — крутизну ICC в точке перегиба. Высокое a означает, что пункт хорошо разделяет испытуемых с близкими уровнями θ. Применяется в PISA, TIMSS и большинстве крупномасштабных оценочных программ.

P(θ) = 1 / (1 + e^(−a·(θ−b)))
📋

3-параметрическая (3PL)

Трёхпараметрическая модель добавляет параметр псевдоугадывания c — нижнюю асимптоту ICC. При очень низком θ даже слабые испытуемые имеют ненулевую вероятность правильного ответа (угадывание при множественном выборе). Используется в SAT, GRE, TIMSS для заданий с вариантами ответа.

P(θ) = c + (1−c) / (1+e^(−a·(θ−b)))

История и теория IRT/ полное руководство

Теория ответа на задание сформировалась в середине XX века как альтернатива классической теории тестов. Сегодня IRT — стандарт психометрики для крупномасштабных оценочных программ по всему миру, включая российские ЕГЭ и ОГЭ.

История: от Раша до современности

1952

Фредерик Лорд публикует статью о выборке-зависимости показателей КТТ, закладывая теоретическую основу для IRT

1960

Георг Раш (Дания) формулирует однопараметрическую логистическую модель в книге «Probabilistic Models for Some Intelligence and Attainment Tests»

1968

Аллан Бирнбаум разрабатывает двух- и трёхпараметрические модели, публикует в сборнике Лорда и Новика «Statistical Theories of Mental Test Scores»

1980

Лорд публикует «Applications of Item Response Theory to Practical Testing Problems» — фундаментальный учебник по применению IRT

2000-е

IRT внедряется в PISA (ОЭСР), TIMSS (IEA), российское ЕГЭ, ОГЭ и ОРКиСЭ как стандарт психометрического анализа

IRT vs КТТ: принципиальные различия

КритерийКТТIRT
Зависимость от выборкиПараметры зависят от выборкиИнвариантность параметров
Стандартная ошибкаОдинакова для всех θУсловная, меняется по θ
Сравнение тестовТребует эквивалентных формЕдиная шкала θ для разных пунктов
Адаптивное тестированиеНе поддерживает CATОснова для CAT-систем
Сложность анализаПростота расчётовТребует ПО (R, IRTPRO)

Применение в российском образовании

ЕГЭ и ОГЭ (ФИПИ)

Федеральный институт педагогических измерений использует IRT-анализ для калибровки банков заданий, установки пороговых баллов и выравнивания форм ЕГЭ разных лет.

ОРКиСЭ (оценка качества)

Оценка результатов обучения в рамках ОРКиСЭ использует модель Раша для анализа диагностических работ и построения шкал образовательных достижений.

PISA и TIMSS

Международные сравнительные исследования, в которых участвует Россия, используют 2PL-модели для сравнения образовательных достижений между странами по единой шкале.

Адаптивное тестирование (CAT)

Российские ВУЗы и корпоративные учебные центры внедряют CAT-системы на основе IRT. Алгоритм подбирает следующий пункт, максимизирующий I(θ) для текущей оценки θ.

Методы оценки параметров θ

MLE (Maximum Likelihood)

Метод максимального правдоподобия. Даёт точечную оценку θ. Проблема: не определён для всех правильных/всех неправильных паттернов ответов.

EAP (Expected A Posteriori)

Байесовская оценка: математическое ожидание апостериорного распределения θ. Работает при любом паттерне ответов. Используется в CAT-системах.

MAP (Maximum A Posteriori)

Байесовская точечная оценка: мода апостериорного распределения. Компромисс между MLE и EAP. Применяется при промежуточных измерениях в CAT.

Инвариантность параметров — ключевое свойство IRT

Инвариантность означает, что параметры пункта (a, b, c) не зависят от состава группы испытуемых, а оценка θ испытуемого не зависит от набора предъявленных пунктов (при выполнении предположений модели). Это позволяет: (1) сравнивать результаты тестов разных лет через единую шкалу, (2) использовать разные формы теста без потери сопоставимости, (3) строить адаптивные тесты из единого банка. В КТТ такая инвариантность не достигается — параметры пункта зависят от выборки.

Программное обеспечение: IRTPRO (Vector Psychometric Group), flexMIRT, Winsteps (Раш), R-пакеты mirt, ltm, TAM. Для российских задач — открытый пакет TAM в R.

Допущения IRT: Унидимензиональность (тест измеряет одну латентную черту), локальная независимость пунктов (при фиксированном θ ответы независимы), монотонность ICC (вероятность растёт с θ).

Ключевые концепции IRT

Основные функции и показатели теории ответа на задание, необходимые для разработки и анализа тестов.

📈

ICC / Item Characteristic Curve

Кривая характеристики пункта

S-образная кривая, описывающая вероятность правильного ответа P(θ) как функцию латентной черты θ. Параметр b — точка перегиба (P = 0.5). Параметр a — наклон в точке перегиба (крутизна кривой). Параметр c — нижняя асимптота (вероятность угадывания). ICC — основной инструмент оценки качества тестового пункта в IRT.

📊

IIF / Item Information Function

Информационная функция пункта

Показывает, насколько точно конкретный пункт измеряет θ в каждой точке шкалы. Формула 2PL: I(θ) = a²·P·Q. Максимум достигается при θ = b, максимальное значение = a²/4. Пункты с высоким a дают больше информации. IIF суммируются для получения TIF всего теста. Используется для отбора пунктов в CAT и оптимизации банка.

📑

TIF / Test Information Function

Информационная функция теста

Суммарная точность теста: TIF(θ) = Σ I_i(θ). TIF показывает, для каких значений θ тест измеряет наиболее точно. Хорошо спроектированный тест достижений должен иметь высокую TIF в диапазоне пороговых баллов. Для аттестации — высокая TIF у порогового θ. Для CAT — равномерное покрытие шкалы.

📏

SEM / Standard Error of Measurement

Стандартная ошибка измерения

Условная стандартная ошибка SE(θ) = 1/√TIF(θ). В IRT SE меняется вдоль шкалы: меньше там, где тест наиболее информативен. 95% доверительный интервал для θ: θ ± 1.96·SE(θ). SE < 0.35 соответствует надёжности > 0.90 (приблизительно). Критически важно для принятия высокоставочных решений (ЕГЭ, аттестация).

Советы по применению IRT

Практические рекомендации для разработчиков тестов и психометристов.

1Выбирайте модель по задаче

Используйте модель Раша для образовательных тестов с дихотомической оценкой, когда важна инвариантность. Применяйте 2PL, когда пункты существенно различаются по дискриминации. 3PL — только для MCQ-тестов с реальным угадыванием, когда c значимо превышает 0.

2Контролируйте качество пунктов

Параметр дискриминации a < 0.5 — сигнал к пересмотру пункта. Трудность b за пределами [−2.5, +2.5] означает, что пункт почти никогда не даёт информации в целевом диапазоне θ. Параметр c > 0.35 указывает на серьёзную проблему с дистракторами.

3Проверяйте подгонку модели

Перед использованием IRT проверьте допущения: унидимензиональность (EFA, CFA или DETECT), локальную независимость (Q3-статистика Ингебо), монотонность ICC (непараметрический IRT). Нарушение допущений приводит к смещённым оценкам параметров.

4Оптимизируйте TIF для цели теста

Для аттестационного теста максимизируйте TIF в диапазоне порогового балла (θ = 0 на стандартизированной шкале). Для диагностики широкого диапазона — добивайтесь равномерного TIF. Для CAT — создавайте пул пунктов с разными b, покрывающими весь диапазон целевых θ.

5Используйте байесовскую оценку θ

Метод EAP предпочтительнее MLE при малом числе пунктов (менее 20) или экстремальных паттернах ответов. EAP сжимает оценки к среднему, что снижает крайние значения и улучшает надёжность оценки. Большинство CAT-систем используют EAP для оперативной оценки θ.

6Достаточный объём выборки для калибровки

Модель Раша: минимум 200–250 испытуемых. 2PL: 500–1000. 3PL: 1000–2000. При меньших выборках параметр c (угадывание) оценивается крайне ненадёжно. Для ЕГЭ ФИПИ использует выборки от 100 тысяч участников, что обеспечивает высокую точность калибровки.

Как пользоваться калькулятором

Пошаговая инструкция для анализа тестовых данных по моделям IRT.

1

Выберите модель IRT

Перейдите на вкладку соответствующей модели: Раша (1PL) для простых образовательных тестов, 2PL для заданий с разной дискриминацией, 3PL для MCQ с угадыванием, TIF для анализа теста в целом.

2

Введите параметры

Задайте уровень способности θ (от −3 до +3), трудность b, дискриминацию a (0.5–2.5) и угадывание c (0–0.35). Для TIF: параметры a и b для 5 пунктов в таблице.

3

Изучите ICC и графики

Калькулятор мгновенно строит кривую ICC от θ = −3 до +3. Наблюдайте, как изменение a влияет на крутизну, b — на горизонтальное смещение, c — на нижнюю асимптоту.

4

Интерпретируйте результаты

Оцените вероятность P(θ), информацию I(θ) и SE. Для теста: сравните TIF в целевом диапазоне θ с требованиями надёжности. SE &lt; 0.35 — надёжность выше 0.90.

Часто задаваемые вопросы

Теория ответа на задание (Item Response Theory, IRT) — это семейство психометрических моделей, описывающих вероятность правильного ответа испытуемого на тестовый пункт как функцию скрытой (латентной) черты θ и параметров пункта. В отличие от классической теории тестов (КТТ), IRT обеспечивает инвариантность: параметры пункта не зависят от выборки испытуемых, а оценка θ — от набора пунктов. Это позволяет создавать сопоставимые измерения на разных выборках и строить адаптивные тесты.
Главное отличие — инвариантность. В КТТ параметры пункта (трудность, дискриминация) зависят от выборки испытуемых: трудный пункт на сильной выборке кажется лёгким. В IRT параметры пункта описывают его истинные свойства, независимо от группы. Кроме того, КТТ даёт одну константную стандартную ошибку для всех испытуемых, тогда как IRT вычисляет условную SE(θ) — разную для разных уровней θ. IRT поддерживает адаптивное тестирование, КТТ — нет.
Модель Раша (1PL) применяется, когда важна строгая инвариантность и все пункты предполагаются одинаково дискриминативными. Подходит для образовательных тестов достижений, ЕГЭ и ОГЭ. 2PL используется, когда пункты имеют существенно разную дискриминацию — например, в когнитивных тестах с открытыми ответами. 3PL применяется для MCQ-тестов, где угадывание является реальным фактором (SAT, PISA). Выбор модели подтверждается статистическими тестами подгонки (model-fit).
Theta (θ) — это латентная черта, которую измеряет тест: способность, знание, установка или личностная черта. В стандартизированном виде θ распределена нормально со средним 0 и стандартным отклонением 1. Диапазон практически значимых значений: от −3 до +3. θ = 0 — средний уровень; θ = +2 — сильно выше среднего; θ = −2 — сильно ниже. Параметр b пункта находится на той же шкале: пункт наиболее информативен для испытуемых с θ ≈ b.
ICC (Item Characteristic Curve) — кривая характеристики пункта, S-образная зависимость вероятности правильного ответа от θ. Три ключевых параметра: b — горизонтальное положение кривой (трудность, точка перегиба P = 0.5 для 1PL/2PL); a — наклон в точке перегиба (дискриминация); c — нижняя асимптота (угадывание). Хороший пункт: крутой подъём (высокое a) в диагностически важном диапазоне θ, трудность близко к порогу теста, минимальное угадывание.
CAT (Computer Adaptive Testing) — система, которая подбирает следующий пункт теста на основе текущей оценки θ испытуемого. Алгоритм: (1) начать с пункта средней трудности; (2) оценить θ методом EAP или MLE; (3) выбрать следующий пункт, максимизирующий I(θ); (4) повторять до остановки (достигнут SE-критерий или израсходованы пункты). CAT сокращает количество пунктов на 50–60% при той же точности. Требует банка из 200–500 откалиброванных пунктов по IRT.
ФИПИ (Федеральный институт педагогических измерений) использует IRT для калибровки банков заданий ЕГЭ и ОГЭ. Параметры пунктов (трудность b, дискриминация a) оцениваются на данных предыдущих лет. Шкала первичных баллов переводится в тестовые баллы с помощью IRT-выравнивания (equating), что обеспечивает сопоставимость результатов разных годов и вариантов. Пороговые баллы устанавливаются на шкале θ.
Инвариантность означает, что параметры пункта (a, b, c) остаются стабильными при оценке на разных выборках (при выполнении допущений модели). Инвариантность оценки θ означает, что результат испытуемого не зависит от того, какой набор пунктов из банка ему предъявлен. Это позволяет: сравнивать испытуемых, проходивших разные варианты теста; сравнивать результаты разных лет; строить CAT с единым банком. Инвариантность проверяется статистическими тестами (DIF-анализ — Differential Item Functioning).
Оценка θ по паттерну ответов выполняется итерационными методами. MLE: максимизирует функцию правдоподобия L(θ|u), где u — вектор ответов 0/1. EAP: вычисляет E[θ|u] = ∫θ·L(u|θ)·π(θ)dθ, где π(θ) — априорное распределение. MAP: максимизирует апостериорное распределение. В практике CAT θ обновляется после каждого ответа. Для ручной оценки по таблицам: сумма баллов пункта × log-правдоподобие по IRT-параметрам. Калькулятор показывает P(θ) при введённых параметрах, что помогает понять принцип оценки.
Открытые (бесплатные): R-пакет mirt (многомерный IRT, 1-4PL, политомические модели), ltm (ограниченный, только 2PL/3PL), TAM (педагогические измерения, модель Раша). Коммерческие: IRTPRO (Vector Psychometric), flexMIRT (конкурент IRTPRO), Winsteps/Facets (специализированно для Раша). Для ЕГЭ ФИПИ использует специализированное ПО на основе алгоритмов BILOG-MG. Для начала обучения рекомендуется пакет mirt в R — он бесплатный, поддерживает все основные модели и активно развивается.
Лиана Арифметова
Создатель

Лиана Арифметова

Миссия: Демократизировать сложные расчеты. Превратить страх перед числами в ясность и контроль. Девиз: «Любая повторяющаяся задача заслуживает своего калькулятора».

⚖️

Отказ от ответственности

Только для информационных целей. Все расчёты, результаты и данные, предоставляемые данным инструментом, носят исключительно ознакомительный и справочный характер. Они не являются профессиональной консультацией — медицинской, юридической, финансовой, инженерной или иной.

Точность результатов. Калькулятор основан на общепринятых формулах и методиках, однако фактические результаты могут отличаться в зависимости от индивидуальных условий, исходных данных и применяемых стандартов. Мы не гарантируем полноту, точность или актуальность приведённых расчётов.

Медицинские, финансовые и профессиональные решения должны приниматься исключительно на основании консультации с квалифицированными специалистами — врачом, финансовым советником, инженером или другим профессионалом в соответствующей области. Не используйте результаты данного инструмента как единственное основание для принятия важных решений.

Ограничение ответственности. Авторы и разработчики сервиса не несут никакой ответственности за прямой или косвенный ущерб, возникший в результате использования данных расчётов. Пользователь принимает на себя всю ответственность за интерпретацию и применение полученных результатов.

Похожие инструменты

🏥

Калькулятор CHA2DS2-VASc

Оценка риска инсульта при фибрилляции предсердий по шкале CHA2DS2-VASc. Клинические рекомендации ESC.

🏥

Калькулятор сухой массы тела (LBM)

Рассчитайте сухую массу тела (LBM - Lean Body Mass) без жира. Формулы Бура, Джеймса и Юма для спортсменов.

💰

Калькулятор пособия по уходу за ребёнком до 1.5 лет

Расчёт пособия по уходу за ребёнком: 40% от среднего заработка, минимум и максимум.

🧮

Калькулятор платы за отопление

Расчёт платы за отопление по нормативу или показаниям ОДПУ. Тариф Гкал, площадь, ОДН.

🧮

Проверка контрастности WCAG

Контрастность цветов по WCAG 2.1 (AA и AAA). Доступность сайта для людей с нарушениями зрения.

💰

Калькулятор бизнес метрик: ROI, ROAS, LTV, CAC, NPS, EBITDA

Комплексный анализ бизнеса. Рассчитайте окупаемость (ROI/ROAS), эффективность маркетинга (CAC, LTV, Churn), лояльность (NPS) и прибыль (EBITDA, Маржа).

⚗️

Калькулятор пищевой химии

Активность воды, срок годности продуктов, энергетическая ценность, pH, пищевые добавки E-номера, конвертер Brix.

⚙️

Калькулятор радиаторов отопления

Количество секций радиатора для квартиры или дома. Учёт теплопотерь, стен, этажности и климата по СНиП.

🧮

Калькулятор мыловарения (SAP)

Расчёт щёлочи по SAP-числам масел для мыла с нуля. NaOH, KOH, пережир, вода.

🏗️

Калькулятор расхода утеплителя

Расчёт толщины и количества утеплителя по СП 50.13330. Минвата, пенополистирол, ЭППС, PIR, эковата.

💻

Калькулятор машинного обучения: метрики, обучение, гиперпараметры

Расчёты ML: метрики модели (F1, Precision, Recall, MCC), стоимость обучения на GPU, поиск гиперпараметров, анализ датасета, сложность модели (FLOPs) и кросс-валидация.

📐

Калькулятор комбинаторики

Перестановки P(n), сочетания C(n,k), размещения A(n,k) и вариации с повторениями. Факториал, биномиальные коэффициенты.

🏠

Калькулятор ландшафтного дизайна

Расчёт бюджета ландшафтного дизайна: газон, дорожки, растения, освещение, полив. Стоимость материалов и работ.

⚗️

Калькулятор стехиометрии: балансировка и выход реакции

Балансировка химических уравнений (онлайн), расчет лимитирующего реагента и выхода реакции (теоретический/процентный).

💻

JSON форматтер и валидатор

Онлайн форматирование, валидация и минификация JSON с русским интерфейсом. Подсветка синтаксиса, древовидный просмотр, статистика и проверка ошибок.