Диагностика: как я анализировал результаты теста Лидеры России

Все отмечают качественную организацию конкурса Лидеры России. Работающие тесты, приятные интерфейсы, постоянная обратная связь, напоминания и отчеты. Отчеты особенно прекрасны. Помимо общих рекомендаций, авторы вполне конкретно дают рекомендации по развитию компетенций. Пройдемся по двум отчетам, что я получил и попытаемся взвешенно определить, чем же мы займемся в предстоящем году.

Небольшой дисклеймер. В правилах конкурса запрещено делиться заданиями и результатами выполнения заданий. Я не знаю распространяется ли данное правило на добровольное раскрытие итоговых баллов, поэтому данный пост является информационным, выражающим личное мнение и понимание автора и любое совпадение чьими-либо реальными результатами является случайным. Пост призван проиллюстрировать мой подход к анализу любой информации, а не конкретного теста.

Также, когда я писал этот текст, еще не вышла вот эта заметка от организаторов конкурса Лидеры России, в которой раскрывается механизм изменения шкалы Т-баллов. Радует, что одна из моих гипотез была правильной и забавно читать неправильные. 

Т-балл

Организаторы конкурса приготовили небольшое видео, объясняющее что это такое. Главное, что нужно знать — ваш результат зависит от остальных участников теста. Следовательно, по результату можно судить о своем конкурентном положении относительно остальных. Ту же систему использует мой любимый GMAT. 

Что не раскрывают (или я не нашел, что тоже допускаю), так это как устроен банк заданий и тест. Исходя из того, что им нужно получить нормальное распределение, очевидно, что в банке заданий есть и простые вопросы, и сложные, и сверхсложные. Мой вопрос — адаптируется ли тест подобно GMAT налету? То есть несколько раз получив правильный ответ на простые и сложные вопросы, начинает ли он засыпать тебя сверх-сложными? Или количество вопросов каждого типа фиксировано? Учитывая тайм-менеджмент (фиксированное время на каждый вопрос), я склоняюсь скорее к тому, что количество вопросов каждого типа фиксировано. 

Второй вопрос, на который у меня нет ответа, так это почему многие шкалы ограничены 100% правильных ответов и 100% правильных ответов не соответствуют 800 баллам?

Шкала Т-баллов по тесту способностей к абстрактному мышлению

Значит ли это, что из банка заданий были исключены еще более сложные вопросы или не была использована возможность отслеживать скорость ответов? Другая версия — это то, что привязка количества правильных ответов к Т-баллам — иллюстративна? И это скорее процентиль от общего пула результатов участников? Короче к тому, как эта система представлена и то как представлены результаты, в моем понимании — не очень хорошо стыкуется. Возможно из-за того, что после того, как результат получен, он еще раз адаптируется для сравнения разных тестов между собой, или организаторы дают больший вес одним предметам компетенций перед другими. Короче если есть человек, который может распутать для меня этот клубок — буду рад пообщаться. За неимением такого человека, попробуем посмотреть на результат более пристально.

Анализировать результат можно против шкалы Т-баллов, где 800 — это полное владение предметом в понимании составителей тестов, включая самые трудные и неотвечаемые вопросы и против процента правильных ответов. Посмотрим по-разному.

Сначала посмотрим мой результат

Мой результат теста Лидеры России
Мои результаты теста Лидеры России по двум блокам

Как я уже упоминал, организаторы адаптировали шкалы, поэтому по каждому предмету компетенций максимальное значение шкалы было свое и только одна шкала равнялась 800. Поэтому смотрим вместе с максимальными значениями.

Мой результат теста Лидеры России в отношении к максимальным шкалам
Мои результаты по отношению к максимальным значениям шкал по каждому блоку

Здесь важно упомянуть, что каждый результат организаторы наделяли характеристикой, вроде «Ваши результаты ВЫШЕ СРЕДНЕГО», вот мои результаты по каждому предмету компетенций:

  • Анализ вербальной информации — выше среднего;
  • Анализ числовой информации — высокий;
  • Способности к абстрактному мышлению — выше среднего;
  • Культура — невысокие;
  • Русский язык — средние;
  • Право и экономика — средние;
  • История — средние;
  • География — средние.

Здесь идет уточнение, что это результаты относительно других участников Конкурса. Прежде чем я начну разбирать каждый предмет, еще раз отмечу следующий интересный момент. Сравним результаты Анализа вербальной информации и Истории. В Т-баллах оба этих предметах были оценены равно. Но максимальные шкалы у них разные.

Сравнение результатов по блокам Анализ вербальной информации и История
Сравнение результатов в тестах на Анализ вербальной информаии и Истории

Уточню параметры по столбцам, для большего понимания:

  • Максимальный балл — это какой максимальный балл на шкале для данного теста (поскольку все кроме одного, отличаются от 800);
  • Процент от шкалы — это процент моего результата от максимального балла;
  • Мой результат — это тот результат, который я получаю за тест и который идет в вычисление среднего значения по тестам;
  • Процент правильных ответов — информация из отчета (шкалы), по каждому предмету привязка к результату своя, пример я приводил выше;
  • Процент от 800 — это результат от максимальной заявленной в объясняющем видео шкалы 800. 

Что меня привлекает в этой паре результатов? Она наглядно показывает, как операторы теста оценивают результаты теста в зависимости от результатов участников.

Я могу попробовать сделать вывод, что тест по Анализу вербальной информации был самым сложным для участников. Его шкала осталась максимальной, а мой результат (довольно посредственный если смотреть на шкалу) был удостоен характеристики «Выше среднего».

С другой стороны, тест на Историю давался участникам лучше, следовательно, был проще, а значит является менее ценным для организаторов для выявления выдающихся участников. Мой результат с бОльшим, чем в предыдущем тесте количеством правильных ответов был удостоен характеристики «Средний».

Такой вывод идет вразрез с моей теорией, что планировать свою подготовку стоит исходя из достижения 800 баллов, а скорее действительно ориентироваться на результаты данные организаторами. Но делать это нужно, немного другим способом.

Если ориентироваться на характеристику «У вас средние результаты», то логично будет именно здесь сконцентрировать свои усилия. Никто не любит быть средним. Но это может быть не самым эффективным способом. Вполне возможно, что лучше будет сконцентрироваться на самых ценных предметах компетенций. Например, в Анализе вербальной информации я могу потенциально взять еще 225 баллов [ПРОВЕРИТЬ МОГУ ЛИ Я ПОКАЗЫВАТЬ ЦИФРЫ], будучи уже «Выше среднего», тогда как в Истории только 100. Понимаете, о чем я?

Переход между этапами

Вообще, почему важно понимать, как начисляются баллы? Баллы отвечают за переход между этапами и судя по всему ранжируют участников ДО того, как начнется этап субъективной оценки (другими людьми).

Чтобы перейти с Этапа 1 на Этап 2 нужно было получить 511 баллов. С Этапа 2 на Этап 3, нужно в сумме за первые два этапа нужно набрать 1108 баллов, или 597 баллов только за второй этап. Это очень интересный нюанс, потому что, если посмотреть на максимальное количество баллов по тестам второго этапа, видно, что второй этап гораздо жёстче в плане отбора.

Баллы по этапам — это средне по набору тестов в этапе. То есть средний балл по первым трем и по вторым пяти. На первом этапе можно было набрать 773 балла, а на втором этапе только 670.

В моем случае, я хорошо справился с первым этапом.

Тесты первого этапа очень простые, но ограничиваются по времени. Я бы предпочел иметь общий пул, а не отдельные таймеры на каждую задачу. Мое скромное мнение — это то, что существенная часть ошибок происходила от недостатка времени. В том числе моих. Поэтому если я решусь концентрироваться на этом блоке, то подтягивать нужно будет не навыки «по сути», а навыки скорочтения с экрана и учиться пользоваться калькулятором, вместо любимого экселя. Не смотря на большое количество ошибок, я смог выполнить его лучше, чем большая часть пула участников.

Тесты второго этапа, для меня, сложнее. Это знания фактов, которые нужно вытаскивать из головы, а не из гугла. Моя сверх-способность, которую я восхвалял и всем советую развивать (учиться грамотно пользоваться поисковиками), здесь сыграла со мной злую шутку. Отдельно стоит поговорить о причинах моего культурного и исторического невежества.

Предварительные ласки с результатами закончены. Можно переходить к постановке задач.

Потенциал

Чуть выше я писал о том, что некоторые области для развития могут принести существенно больший возврат на инвестиции в плане баллов. Вот так выглядит мой потенциал в каждой области.

Потенциальное количество баллов, которое я могу добрать в каждом из блоков тестрирования
Потенциал по баллам в каждом блоке тестирования
Доля неправильных ответов в тесте Лидеры России
Доля неправильных ответов в каждом блоке тестирования

Я пробовал взвесить результаты по-разному и против разных параметров, но сделать еще более четкую дифференциацию не получилось. Потенциал рассчитывался как мой результат против максимума шкалы. Существенно выделяется Культура. Дальше я сделаю следующее разделение.

Тесты из первого блока, с которыми я справился хорошо потому что остальные справились плохо имеют хороший потенциал. Особенно Анализ вербальной информации и Способности к абстрактному мышлению. Казалось бы, что сконцентрироваться здесь — это хорошее решение. Но здесь может быть несколько ловушек.

  1. Тест оказался сложным для всех участников. Как я писал выше — одна из возможных причин — это недостаток времени на каждое задание. В следующем сезоне данный блок может быть адаптирован — увеличен лимит времени или сделан таймер на весь блок тестирования. Это существенно снизит сложность теста без изменения банка заданий. Тогда работа над мета-навыками будет проделана впустую. 
  2. Вторая причина сложности, в том, что у банка заданий может быть очень крутая кривая сложности. И мне повезло заскочить чуть выше, чем всем остальным. Тогда улучшение этих областей компетенций может забрать существенное количество времени, тогда как те же усилия в других областях дадут пропорционально больший результат. 
Мое представление о кривой сложности тестов Лидеры России
Иллюстративно — кривая сложности первого блока тестовых заданий

То есть принимая решение ставить в приоритет этот блок заданий — мы делаем ставку на неизменность настроек теста и верим в то, что проблема была именно в таймере, а не в кривой сложности. В то же время, мы верим в то, что кривая сложности, на самом деле не такая крутая и вполне может быть побита (важно учитывать, что в отличии от других тестов, мы не можем бесконечно гонять тестовые модули, как, например, в GMAT, об этом стоит поговорить отдельно). 

Второй блок тестирования, на мой взгляд, существенно прозрачнее, в плане подготовки. Здесь также стоит вопрос кривой сложности, но учитывая результаты пула участников и мое восприятие собственной компетентности я склонен не рефлексировать на тему мета-уровня. Вторая неизвестная, которая могла бы дать чуть больше контекста — это количество участников, которые прошли во второй этап тестирования. По максимальным баллам мы видим, что тесты второго этапа были проще для всех участников. Мы так же знаем, что организаторы предварительно тестировали вопросы и отбросили все, на которые ответило меньше 40% от фокусной группы. В то же время, какой-то отсев участников на первом этапе произошел и пул участников стал сильнее. На сколько сильнее?

Отсев участников конкурса Лидеры  России по этапам тестирования
Участники по этапам в тысячах — пока нет статистики по промежуточной части и количеству полуфиналистов

Серьезных проблем в этом блоке у меня нет, разве что, с историей. Про Культуру я упоминал. Право и экономика, География и Русский язык — все нужно подтянуть. Здесь важно помнить, что результаты по всем блокам тестирования усредняются. Следовательно, второй блок менее зависим от прогресса в одной области компетенции. То есть подтягивать все нужно равномерно.

Синергия

Напрашиваются некоторые обобщения между предметами. Из первого блока два навыка стоят особняком — Анализ числовой информации и Способности к абстрактному мышлению. Скорее всего обе эти области компетенций нам пригодятся в третьем блоке, до которого мы не дошли. О нем тоже поговорим отдельно. Анализ вербальной информации — нам нужен во всех блоках тестирования, это очевидно.

Из второго блока связаны друг с другом: Культура, География и История. При правильном подходе, целенаправленное изучение одного из этих трех будет позитивно сказываться и на остальных. Право и экономика, на мой взгляд, стоит отдельно или чуть-чуть вместе с Географией. Русский язык, как навык, отдельно, но чтение хорошей литературы (особенно из блока Культура) помогает развивать «чувство языка».

Начинают вырисовываться две классические стратегии. Коротко сформулируем их.

  1. Развитие сильных компетенций и подтягивание слабых. Здесь мы фокусируем наши основные усилия на развитие ярко выраженных сильных (относительно пула участников) сторон и параллельно делаем наши слабые стороны менее катастрофичными. В рамках данной стратегии, я бы сфокусировался на развитии компетенций первого блока тестирования и создал бы себе еще больший задел для того, чтобы «проскочить» второй этап тестирования за счет момента, созданного в первом. В рамках данной стратегии мне достаточно подтянуть два предмета в первом блоке тестирования, сделав на 4-6 ошибок меньше, и я набираю достаточно количество баллов для перехода на следующий этап.
  2. Равномерное развитие всех компетенций с фокусом на области максимальной синергии. Это более фундаментальный подход и основная работа будет проделана над компетенциями из второго блока тестирования. Особое внимание уделяется глубине темы. Например, тема Культуры, по объему — очень существенна и требует усвоения огромного количество материала (достаточно подумать о том, что придется перечитать всю хрестоматию по литературе для старших классов). А вот Право и экономику, в том разрезе, в котором она дается в тесте — проще будет подтянуть прочтением 1-2 книг. Более легкая форма триажа все равно используется. Например, как мы раньше заключили — История, не смотря на характеристику «средняя», имеет меньший потенциал, с точки зрения баллов и будет подтянута за счет синергии со смежной темой Культуры. 

Учитывая риски, которые были мной описаны ранее, я склонен принять второй вариант стратегии. Однозначно, это более трудоемкий процесс. Но и знания, которые будут получены в процессе будут более основательными и в целом помогут мне стать чуть лучше, даже вне формата участия в конкурсе.

Наш следующий шаг — это наметить себе первый план и разобрать рекомендуемую литературу от организаторов конкурса.