Теоретичні засади тестування. Основні поняття теорії тестів


Основи теорії тестів 1. Основні поняття теорії тестів 2. Надійність тестів та шляхи її визначення

Контрольні запитання 1. Що називається тестом? 2. Які вимоги висуваються до тесту? 3. Які тести називаються автентичними? 4. Що називається надійністю тесту? 5. Перерахувати причини, що спричиняють варіацію результатів при повторному тестуванні. 6. У чому відмінність внутрішньокласової варіації від міжкласової? 7. Як практично визначити надійність тесту? 8. У чому відмінність узгодженості тестів від стабільності? 9. У чому полягає еквівалентність тестів? 10. Що таке гомогенний комплекс тестів? 11. Що таке гетерогенний комплекс тестів? 12. Шляхи підвищення надійності тестів.

Тест - це вимір чи випробування, яке з метою визначення стану чи здібностей людини. Не всякі виміри можна використовувати як тести, лише ті, які відповідають спеціальним вимогам. До них відносяться: 1. стандартизованість (процедура та умови тестування повинні бути однаковими у всіх випадках застосування тесту); 2. надійність; 3. інформативність; 4. наявність системи оцінок.

Вимоги тестів: Інформативність - ступінь точності, з якою він вимірює властивість (якість, здатність, характеристику), для оцінки якої використовується. n Надійність - ступінь збігу результатів при повторному тестуванні тих самих людей в однакових умовах. Узгодженість - (різні люди, але однакові прилади та однакові умови). n n Стандартність умов - (однакові умови при повторних вимірах). n Наявність системи оцінок - (переведення в систему оцінок. Як у школі 5 -4 -3...).

Тести, що задовольняють вимогам надійності та інформативності, називають добротними або автентичними (грец. автентико – достовірним чином)

Процес випробувань називається тестуванням; отримане результаті вимірювання числове значення - результатом тестування (чи результатом тесту). Наприклад, біг 100 м – це тест, процедура проведення забігів та хронометражу – тестування, час забігу – результат тесту.

Тести, основу яких лежать рухові завдання, називають руховими чи моторними. Результатами їх можуть бути або рухові досягнення (час проходження дистанції, кількість повторень, пройдена відстань тощо), або фізіологічні та біохімічні показники.

Іноді використовується не один, а кілька тестів, що мають єдину кінцеву мету (наприклад, оцінку стану спортсмена у періоді змагання тренування). Така група тестів називається комплексом чи батареєю тестів.

Один і той же тест, застосований до тих самих досліджуваних, повинен дати в однакових умовах збігаються результати (якщо тільки не змінилися самі досліджувані). Однак при найсуворішій стандартизації та точної апаратури результати тестування завжди дещо варіюють. Наприклад, досліджуваний, щойно показав у тесті станової динамометрії результат 215 к. р, при повторному виконанні показує лише 190 к. р.

Надійність тестів та шляхи її визначення Надійністю тесту називається ступінь збігу результатів при повторному тестуванні тих самих людей (або інших об'єктів) в однакових умовах.

Варіацію результатів при повторному тестуванні називають усередині індивідуальної, або усередині групової, або внутрішньокласової. Чотири основні причини викликають цю варіацію: 1. Зміна стану досліджуваних (втома, впрацьовування, «научення», зміна мотивації, концентрації уваги тощо). 2. Неконтрольовані зміни зовнішніх умов та апаратури (температура, вітер, вологість, напруга в електромережі, присутність сторонніх осіб тощо), тобто все те, що поєднується терміном “випадкова помилка вимірювання”.

Чотири основні причини викликають цю варіацію: 3. Зміна стану людини, яка проводить або оцінює тест (і, звичайно, заміна одного експериментатора чи судді іншим). 4. Недосконалість тесту (є такі тести, які свідомо малонадійні. Наприклад, якщо досліджувані виконують штрафні кидки в баскетбольний кошик, то навіть баскетболіст, який має високий відсоток влучень, може випадково помилитися за перших кидків).

Поняття про справжній результат тесту є абстракцією (у досвіді виміряти не можна). Тому доводиться використовувати непрямі методи. Найкращий для оцінки надійності дисперсійний аналіз із подальшим розрахунком внутрішньокласових коефіцієнтів кореляції. Дисперсійний аналіз дозволяє розкласти зареєстровану у досвіді варіацію результатів тесту на складові, що зумовлені впливом окремих факторів.

Якщо зареєструвати у досліджуваних їх результати в якомусь тесті, повторюючи цей тест у різні дні, причому кожен день робити по кілька спроб, періодично змінюючи експериментаторів, то будуть варіації: а) від випробуваного до випробуваного; n б) з кожним днем; n в) від експериментатора до експериментатора; г) від спроби до спроби. Дисперсійний аналіз дає можливість виділити та оцінити ці варіації. n

Таким чином, щоб оцінити практично надійність тесту, треба, n по-перше, виконати дисперсійний аналіз, n по-друге, розрахувати внутрішньокласовий коефіцієнт кореляції (коефіцієнт надійності).

Говорячи про надійність тестів, необхідно розрізняти їхню стабільність (відтворюваність), узгодженість, еквівалентність. n n Під стабільністю тесту розуміють відтворюваність результатів при його повторенні через певний час у однакових умовах. Повторне тестування зазвичай називають ретестом. Узгодженість тесту характеризується незалежністю результатів тестування від особистих якостей особи, яка проводить або оцінює тест.

Якщо всі тести, що входять до якогось комплексу тестів, високо еквівалентні, він називається гомогенним. Весь цей комплекс вимірює одну якусь властивість моторики людини (наприклад, комплекс, що складається зі стрибків з місця в довжину, вгору і потрійного; оцінюється рівень розвитку швидкісно-силових якостей). Якщо в комплексі немає еквівалентних тестів, тобто тести, що входять до нього, вимірюють різні властивості, то він називається гетерогенним (наприклад, комплекс, що складається зі станової динамометрії, стрибка вгору по Абалакову, бігу на 100 м).

Надійність тестів може бути підвищена до певної міри шляхом: n n n а) суворішої стандартизації тестування; б) збільшення кількості спроб; в) збільшення кількості оцінювачів (суддів, експериментів) та підвищення узгодженості їх думок; г) збільшення кількості еквівалентних тестів; буд) кращої мотивації досліджуваних.

Що таке тестування

Відповідно до IEEE Std 829-1983 Тестування- це процес аналізу ПЗ, спрямований на виявлення відмінностей між його реально існуючими та необхідними властивостями (дефект) та на оцінку властивостей ПЗ.

За ГОСТ Р ІСО МЕК 12207-99 у життєвому циклі ПЗ визначені серед інших допоміжні процеси верифікації, атестації, спільного аналізу та аудиту. Процес верифікації є процесом визначення того, що програмні продукти функціонують у повній відповідності до вимог або умов, реалізованих у попередніх роботах. Цей процес може включати аналіз, перевірку та випробування (тестування). Процес атестації є процесом визначення повноти відповідності встановлених вимог, створеної системи або програмного продукту їхньому функціональному призначенню. p align="justify"> Процес спільного аналізу є процесом оцінки станів і, при необхідності, результатів робіт (продуктів) за проектом. Процес аудиту є процесом визначення відповідності вимогам, планам та умовам договору. У сумі ці процеси і є те, що зазвичай називають тестуванням.

Тестування ґрунтується на тестових процедурах з конкретними вхідними даними, початковими умовами та очікуваним результатом, розробленими для певної мети, такою як перевірка окремої програми або верифікація відповідності на певну вимогу. Тестові процедури можуть перевіряти різні аспекти функціонування програми – від правильної роботи окремої функції до адекватного виконання бізнес-вимог.

При виконанні проекту необхідно враховувати, відповідно до яких стандартів та вимог буде проводитися тестування продукту. Які інструментальні засоби будуть (якщо будуть) використовуватися для пошуку та документування знайдених дефектів. Якщо пам'ятати про тестування з самого початку виконання проекту, тестування продукту, що розробляється, не завдасть неприємних несподіванок. Отже, і якість продукту, швидше за все, буде досить високою.

Життєвий цикл продукту та тестування

Все частіше використовуються ітеративні процеси розробки ПЗ, зокрема, технологія RUP - Rational Unified Process(Мал. 1). При використанні такого підходу тестування перестає бути процесом на відшибі, який запускається після того, як програмісти написали весь необхідний код. Робота над тестами починається з початкового етапу виявлення вимог до майбутнього продукту і тісно інтегрується з поточними завданнями. І це висуває нові вимоги до тестувальників. Їхня роль не зводиться просто до виявлення помилок якомога повніше і якомога раніше. Вони повинні брати участь у загальному процесі виявлення та усунення найістотніших ризиків проекту. Для цього на кожну ітерацію визначається мета тестування та методи її досягнення. А наприкінці кожної ітерації визначається, наскільки цієї мети досягнуто, чи потрібні додаткові випробування, і чи не потрібно змінити принципи та інструменти проведення тестів. У свою чергу кожен виявлений дефект повинен пройти через свій власний життєвий цикл.

Рис. 1. Життєвий цикл продукту RUP

Тестування зазвичай проводиться циклами, кожен із яких має конкретний список завдань та цілей. Цикл тестування може співпадати з ітерацією або відповідати певній частині. Як правило, цикл тестування проводиться для конкретного збирання системи.

Життєвий цикл програмного продукту складається із серії щодо коротких ітерацій (Рис. 2). Ітерація - це закінчений цикл розробки, що призводить до випуску кінцевого продукту або деякої його скороченої версії, яка розширюється від ітерації до ітерації, щоб стати стати закінченою системою.

Кожна ітерація включає, як правило, завдання планування робіт, аналізу, проектування, реалізації, тестування та оцінки досягнутих результатів. Однак співвідношення цих завдань може суттєво змінюватися. У відповідність до співвідношенням різних завдань в ітерації вони групуються у фази. У першій фазі - Початок - основна увага приділяється завданням аналізу. В ітераціях другої фази – Розробка – основна увага приділяється проектуванню та випробуванню ключових проектних рішень. У третій фазі - Побудова - найбільша частка завдань розробки та тестування. А в останній фазі – Передача – вирішуються найбільшою мірою завдання тестування та передачі системи Замовнику.

Рис. 2. Ітерації життєвого циклу програмного продукту

Кожна фаза має свої специфічні цілі у життєвому циклі продукту та вважається виконаною, коли ці цілі досягнуті. Всі ітерації, крім, можливо, ітерацій фази Початок, завершуються створенням функціонуючої версії системи, що розробляється.

Категорії тестування

Тести істотно розрізняються за завданнями, які за їх допомогою вирішуються, і з використовуваної техніки.

Категорії тестування Опис категорії Види тестування
Поточне тестування Набір тестів для визначення працездатності доданих нових можливостей системи.
  • тестування навантаження;
  • тестування бізнес-циклів;
  • стресове тестування.
Регресійне тестування Мета регресійного тестування полягає у перевірці, що додавання до системи не зменшили її можливостей, тобто. Тестування проводиться згідно з вимогами, які вже були виконані перед додаванням нових можливостей.
  • тестування навантаження;
  • тестування бізнес-циклів;
  • стресове тестування.

Підкатегорії тестування

Підкатегорії тестування Опис виду тестування Підвиди тестування
Тестування навантаження Застосовується для тестування всіх функцій програми. У разі послідовність тестування функцій немає значення.
  • функціональне тестування;
  • тестування інтерфейсу;
  • тестування БД
Тестування бізнес циклів Застосовується для тестування функцій програми у послідовності їхнього виклику користувачем. Наприклад, імітація всіх дій бухгалтера за 1 квартал.
  • unit-тестування (модульне тестування);
  • функціональне тестування;
  • тестування інтерфейсу;
  • тестування БД.
Стресове тестування

Застосовується для тестування

Продуктивність програми. Мета даного тестування – визначити рамки стабільної роботи програми. При цьому тестування здійснюється виклик усіх доступних функцій.

  • unit-тестування (модульне тестування);
  • функціональне тестування;
  • тестування інтерфейсу;
  • тестування БД.

Види тестування

Unit-тестування (модульне тестування) - даний вид має на увазі тестування окремих модулів програми. Для отримання максимального результату тестування проводиться одночасно із розробкою модулів.

Функціональне тестування - мета даного тестування у тому, щоб переконатися у належному функціонуванні об'єкта тестування. Тестується правильність навігації по об'єкту, а також введення, обробка та виведення даних.

Тестування БД - перевірка працездатності БД при нормальній роботі програми, в моменти перевантажень і розрахованому на багато користувачів режимі.

Unit-тестування

Для ООП звичайна організація модульного тестування полягає у тестуванні методів кожного класу, потім класу кожного пакета тощо. Поступово ми переходимо до тестування всього проекту, а попередні тести мають вигляд регресійних.

У вихідну документацію даних тестів входять тестові процедури, вхідні дані, код виконує тест, вихідні дані. Далі подано вид вихідної документації.

Функціональне тестування

Функціональне тестування об'єкта тестування планується та проводиться на основі вимог до тестування, заданих на етапі визначення вимог. Як вимоги виступають бізнес-правила, діаграми use-case, бізнес-функції, а також за наявності діаграми активності. Мета функціональних тестів у тому, щоб перевірити відповідність розроблених графічних компонентів встановленим вимогам.

Цей вид тестування може бути повністю автоматизований. Отже, він поділяється на:

  • Автоматизоване тестування (використовуватиметься у випадку, де можна перевірити вихідну інформацію).

Мета: протестувати введення, обробку та виведення даних;

  • Ручне тестування (в інших випадках).

Мета: тестується правильність виконання вимог користувача.

Необхідно виконати (програти) кожен із use-case, використовуючи як правильні значення, так і свідомо помилкові, для підтвердження правильного функціонування, за такими критеріями:

  • продукт адекватно реагує на всі дані, що вводяться (виводяться очікувані результати у відповідь на правильно введені дані);
  • продукт адекватно реагує на неправильні дані (з'являються відповідні повідомлення про помилки).

Тестування БД

Мета даного тестування - переконатися у надійності методів доступу до баз даних, у тому правильному виконанні, без порушення цілісності даних.

Необхідно послідовно використовувати максимально можливу кількість звернень до бази даних. Використовується підхід, у якому тест складається в такий спосіб, щоб «навантажити» базу послідовністю, як правильних значень, і явно помилкових. Визначається реакція БД на введення даних, оцінюються часові інтервали їхньої обробки.

Опис презентації з окремих слайдів:

1 слайд

Опис слайду:

2 слайд

Опис слайду:

Фізичними якостями прийнято називати вроджені (генетично успадковані) морфофункціональні якості, завдяки яким можлива фізична (матеріально виражена) активність людини, що отримує свій повний вияв у доцільній руховій діяльності. До основних фізичних якостей відносять силу, швидкість, витривалість, гнучкість, спритність.

3 слайд

Опис слайду:

Двигуни - це індивідуальні особливості, що визначають рівень рухових можливостей людини (В. І. Лях, 1996). Основу рухових здібностей людини становлять фізичні якості, а форму прояву – рухові вміння та навички. До рухових здібностей відносять силові, швидкісні, швидкісно-силові, рухово-координаційні здібності, загальну та специфічну витривалість

4 слайд

Опис слайду:

Схема систематизації фізичних (рухових) здібностей Фізичні (рухові) здібності Кондиційні (енергетичні) Силові Поєднання кондиційних здібностей Витривалість Швидкісні Гнучкість Координаційні (інформаційні) КС, що належать до окремих груп рухових дій, спеціальні КС

5 слайд

Опис слайду:

ОТРИМАТИ ТОЧНУ ІНФОРМАЦІЮ ПРО РІВЕННЯ РОЗВИТКУ РУХОВИХ ЗДАТНОСТІ /високий, середній, низький/ МОЖНА З ДОПОМОГЮ ТЕСТІВ /або контрольних вправ/.

6 слайд

Опис слайду:

За допомогою контрольних випробувань (тестів) можна виявити абсолютні (явні) та відносні (приховані, латентні) показники цих здібностей. Абсолютні показники характеризують рівень розвитку тих чи інших рухових здібностей без урахування їхнього впливу один на одного. Відносні показники дозволяють судити про прояви рухових здібностей з урахуванням цього впливу.

7 слайд

Опис слайду:

Вищеназвані фізичні здібності можна як існуючі потенційно, т. е. на початок виконання будь-якої рухової діяльності чи діяльностей (їх можна називати потенційними здібностями) як і які виявляються реально спочатку (зокрема і під час моторних тестів) й у процесі виконання цієї діяльності (актуальні фізичні можливості).

8 слайд

Опис слайду:

З певною часткою умовності можна говорити про ЕЛЕМЕНТАРНІ та фізичні здібності СКЛАДНІ фізичні здібності

9 слайд

Опис слайду:

РЕЗУЛЬТАТИ ДОСЛІДЖЕНЬ ДОЗВОЛЯЮТЬ ВІДМІНЮВАТИ НАСТУПНІ ФІЗИЧНІ ЗДАТНОСТІ СПЕЦІАЛЬНІ СПЕЦИФІЧНІ ЗАГАЛЬНІ КС

10 слайд

Опис слайду:

Спеціальні фізичні здібності відносяться до однорідних груп цілісних рухових дій або діяльностей: бігу, акробатичним та гімнастичним вправам на снарядах, метальних рухових дій, спортивних ігор (баскетболу, волейболу).

11 слайд

Опис слайду:

Про специфічні прояви фізичних здібностей можна говорити як про компоненти, що становлять їхню внутрішню структуру.

12 слайд

Опис слайду:

Так, основними компонентами координаційних здібностей людини є: здатність до орієнтування, рівноваги, реагування, диференціювання параметрів рухів; здатність до ритму, перебудови рухових дій, вестибулярної стійкості, довільного розслаблення м'язів. Ці можливості є специфічними.

13 слайд

Опис слайду:

Основними компонентами структури швидкісних здібностей вважають швидкість реагування, швидкість одиночного руху, частоту рухів та швидкість, що виявляється у цілісних рухових діях.

14 слайд

Опис слайду:

До проявів силових здібностей відносять: статичну (ізометричну) силу, динамічну (ізотонічну) силу – вибухову, амортизаційну силу.

15 слайд

Опис слайду:

Великою складністю відрізняється структура витривалості: аеробна, що вимагає свого прояву кисневих джерел розщеплення енергії; анаеробна (гліколітичний, креатинфосфатний джерела енергії – без участі кисню); витривалість різних м'язових груп у статичних позах – статична витривалість; витривалість у динамічних вправах, що виконуються зі швидкістю 20-90% від максимальної.

16 слайд

Опис слайду:

Менш складними є прояви (форми) гнучкості, де виділяють активну та пасивну гнучкість.

17 слайд

Опис слайду:

Під загальними фізичними здібностями слід розуміти потенційні та реалізовані можливості людини, що визначають її готовність до успішного здійснення різних за походженням та змістом рухових дій. Спеціальні фізичні здібності - це можливості людини, що визначають його готовність до успішного здійснення подібних за походженням і змістом рухових дій. Тому тести дають інформацію насамперед про рівень сформованості спеціальних та специфічних фізичних (швидкісних, координаційних, силових, витривалості, гнучкості) здібностей.

18 слайд

Опис слайду:

Спеціальні фізичні здібності - це можливості людини, що визначають його готовність до успішного здійснення подібних за походженням і змістом рухових дій. Тому тести дають інформацію насамперед про рівень сформованості спеціальних та специфічних фізичних (швидкісних, координаційних, силових, витривалості, гнучкості) здібностей.

19 слайд

Опис слайду:

Завдання тестування виявляти рівні розвитку кондиційних та координаційних здібностей, оцінювати якість технічної та тактичної підготовленості. На основі результатів тестування можна: порівнювати підготовленість як окремих учнів, так і цілих груп, які проживають у різних регіонах та країнах; проводити спортивний відбір для занять тим чи іншим видом спорту, для участі у змаганнях; здійснювати значною мірою об'єктивний контроль за навчанням (тренуванням) школярів та юних спортсменів; виявляти перевагу та недоліки застосовуваних засобів, методів навчання та форм організації занять; нарешті, доводити норми (вікові, індивідуальні) фізичної підготовленості дітей та підлітків.

20 слайд

Опис слайду:

Поряд із вищеназваними завданнями на практиці різних країн завдання тестування зводяться до наступного: навчити самих школярів визначати рівень своєї фізичної підготовленості та планувати необхідні для себе комплекси фізичних вправ; стимулювати учнів подальшого підвищення свого фізичного стану (форми); знати не так вихідний рівень розвитку рухової здатності, скільки його зміна за певний час; стимулювати учнів, які досягли високих результатів, але не стільки за високий рівень, скільки за заплановане підвищення особистих результатів.

21 слайд

Опис слайду:

Тест - це вимір чи випробування, проведене визначення здібностей чи стану людини.

22 слайд

Опис слайду:

Як тести можуть використовуватися ті випробування (проби), які відповідають спеціальним вимогам: повинна бути визначена мета застосування будь-якого тесту (або тестів); слід розробити стандартизовану методику вимірювання результатів у тестах та процедуру тестування; необхідно визначити надійність та інформативність тестів; результати тестів можуть бути представлені у відповідній системі оцінки

23 слайд

Опис слайду:

Тест. Тестування. Результат тестування Система використання тестів відповідно до поставленого завдання, організації умов, виконання тестів піддослідними, оцінка та аналіз результатів називається тестуванням. Отримане під час вимірювань числове значення - результат тестування (тесту).

24 слайд

Опис слайду:

В основі тестів, які використовуються у фізичній культурі, лежать рухові дії (фізичні вправи, рухові завдання). Такі випробування називаються руховими або моторними.

25 слайд

Опис слайду:

Відома класифікація тестів за їхньою структурою та за їх переважними показаннями розрізняють одиничний та комплексний тести. Одиничний тест служить для вимірювання та оцінки однієї ознаки (координаційної чи кондиційної здатності).

26 слайд

Опис слайду:

27 слайд

Опис слайду:

За допомогою комплексного тесту оцінюється кілька ознак або компонентів різних або однієї й тієї ж можливості. наприклад, стрибок вгору з місця (з помахом рук без помаху рук, на задану висоту).

28 слайд

Опис слайду:

29 слайд

Опис слайду:

ТЕСТИ можуть бути кондиційні випробування для оцінки силових здібностей для оцінки витривалості; з метою оцінки швидкісних здібностей; з метою оцінки гнучкості координаційні тести для оцінки координаційних здібностей, що належать до окремих самостійних груп рухових дій, що вимірюють спеціальні координаційні здібності; для оцінки специфічних координаційних здібностей - здібностей до рівноваги, орієнтування у просторі, реагування, диференціювання параметрів рухів, ритму, перебудови рухових дій, погодження (зв'язку), вестибулярної стійкості, довільного розслаблення м'язів).

30 слайд

Опис слайду:

Кожна класифікація – це своєрідні орієнтири для вибору (або створення) того типу тестів, які більшою мірою відповідають завданням тестування.

31 слайд

Опис слайду:

КРИТЕРІЇ ДОБРОТНОСТІ РУХОВИХ ТЕСТІВ Поняття «руховий тест» відповідає своєму призначенню тоді, коли тест задовольняє відповідним основним критеріям: надійності, стабільності, еквівалентності, об'єктивності, інформативності (валідності), а також додатковим критеріям: нормований. Тести, що відповідають вимогам надійності та інформативності, називають добротними, або автентичними (достовірними).

32 слайд

Опис слайду:

Під надійністю тесту розуміють ступінь точності, з якою він оцінює певну рухову здатність незалежно від вимог того, хто її оцінює. Надійність проявляється у ступеня збігу результатів при повторному тестуванні тих самих людей за однакових умов; це стабільність чи стійкість результату тесту індивіда при повторному проведенні контрольної вправи. Іншими словами, дитина у групі обстежуваних за результатами повторних тестувань (наприклад, показників стрибків, часу бігу, дальності метання) стабільно зберігає своє рангове місце. Надійність тесту визначається за допомогою кореляційно статистичного аналізу шляхом розрахунку коефіцієнта надійності. При цьому використовують різні способи, на підставі яких судять про надійність тесту.

33 слайд

Опис слайду:

Стабільність тесту ґрунтується на залежності між першою та другою спробами, повтореними через певний час в однакових умовах одним і тим самим експериментатором. Спосіб повторного тестування визначення надійності називається ретестом. Стабільність тесту залежить від виду тесту, віку та статі піддослідних, часового інтервалу між тестом та ретестом. Наприклад, показники кондиційних тестів або морфологічних ознак при невеликих часових інтервалах стабільніші, ніж результати координаційних тестів; у старших дітей - результати стабільніші, ніж у молодших. Ретест зазвичай проводиться пізніше, як за тиждень. При триваліших інтервалах (наприклад, через місяць) стабільність навіть таких тестів, як біг на 1000 м або стрибок у довжину з місця, стає вже помітно нижчою.

34 слайд

Опис слайду:

Еквівалентність тесту Еквівалентність тесту полягає в кореляції результату тесту з результатами інших однотипних тестів. Наприклад, коли треба вибрати, який тест більш адекватно відображає швидкісні здібності: біг на 30, 50, 60 або 100 м. Ставлення до еквівалентних тестів залежить від багатьох причин. Якщо треба підвищити надійність оцінок чи висновків дослідження, тоді доцільно використати два і більше еквівалентних тестів. А якщо стоїть завдання створити батарею, що містить мінімум тестів, слід застосовувати тільки один з еквівалентних тестів. Така батарея, як зазначалося, є гетерогенною, тому що тести, що входять до неї, вимірюють різні рухові здібності. Прикладом гетерогенної батареї тестів є біг на 30 м, підтягування на перекладині, нахил уперед, біг на 1000 м.

35 слайд

Опис слайду:

Надійність тестів визначають також у порівнянні середніх оцінок парних і непарних спроб, які входять у тест. Наприклад, середню точність кидків у ціль з 1, 3, 5, 7 і 9 спроб порівнюють із середньою точністю кидків з 2, 4, 6, 8 та 10 спроб. Такий метод оцінки надійності називається методом подвоєння або розщепленням. Він використовується переважно при оцінці координаційних здібностей і в тому випадку, якщо кількість спроб, що утворюють тестовий результат, не менше шести.

36 слайд

Опис слайду:

Під об'єктивністю (узгодженістю) тесту Під об'єктивністю (узгодженістю) тесту розуміють ступінь узгодженості результатів, одержуваних на тих самих випробуваних різними експериментаторами (учителями, суддями, експертами). Для підвищення об'єктивності тестування потрібне дотримання стандартних умов проведення тесту: час тестування, місце, погодні умови; єдине матеріальне та апаратурне забезпечення; психофізіологічні фактори (обсяг та інтенсивність навантаження, мотивація); подача інформації (точна словесна постановка завдання тесту, пояснення та демонстрація). Це так звана об'єктивність проведення тесту. Говорять ще про інтерпретаційну об'єктивність, що стосується ступеня незалежності інтерпретації результатів тестування різними експериментаторами.

37 слайд

Опис слайду:

Загалом, як зазначають фахівці, надійність тестів можна підвищити різними шляхами: суворішою стандартизацією тестування, збільшенням кількості спроб, кращою мотивацією піддослідних, збільшенням кількості оцінювачів (суддів, експертів), підвищенням узгодженості їхніх думок, збільшенням кількості еквівалентних тестів. Фіксованих значень показників надійності тесту немає. Найчастіше користуються такими рекомендаціями: 0,95 - 0,99 - відмінна надійність; 0,90 - 0,94 - хороша; 0,80 - 0,89 - прийнятна; 0,70 – 0,79 – погана; 0,60 – 0,69 – для індивідуальних оцінок сумнівна, тест придатний тільки для характеристики групи піддослідних.

38 слайд

Опис слайду:

Інформативність тесту це ступінь точності, з якою він вимірює оцінювану рухову здатність або навичку. В іноземній (і вітчизняній) літературі використовують замість слова "інформативність" термін "валідність" (від англ. validity-обґрунтованість, дійсність, законність). Фактично, говорячи про інформативність, дослідник відповідає на два питання: що вимірює даний конкретний тест (батарея тестів) і який при цьому ступінь точності виміру. Розрізняють кілька видів валідності: логічну (змістовну), емпіричну (на підставі досвідчених даних) та передбачувану.

39 слайд

Опис слайду:

Важливими додатковими критеріями тестів, як зазначалося, є нормування, сумісність та економічність. Суть нормування у тому, що з основі результатів тестування можна створити норми, мають особливе значення для практики. Порівнянність тесту полягає в можливості порівнювати результати, отримані по одному або декільком формам паралельних (гомогенних) тестів. У практичному плані застосування зіставних моторних тестів знижує ймовірність того, що в результаті регулярного застосування одного і того ж тесту оцінюється не тільки і не стільки рівень здатності, скільки ступінь навички. Одночасно порівняні результати тестів підвищують достовірність висновків. Суть економічності як критерію добротності тесту у тому, що проведення тесту вимагає тривалого часу, великих матеріальних витрат та участі багатьох помічників.

40 слайд

Опис слайду:

ОРГАНІЗАЦІЯ ТЕСТУВАННЯ ПІДГОТОВЛЕНОСТІ ДІТЕЙ ШКІЛЬНОГО ВІКУ Другою важливою проблемою тестування рухових здібностей (нагадаємо, що перша - відбір інформативних тестів, є організація їх застосування. Вчитель фізичної культури повинен визначити: у які терміни краще організувати тестування, як Строки тестування узгоджуються зі шкільною програмою, яка передбачає обов'язкове дворазове тестування фізичної підготовленості учнів.

41 слайд

Опис слайду:

Знання річних змін у розвитку рухових здібностей дітей дозволяє вчителю вносити відповідні корективи у процес фізичної культури наступного навчального року. Однак учитель повинен і може проводити більш часте тестування, вести так званий оперативний контроль. Це доцільно робити для того, щоб визначити, наприклад, зміну рівня швидкісних, силових здібностей та витривалості під впливом уроків легкої атлетики протягом першої чверті. З цією метою вчитель може застосувати тести для оцінки координаційних здібностей дітей на початку та наприкінці освоєння матеріалу програми, наприклад, зі спортивних ігор, для виявлення зміни показників розвитку цих здібностей.

42 слайд

Опис слайду:

Слід враховувати, що різноманітність розв'язуваних педагогічних завдань не дозволяє надати вчителю уніфіковану методику тестування, однакових правил проведення тестів та оцінки результатів тестування. Це вимагає від експериментаторів (вчителів) прояву самостійності у вирішенні теоретико-методологічних та організаційних питань тестування. Тестування під час уроку необхідно пов'язати з його змістом. Іншими словами, застосований тест або тести за дотримання відповідних вимог (як до методу дослідження) повинні органічно входити до складу запланованих фізичних вправ. Якщо, припустимо, в дітей віком потрібно визначити рівень розвитку швидкісних здібностей чи витривалості, то необхідні тести слід запланувати у частину уроку, у якій вирішуватимуться завдання розвитку відповідних фізичних здібностей.

43 слайд

Опис слайду:

Частота проведення тестування багато в чому визначається темпами розвитку конкретних фізичних здібностей, віково-статевими та індивідуальними особливостями їх розвитку. Наприклад, щоб досягти суттєвого приросту швидкості, витривалості чи сили, потрібно кілька місяців регулярних занять (тренувань). У той самий час у тому, щоб отримати достовірний приріст гнучкості чи окремих координаційних здібностей, потрібно лише 4-12 тренувань. Досягти поліпшення фізичної якості, якщо починати з нуля, можна і за більш короткий термін. А для того, щоб покращити цю ж якість, коли вона у дитини високого рівня, потрібно більше часу. У зв'язку з цим вчитель повинен глибше вивчити особливості розвитку та вдосконалення різних рухових здібностей у дітей у різні віково-статеві періоди.

44 слайд

Опис слайду:

Оцінюючи загальної фізичної підготовленості дітей можна використовувати найрізноманітніші батареї тестів, вибір яких залежить від конкретних завдань тестування та наявності необхідних умов. Однак у зв'язку з тим, що отримані результати тестування можна оцінювати лише шляхом порівняння, доцільно вибирати тести, які широко представлені в теорії та практиці фізичного виховання дітей. Наприклад, спиратися на ті, що рекомендовані у програмі з ФК. Для порівняння загального рівня фізичної підготовленості учня або групи учнів за допомогою комплексу тестів вдаються до переведення результатів тестування на бали або очки. Зміна суми очок при повторних тестування дозволяє судити про прогрес як окремої дитини, так і групи дітей.

49 слайд

Опис слайду:

Важливою стороною тестування є проблема вибору тесту з метою оцінки конкретної фізичної здатності та загальної фізичної підготовленості.

50 слайд

Опис слайду:

Практичні рекомендації та поради. ВАЖЛИВО: Визначити (вибрати) батарею (або сукупність) необхідних тестів із докладним викладом усіх деталей їх проведення; Встановити терміни тестування (краще – 2-3 тижні вересня – 1-е тестування, 2-3 тижні травня – 2-е тестування); Відповідно до рекомендації точно визначити вік дітей на день тестування та їх стать; Розробити єдині протоколи реєстрації даних (можливо на основі використання ІКТ); Визначити коло помічників та здійснити саму процедуру тестування; Відразу провести математичну обробку даних тестування - обчислення основних статистичних параметрів (середня арифметична, помилка середньої арифметичної, стандартне відхилення, коефіцієнт варіації та оцінки достовірності відмінностей між середніми арифметичними показниками, наприклад паралель класів однієї і тієї ж різних шкіл дітей такого віку та статі ); Одним із значних етапів роботи може бути переведення результатів тестування в очки або бали. При регулярному тестуванні (2 рази на рік протягом кількох років) це дозволить вчителю мати уявлення про прогрес результатів.

51 слайд

Опис слайду:

Москва «Освіта» 2007 Книга містить найпоширеніші рухові тести з оцінки кондиційних та координаційних здібностей учнів. Посібник передбачає індивідуальний підхід вчителя фізичної культури до кожного конкретного учня з урахуванням його віку та статури.

ГЛАВА 3. СТАТИСТИЧНА ОБРОБКА РЕЗУЛЬТАТІВ ТЕСТУВАННЯ

Статистична обробка результатів тестування дозволяє з одного боку, об'єктивно визначити результати піддослідних, з іншого – оцінити якість тесту, тестових завдань, зокрема оцінити його надійність. Проблемі надійності приділено багато уваги у класичній теорії тестів. Ця теорія не втратила своєї актуальності й у час. Незважаючи на появу більш сучасних теорій, класична теорія продовжує зберігати свої позиції.

3.1. ОСНОВНІ ПОЛОЖЕННЯ КЛАСИЧНОЇ ТЕОРІЇ ТЕСТІВ

3.2. МАТРИЦЯ РЕЗУЛЬТАТІВ ТЕСТУВАННЯ

3.3. ГРАФІЧНЕ ПРЕДСТАВЛЕННЯ ТЕСТОВИХ БАЛОВ

3.4. ЗАХОДИ ЦЕНТРАЛЬНОЇ ТЕНДЕНЦІЇ

3.5. НОРМАЛЬНИЙ РОЗПОДІЛ

3.6. ДИСПЕРСІЯ ТЕСТОВИХ БАЛОВ ВИПРОБУВАНИХ

3.7. КОРЕЛЯЦІЙНА МАТРИЦЯ

3.8. НАДІЙНІСТЬ ТЕСТА

3.9. ВАЛІДНІСТЬ ТЕСТА

ЛІТЕРАТУРА

ОСНОВНІ ПОЛОЖЕННЯ КЛАСИЧНОЇ ТЕОРІЇ ТЕСТІВ

Творцем класичної теорії тестів (Classical Theory of mental tests) є відомий британський психолог, автор факторного аналізу, Чальз Едвард Спірмен (Charles Edward Spearman) (1863-1945) 1 . Він народився 10 вересня 1863 року, і чверть свого життя прослужив у британській армії. З цієї причини, ступінь доктора філософії він отримав лише у віці 41 року. Дисертаційне дослідження Ч.Спірмен виконував у Лейпцизькій лабораторії експериментальної психології під керівництвом Вільгельма Вундта (Wilhelm Wundt). У той період на Ч.Спірмена сильний вплив мали роботи Френсіса Гальтона (Francis Galton) з тестування інтелекту людини. Учнями Ч.Спірмена були R.Cattell та D.Wechsler. Серед його послідовників можна назвати A. Anastasi, J. P. Guilford, P. Vernon, C. Burt, A. Jensen.

Великий внесок у розвиток класичної теорії тестів зробив Льюїс Гуттман (Louis Guttman, 1916-1987) 3 .

Всебічно та повно класична теорія тестів вперше викладена у фундаментальній праці Гарольда Гулліксена (Gulliksen H., 1950) 4 . З того часу теорія дещо видозмінювалася, зокрема, удосконалювався математичний апарат. Класична теорія тестів у сучасному викладі наведена у книзі Crocker L., Aligna J. (1986) 5 . З вітчизняних дослідників вперше опис цієї теорії дав В. Аванесов (1989) 6 . У роботі Челишкова М.Б. (2002 р.) 7 наведено відомості про статистичне обґрунтування якості тесту.

Класична теорія тестів ґрунтується на наступних п'яти основних положеннях.

1. Емпірично отриманий результат вимірювання (X) являє собою суму справжнього результату вимірювання (T) та помилки вимірювання (E) 8:

X = T + E (3.1.1)

Величини T та E зазвичай невідомі.

2. Справжній результат виміру можна виразити як математичне очікування E(X):

3. Кореляція істинних і хибних компонентів по множині випробуваних дорівнює нулю, тобто TE = 0.

4. Помилкові компоненти двох будь-яких тестів не корелюють:

5. Помилкові компоненти одного тесту не корелюють із істинними компонентами будь-якого іншого тесту:

Крім цього, основу класичної теорії тестів становлять два визначення – паралельних та еквівалентних тестів.

ПАРАЛЕЛЬНІ тести повинні відповідати вимогам (1-5), справжні компоненти одного тесту (T 1) повинні дорівнювати справжнім компонентам іншого тесту (T 2) у кожній вибірці піддослідних, що відповідають на обидва тести. Передбачається, що T 1 =T 2 і крім того, рівні дисперсії s 1 2 = s 2 2 .

Еквівалентні тести повинні відповідати всім вимогам паралельних тестів за винятком одного: істинні компоненти одного тесту не обов'язково повинні дорівнювати справжнім компонентам іншого паралельного тесту, але відрізнятися вони повинні на ту саму константу з.

Умова еквівалентності двох тестів записується у такому вигляді:

де з 12 - константа відмінностей результатів першого та другого тестів.

На основі наведених положень побудована теорія надійності тестів 9,10.

тобто дисперсія отриманих тестових балів дорівнює сумі дисперсій істинних та помилкових компонентів.

Перепишемо цей вислів у такому вигляді:

(3.1.3)

Права частина цієї рівності є надійністю тесту ( r). Таким чином надійність тесту можна записати у вигляді:

На основі цієї формули надалі були запропоновані різні вирази для знаходження коефіцієнта надійності тесту. Надійність тесту є його найважливішу характеристику. Якщо невідома надійність, результати тестування неможливо інтерпретувати. Надійність тесту характеризує його точність як інструмент вимірювання. Висока надійність означає високу повторюваність результатів тестування за однакових умов.

У класичній теорії тестів найважливішою проблемою є визначення справжнього тестового бала досліджуваного (T). Емпіричний тестовий бал (X) залежить багатьох умов – рівня складності завдань, рівня підготовленості піддослідних, кількості завдань, умов проведення тестування тощо. У групі сильних, добре підготовлених піддослідних, результати тестування будуть, як правило, кращими. ніж у групі слабо підготовлених випробуваних. У цьому залишається відкритим питання величині міри проблеми завдань на генеральної сукупності піддослідних. Проблема у тому, що реальні емпіричні дані отримують зовсім не випадкових вибірках піддослідних. Як правило, це навчальні групи, що являють собою безліч учнів досить сильно взаємодіють між собою в процесі навчання і навчаються в умовах, які часто не повторюються для інших груп.

Знайдемо s Eіз рівняння (3.1.4)

Тут у явній формі показано залежність точності вимірювання від величини стандартного відхилення s Xта від надійності тіста r.


Основні питання: Тест як інструмент виміру. Основні теорії тестування. Функції, можливості та обмеження тестування. Застосування тестів щодо оцінки персоналу. Переваги та недоліки використання тестів. Форми та види тестових завдань. Технологія побудови завдання. Оцінка якості тесту. Достовірність та валідність. Програмне забезпечення розробки тестів. 2




Тест як інструмент виміру Основні поняття в тестології: вимір, тест, зміст та форма завдань, надійність та валідність результатів виміру. Крім того, у тестології використовуються такі поняття статистичної науки, як вибіркова та генеральна сукупність, середні показники, варіація, кореляція, регресія та ін.




Тестове завдання - це дидактично та технологічно ефективна одиниця контрольного матеріалу, частина тесту, яка відповідає вимогам предметної чистоти змісту (або одномірності), змістовної та логічної правильності, правильності форми, прийнятності геометричного образу завдання. 6




Традиційний тест є стандартизованим методом діагностики рівня і структури підготовленості. У такому тесті всі піддослідні відповідають на одні й самі завдання, в однаковий час, в однакових умовах і з однаковими правилами оцінювання відповідей. Для досягнення мети тестування можна створити безліч тестів, і всі вони можуть відповідати досягненню поставленої задачі. 8


Професіограма (від лат. Professio спеціальність + Gramma запис) система ознак, що описують ту чи іншу професію, а також включає перелік норм і вимог, що пред'являються цією професією або спеціальністю до працівника. Зокрема, професіограма може включати перелік психологічних характеристик, яким повинні відповідати представники конкретних професійних груп. 9


Основні теорії тестування Перші наукові праці з теорії тестів з'явилися на початку ХХ століття, на стику психології, соціології, педагогіки та інших, так званих поведінкових наук. Зарубіжні психологи називають цю науку психометрикою (Psychometrika), а педагоги – педагогічним виміром (Educational measurement). Незамутнена ідеологією та політикою, інтерпретація назви «тестологія» проста і прозора: наука про тести. 10


Перший етап - передісторія - з давніх-давен до кінця XIX століття, коли були поширені донаукові форми контролю знань і здібностей; другий період, класичний, продовжувався з початку 20-х до кінця 60-х років, протягом якого створювалася класична теорія тестів; третій період - технологічний - що розпочався з 70-х років - час розробки методів адаптивного тестування та навчання, методологію ефективної розробки тестів та тестових завдань для параметричної оцінки піддослідних за вимірюваною латентною якістю. 11


Функції, можливості та обмеження тестування Тести, що застосовуються при відборі, призначені для того, щоб отримати психологічний портрет кандидата, оцінити його здібності, а також професійні знання та навички. Тести дозволяють порівнювати кандидатів між собою або з еталоном, тобто ідеальним кандидатом. Тести використовують для вимірювання якостей людини, необхідні результативного виконання роботи. Деякі тести влаштовані таким чином, щоб роботодавець сам адміністрував тестування та підраховував результати. Інші вимагають послуг досвідчених консультантів, щоб забезпечити їхнє правильне застосування. 12


Обмеження використання тестів пов'язані з їх дорогим адмініструванням; - З придатністю для оцінки здібностей людини; - тести успішніші для прогнозування успішності в роботі, що містить короткі за часом професійні завдання, і не дуже зручні у випадках, коли завдання, які вирішуються на роботі, займають кілька днів або тижнів. 13








2. Використовувана термінологія має бути підібрана для конкретну цільову аудиторію. Також потрібно виключити зайві статті або статті, що включають два або більше запитань, оскільки вони іноді спантеличують респондента і ускладнюють інтерпретацію. 17


3. Щоб задовольнити всім цим вимогам, слід переглянути весь банк питань статтю за статтею та проаналізувати, якою метою є кожна з них. Наприклад, якщо тест розробляється для вимірювання аналітичних здібностей стажистів – бухгалтерів, варто подумати, що в цьому випадку означає поняття «аналітичні здібності». 18




5. Коли питання та формати підрахунку результатів обрані, їх потрібно перетворити на зручний для користувача формат, з чітко написаними інструкціями та питаннями – прикладами; так, щоб кандидати, які виконують тест, повністю розуміли, що від них вимагається. 20


6. Дуже часто на цьому етапі розробки тест включають більше питань, ніж потрібно. За деякими оцінками, втричі більше, ніж залишиться в остаточному тесті чи системі вимірювання. Тоді вихідним заходом стане перевірка тесту, що розробляється, на відносно широкій вибірці з числа існуючих працівників, щоб переконатися в тому, що всі питання легко зрозумілі. 21


7. Тести визначення знань зазвичай починаються з простих питань, поступово ускладнюються до кінця. Коли тести призначаються для вимірювання соціальних установок та особистісних характеристик, можливо, буде корисним чергувати негативно та позитивно сформульовані статті, щоб уникнути непродуманих відповідей. 22


8. Останній етап є застосування тесту на широкій репрезентативної вибірці, щоб встановити норми виконання, достовірності та валідності ще до початку його використання як інструмент відбору. Крім того, необхідно визначити справедливість тесту, щоб переконатися, що він не дискримінує жодних підгруп населення (наприклад, етнічних відмінностей). 23


Оцінка якості тесту Щоб методи відбору були достатньо результативними, вони повинні бути надійними, валідними та достовірними. Достовірність методу відбору характеризується його несхильністю до систематичних помилок при вимірі, тобто його спроможності за різних умов. 24


Насправді достовірність при винесенні суджень досягається порівнянням результатів двох і більше аналогічних тестів, проведених у різні дні. Інший шлях підвищення достовірності – порівняння результатів кількох альтернативних методів відбору (наприклад, тест та бесіда). Якщо результати подібні чи однакові, можна вважати їх вірними. 25


Надійність означає, що проведені виміри дадуть той самий результат, що й попередні, тобто результати оцінки не впливають сторонні чинники. Валідність означає, що цей метод вимірює саме те, навіщо він призначений. Максимально можлива точність інформації, що отримується спеціально розробленими методиками у наукових дослідженнях, обмежена технічними факторами і не перевищує 0,8. 26


У практиці відбору персоналу зазначається, що надійність різних методів оцінки перебуває у інтервалах: 0,1 – 0,2 – традиційне інтерв'ю; 0,2 – 0,3 – рекомендації; 0,3 – 0,5 – професійні випробування; 0,5 – 0,6 – структуроване інтерв'ю, інтерв'ю з компетенцій; 0,5 – 0,7 – когнітивні та особистісні тести; 0,6 – 0,7 – компетентнісний підхід (асесмент – центр). 27


Під обґрунтованістю розуміється те, з яким ступенем точності даний результат, метод або критерій «передбачає» майбутню результативність людини, що тестується. Обґрунтованість методів відноситься до висновків, зроблених на основі тієї чи іншої процедури, а не самої процедури. Тобто метод відбору може сам бути достовірним, але не відповідати конкретному завданню: вимірювати не те, що потрібно в даному випадку. 28


Програмне забезпечення для розробки тестів У вітчизняній практиці представлені різні комплексні програми з модулем «Психодіагностика», наприклад, програма «1 С: Зарплата та Управління Персоналом 8.0» з модулем «Психодіагностика», розроблена спільно з групою викладачів кафедри психології особистості та загальної психології факультету психології МДУ ім. М. У. Ломоносова під керівництвом д. псих. наук, проф. А. Н. Гусєва. Навчальний тренажер для розробки систем оцінки персоналу та адаптації тестових методик факультету психології ТГУ, розроблений також на базі «1С:Підприємство 8.2» фірмою Персонал Софт. 29


Література: Відбір та найм персоналу: технології тестування та оцінки / Домінік Купер, Іван Т. Робертсон, Гордон Тінлайн. - М., вид-во «Вершина, - 156 с. Психологічне забезпечення професійної діяльності: теорія та практика / За ред. Проф. Г. С. Никіфорова. - СПб.: Мова, - 816 с. 30

Вибір редакції
бульвар Рябікова, 50 Іркутськ Росія 664043 +7 (902) 546-81-72 Чи потрібна мотивація сироїду? На якій стадії сироїдіння...

Хочеться викласти свої думки щодо питання мотивації при переході на сироїдіння. Вічно її мало і невідомо звідки брати, проблема є і вона...

Дітям у школі може бути поставлене таке завдання, як написати твір на тему «Бібліотека». Кожна дитина має силу здійснити таку...

Моя улюблена казкова людина «Чиполліно». План Як звати героя? Опис...
Слива - сезонний фрукт, що має солодкий, терпкий смак і дуже приємний аромат. Поряд з вживанням свіжих плодів, сливу також...
Слива - дуже смачний і соковитий фрукт, поширений серед дачників. Її плоди дуже різноманітні, тому що мають багато сортів.
Кероб — заморський диво-продукт, який давно сподобався ревнителям здорового харчування та шанувальникам кулінарних експериментів. Чим корисний...
Любов людей до шоколаду можна порівняти з найсильнішим звиканням, від солодких виробів важко відмовитися навіть у тих випадках, коли цього...
Усі вірші М.І. Цвєтаєвої пронизані чарівним та чудовим почуттям - любов'ю. Вона не побоялася відкрити усьому світові свої почуття та...