Charakterystyka testów kontrolnych w wychowaniu fizycznym. Podstawowe pojęcia teorii testów


Pomiar lub test przeprowadzany w celu określenia stanu lub zdolności sportowca nazywa się test. Nie wszystkie pomiary można wykorzystać jako testy, ale tylko te, które spełniają specjalne wymagania: standaryzacja, obecność systemu ocen, niezawodność, zawartość informacyjna, obiektywizm. Testami spełniającymi wymagania rzetelności, zawartości informacyjnej i obiektywności nazywane są testy solidny.

Proces testowania nazywa się testowanie, a powstałe wartości liczbowe to wynik testu.

Testy oparte na zadaniach motorycznych nazywane są silnik Lub silnik. W zależności od zadania stojącego przed podmiotem wyróżnia się trzy grupy testów motorycznych.

Rodzaje badań motorycznych

Nazwa testu

Zadanie dla sportowca

Wynik testu

Ćwiczenie kontrolne

Osiągnięcia motoryczne

Czas biegu na 1500 m

Standardowe testy funkcjonalne

Dla wszystkich takie same, dawkowane: 1) w zależności od ilości wykonanej pracy; 2) według wielkości zmian fizjologicznych

Wskaźniki fizjologiczne lub biochemiczne podczas standardowej pracy Wskaźniki motoryczne podczas standardowej ilości zmian fizjologicznych

Rejestracja tętna podczas standardowej pracy 1000 kgm/min Prędkość biegu przy tętnie 160 uderzeń/min

Maksymalne testy funkcjonalne

Pokaż maksymalny wynik

Wskaźniki fizjologiczne lub biochemiczne

Określenie maksymalnego długu tlenowego lub maksymalnego zużycia tlenu

Czasami stosuje się nie jeden, ale kilka testów, które mają wspólny cel końcowy. Ta grupa testów nazywa się bateria testów.

Wiadomo, że nawet przy najbardziej rygorystycznej standaryzacji i precyzyjnym sprzęcie wyniki testów zawsze się nieco różnią. Dlatego jednym z ważnych warunków wyboru dobrych testów jest ich rzetelność.

Rzetelność testu to stopień zgodności między wynikami, gdy te same osoby są wielokrotnie testowane w tych samych warunkach. Istnieją cztery główne przyczyny powodujące różnice wewnątrzosobnicze lub wewnątrzgrupowe w wynikach testów:

    zmiana stanu badanych (zmęczenie, zmiana motywacji itp.); niekontrolowane zmiany warunków zewnętrznych i sprzętu;

    zmiana stanu osoby przeprowadzającej lub oceniającej badanie (dobrostan, zmiana eksperymentatora itp.);

    niedoskonałość testu (na przykład oczywiście niedoskonałe i nierzetelne testy - rzuty wolne do kosza przed pierwszym chybieniem itp.).

Kryterium rzetelności testu może być współczynnik niezawodności, obliczony jako stosunek rzeczywistej dyspersji do dyspersji zarejestrowanej w doświadczeniu: r = prawdziwa s 2 / zarejestrowana s 2, gdzie przez wartość prawdziwą rozumie się dyspersję uzyskaną z nieskończenie dużej liczby obserwacji w tych samych warunkach; zarejestrowana wariancja pochodzi z badań eksperymentalnych. Innymi słowy, współczynnik niezawodności to po prostu proporcja prawdziwej zmienności w zmienności zarejestrowanej w eksperymencie.

Oprócz tego współczynnika używają również wskaźnik niezawodności, który jest uważany za teoretyczny współczynnik korelacji lub związek między zarejestrowanymi i prawdziwymi wartościami tego samego testu. Metoda ta jest najczęściej stosowana jako kryterium oceny jakości (rzetelności) testu.

Jedną z cech niezawodności testu jest jego równorzędność, który odzwierciedla stopień zgodności między wynikami testowania tej samej jakości (na przykład fizycznej) za pomocą różnych testów. Podejście do równoważności testów zależy od konkretnego zadania. Z jednej strony, jeśli dwa lub więcej testów jest równoważnych, ich łączne zastosowanie zwiększa wiarygodność szacunków; z drugiej strony wydaje się możliwe zastosowanie tylko jednego równoważnego testu, co uprości testowanie.

Jeżeli wszystkie testy zawarte w zestawie testów są wysoce równoważne, nazywa się je jednorodny(przykładowo, aby ocenić jakość umiejętności skokowych, należy założyć, że skoki w dal, skoki wzwyż i trójskoki będą jednorodne). Wręcz przeciwnie, jeśli w kompleksie nie ma testów równoważnych (np. do oceny ogólnej sprawności fizycznej), to wszystkie testy wchodzące w jego skład mierzą różne właściwości, tj. zasadniczo jest to kompleks heterogeniczny.

Wiarygodność testów można w pewnym stopniu zwiększyć poprzez:

    bardziej rygorystyczna standaryzacja testów;

    zwiększenie liczby prób;

    zwiększenie liczby ewaluatorów i zwiększenie spójności ich opinii;

    zwiększenie liczby testów równoważnych;

    lepsza motywacja badanych.

Testuj obiektywność Jest szczególny przypadek niezawodność, tj. niezależność wyników badań od osoby przeprowadzającej badanie.

Treść informacyjna testu– jest to stopień dokładności, z jaką mierzy właściwość (jakość sportowca), którą wykorzystuje do oceny. W różnych przypadkach te same testy mogą mieć różną zawartość informacyjną. Kwestię informatywności testu można podzielić na dwa szczegółowe pytania:

Jakie zmiany ten test? Jak dokładnie to mierzy?

Na przykład, czy możliwe jest wykorzystanie wskaźnika takiego jak MPC do oceny przygotowania biegaczy długodystansowych, a jeśli tak, to z jaką dokładnością? Czy ten test można wykorzystać w procesie kontrolnym?

Jeśli test służy do określenia stanu sportowca w momencie badania, mówi się o tym diagnostyczny zawartość informacyjna testu. Jeśli na podstawie wyników testu chcą wyciągnąć wnioski na temat możliwych przyszłych wyników sportowca, rozmawiają o tym prognostyczny Treść informacji. Test może mieć charakter diagnostyczny, ale nie prognostyczny i odwrotnie.

Stopień zawartości informacji można scharakteryzować ilościowo – na podstawie danych eksperymentalnych (tzw empiryczny treść informacyjna) i jakościowo – w oparciu o rzetelną analizę sytuacji ( logiczny Treść informacji). Chociaż w pracy praktycznej analiza logiczna lub sensowna powinna zawsze poprzedzać analizę matematyczną. Wskaźnikiem informatywności testu jest współczynnik korelacji obliczony dla zależności kryterium od wyniku w teście i odwrotnie (za kryterium przyjmuje się wskaźnik, który w sposób oczywisty odzwierciedla właściwość, która będzie mierzona za pomocą testu).

W przypadkach, gdy zawartość informacyjna któregokolwiek testu jest niewystarczająca, stosuje się baterię testów. Jednak to drugie, nawet przy wysokich odrębnych kryteriach zawartości informacji (sądząc po współczynnikach korelacji), nie pozwala na uzyskanie jednej liczby. Tutaj na ratunek może przyjść więcej. metoda złożona statystyka matematyczna – Analiza czynników. Co pozwala określić, ile i które testy współpracują ze sobą na osobnym czynniku i jaki jest stopień ich udziału w każdym czynniku. Łatwo wówczas wybrać testy (lub ich kombinacje), które najdokładniej oceniają poszczególne czynniki.

1 Jak nazywa się test?

2 Co to jest testowanie?

Ilościowe określenie jakości lub kondycji sportowca Pomiar lub test przeprowadzany w celu określenia kondycji lub zdolności sportowca Proces testowy, który ilościowo ocenia jakość lub kondycję sportowca Nie jest wymagana definicja

3 Jak nazywa się wynik testu?

Ilościowe określenie jakości lub kondycji sportowca Pomiar lub test przeprowadzany w celu określenia kondycji lub zdolności sportowca Proces testowy, który ilościowo ocenia jakość lub kondycję sportowca Nie jest wymagana definicja

4 Jakiego rodzaju są to testy? Bieg na 100 m?

5 Jakiego rodzaju są to testy? dynamometria ręczna?

Ćwiczenie kontrolne Test funkcjonalny Maksymalny test funkcjonalny

6 Do jakiego rodzaju badań należy próbka? IPC?

Ćwiczenie kontrolne Test funkcjonalny Maksymalny test funkcjonalny

7 Jakiego rodzaju są to testy? trzyminutowy bieg z metronomem?

Ćwiczenie kontrolne Test funkcjonalny Maksymalny test funkcjonalny

8 Jakiego rodzaju są to testy? maksymalna liczba podciągnięć na drążku?

Ćwiczenie kontrolne Test funkcjonalny Maksymalny test funkcjonalny

9 W jakich przypadkach test można uznać za informacyjny?

10 Kiedy test uznaje się za wiarygodny?

Możliwość powtarzalności testu przy ponownym badaniu Zdolność testu do pomiaru jakości zainteresowania sportowca Niezależność wyników testu od osoby przeprowadzającej test

11 W jakim przypadku test uznaje się za obiektywny?

Możliwość powtarzalności testu przy ponownym badaniu Zdolność testu do pomiaru jakości zainteresowania sportowca Niezależność wyników testu od osoby przeprowadzającej test

12 Jakie kryterium jest konieczne przy ocenie testu pod kątem zawartości informacyjnej?

13 Jakie kryterium jest potrzebne przy ocenie testu niezawodności?

Test T-Studenta Test F Fishera Współczynnik korelacji Współczynnik determinacji Dyspersja

14 Jakie kryterium jest potrzebne przy ocenie testu obiektywności?

Test T-Studenta Test F Fishera Współczynnik korelacji Współczynnik determinacji Dyspersja

15 Jak nazywa się zawartość informacyjna testu, jeżeli służy on do oceny stopnia wytrenowania sportowca?

16 Jakimi treściami informacyjnymi ćwiczeń kontrolnych kieruje się trener przy doborze dzieci do swoich sekcja sportowa?

Logiczna predykcyjna diagnostyka empiryczna

17 Czy analiza korelacji jest konieczna do oceny zawartości informacyjnej testów?

18 Czy do oceny zawartości informacyjnej testów konieczna jest analiza czynnikowa?

19 Czy można ocenić rzetelność testu za pomocą analizy korelacji?

20 Czy można ocenić obiektywność testu za pomocą analizy korelacji?

21 Czy testy oceniające ogólną sprawność fizyczną będą równoważne?

22 Do pomiaru tej samej jakości różnymi testami stosuje się testy...

Zaprojektowane do pomiaru tej samej jakości. Posiadające wysoką korelację między sobą. Posiadające niską korelację między sobą

PODSTAWY TEORII WYCENY

Do oceny wyników sportowych często stosuje się specjalne tabele punktów. Celem takich tabel jest przeliczenie pokazanego wyniku sportowego (wyrażonego w miarach obiektywnych) na punkty warunkowe. Prawo przeliczania wyników sportowych na punkty nazywa się Skala ocen. Skalę można określić jako wyrażenie matematyczne, tabelę lub wykres. Istnieją 4 główne typy skal stosowanych w sporcie i wychowaniu fizycznym.

Skale proporcjonalne

Regresja skali

Skale progresywne.

Skale proporcjonalne proponują przyznanie tej samej liczby punktów za równy wzrost wyników (np. za każde 0,1 s poprawy wyniku w biegu na 100 m przyznaje się 20 punktów). Takie wagi są stosowane w pięcioboju nowoczesnym, łyżwiarstwie szybkim, wyścigach narciarskich, kombinacji norweskiej, biathlonie i innych sportach.

Regresja skali sugerują, że za ten sam wzrost wyników wraz ze wzrostem osiągnięć sportowych przyznawana jest coraz mniejsza liczba punktów (przykładowo za poprawę wyniku w biegu na 100 m z 15,0 do 14,9 s dolicza się 20 punktów, a za 0,1 s w przedziale 10,0-9,9 s – tylko 15 punktów).

Skale progresywne. Tutaj im wyższy wynik sportowy, tym większy wzrost punktów za jego poprawę (na przykład za poprawę czasu biegu z 15,0 do 14,9 s dodaje się 10 punktów, a od 10,0 do 9,9 s - 100 punktów). Wagi progresywne są używane w pływaniu, niektórych rodzajach lekkoatletyki i podnoszeniu ciężarów.

Łuski esowate są rzadko stosowane w sporcie, ale są powszechnie stosowane w ocenie sprawności fizycznej (tak np. wygląda skala standardów sprawności fizycznej dla populacji USA). W tych skalach poprawa wyników mieści się w strefie bardzo niskiej i bardzo wysokie osiągnięcia są zachęcani oszczędnie; Najwięcej punktów przynosi wzrost wyników w środkowej strefie osiągnięć.

Głównymi celami oceny są:

    porównać różne osiągnięcia w tym samym zadaniu;

    porównać osiągnięcia w różnych zadaniach;

    zdefiniować standardy.

Norma V metrologia sportowa nazywa się wartością graniczną wyniku, która stanowi podstawę przydzielenia zawodnika do jednej z grup klasyfikacyjnych. Istnieją trzy rodzaje norm: porównawcze, indywidualne, należne.

Standardy porównawcze opierają się na porównaniu osób należących do tej samej populacji. Przykładowo podział ludzi na podgrupy ze względu na stopień odporności (wysoki, średni, niski) lub reaktywności (nadreaktywność, normoreaktywność, hiporeaktywność) na niedotlenienie.

Różne gradacje ocen i norm

Procent przedmiotów

Normy w skalach

Werbalny

w punktach

Percentyl

Bardzo niski

Poniżej M - 2

Od M - 2 do M - 1

Poniżej średniej

Od M-1 do M–0,5

Od M–0,5 do M+0,5

Powyżej średniej

Od M+0,5 do M+1

Od M+1 do M+2

Bardzo wysoko

Powyżej M+2

Normy te charakteryzują jedynie sukcesy porównawcze podmiotów w danej populacji, ale nie mówią nic o populacji jako całości (czy też przeciętnie). Dlatego normy porównawcze należy porównywać z danymi uzyskanymi z innych populacji i stosować w połączeniu z indywidualnymi i odpowiednimi normami.

Indywidualne normy opierają się na porównaniu wyników tego samego sportowca w różnych warunkach. Na przykład w wielu dyscyplinach sportowych nie ma związku pomiędzy masą ciała a wynikami sportowymi. Każdy sportowiec ma indywidualnie optymalną wagę, odpowiadającą jego stanowi sprawności sportowej. Normę tę można kontrolować na różnych etapach treningu sportowego.

Odpowiednie standardy opierają się na analizie tego, co człowiek musi umieć, aby skutecznie sprostać zadaniom, jakie stawia przed nim życie. Przykładem mogą być standardy poszczególnych kompleksów treningu fizycznego, prawidłowe wartości pojemności życiowej, podstawowej przemiany materii, masy i wzrostu ciała itp.

1 Czy można bezpośrednio zmierzyć jakość wytrzymałości?

2 Czy można bezpośrednio zmierzyć jakość prędkości?

3 Czy można bezpośrednio zmierzyć jakość zręczności?

4 Czy można bezpośrednio zmierzyć jakość elastyczności?

5 Czy można bezpośrednio zmierzyć siłę poszczególnych mięśni?

6 Czy ocenę można wyrazić w formie cechy jakościowej (dobra, dostateczna, zła, dostateczna itp.)?

7 Czy istnieje różnica pomiędzy skalą pomiarową a skalą ocen?

8 Co to jest skala ocen?

System pomiaru wyników sportowych Prawo przeliczania wyników sportowych na punkty System oceny norm

9 Skala zakłada memoriał ten sam numer punktów za równy wzrost wyników. Ten …

10 Za ten sam wzrost wyników, w miarę wzrostu osiągnięć sportowych przyznawanych jest coraz mniej punktów. Ten …

Skala progresywna Skala regresywna Skala proporcjonalna Skala sigmoidalna

11 Im wyższy wynik sportowy, tym większy przyrost punktów, oceniana jest poprawa. Ten …

Skala progresywna Skala regresywna Skala proporcjonalna Skala sigmoidalna

12 Poprawa wyników w obszarach bardzo niskich i bardzo wysokich osiągnięć jest nagradzana oszczędnie; Najwięcej punktów przynosi wzrost wyników w środkowej strefie osiągnięć. Ten …

Skala progresywna Skala regresywna Skala proporcjonalna Skala sigmoidalna

13 Normy oparte na porównaniu osób należących do tej samej populacji nazywane są...

14 Normy oparte na porównaniu wyników tego samego sportowca w różnych warunkach nazywane są ...

Standardy indywidualne Odpowiednie standardy Standardy porównawcze

15 Normy oparte na analizie tego, co dana osoba powinna być w stanie zrobić, aby podołać powierzonym jej zadaniom, nazywane są ...

Standardy indywidualne Odpowiednie standardy Standardy porównawcze

PODSTAWOWE POJĘCIA JAKOŚCI

Qualimetria(łac. qualitas – jakość, metron – miara) bada i rozwija się metody ilościowe ocena cech jakościowych.

Qualimetria opiera się na kilku punktach wyjścia:

Każdą jakość można zmierzyć;

Jakość zależy od szeregu właściwości tworzących „drzewo jakości” (na przykład drzewo jakości wykonania ćwiczeń w łyżwiarstwie figurowym składa się z trzech poziomów - najwyższego, średniego, najniższego);

Każda właściwość jest określona przez dwie liczby: wskaźnik względny i wagę; suma wag właściwości na każdym poziomie jest równa jeden (lub 100%).

Techniki metodologiczne jakościometrii dzielą się na dwie grupy:

Heurystyczny (intuicyjny), oparty na ocenach eksperckich i kwestionariuszach;

Instrumentalny.

Ekspert to ocena uzyskana w wyniku zasięgnięcia opinii biegłych. Typowe przykłady kompetencji: sędziowanie w gimnastyce i łyżwiarstwie figurowym, rywalizacja o najlepszych Praca naukowa i tak dalej.

Przeprowadzenie badania obejmuje następujące główne etapy: sformułowanie jego celu, wybór ekspertów, wybór metodologii, przeprowadzenie badania i przetwarzanie uzyskanych informacji, w tym ocenę spójności poszczególnych ocen ekspertów. Podczas badania duże znaczenie ma stopień zgodności opinii biegłych, oceniany wartościowo współczynnik korelacji rang(w przypadku kilku ekspertów). Należy zauważyć, że korelacja rang leży u podstaw rozwiązania wielu problemów jakościowych, ponieważ umożliwia obliczenia matematyczne o cechach jakościowych.

W praktyce wyznacznikiem kwalifikacji eksperta jest często odchylenie jego ocen od średnich ocen grupy ekspertów.

Kwestionariusz to metoda zbierania opinii poprzez wypełnianie ankiet. Kwestionariusze, obok wywiadów i rozmów, są metodami badawczymi. W odróżnieniu od wywiadów i rozmów, zadawanie pytań polega na pisemnych odpowiedziach osoby wypełniającej kwestionariusz – respondenta – na system standardowych pytań. Pozwala na badanie motywów zachowań, intencji, opinii itp.

Za pomocą kwestionariuszy można rozwiązać wiele praktycznych problemów w sporcie: ocena stanu psychicznego sportowca; jego stosunek do charakteru i kierunku szkoleń; relacje interpersonalne w zespole; własna ocena gotowości technicznej i taktycznej; ocena diety i wiele innych.

1 Czym zajmuje się badanie jakościometryczne?

Badanie jakości testów Badanie właściwości jakościowych cechy Badanie i rozwój ilościowych metod oceny jakości

2 Metody matematyczne, używany w jakościometrii?

Korelacja par Korelacja rang Analiza wariancji

3 Jakie metody stosuje się do oceny poziomu wykonania?

4 Jakimi metodami ocenia się różnorodność elementów technicznych?

Metoda kwestionariuszowa Metoda oceny eksperckiej Metody nie określono

5 Jakimi metodami ocenia się złożoność elementów technicznych?

Metoda kwestionariuszowa Metoda oceny eksperckiej Metody nie określono

6 Jakie metody stosuje się do oceny stan psychiczny sportowiec?

Metoda kwestionariuszowa Metoda oceny eksperckiej Metody nie określono

Problematyka badania sprawności fizycznej człowieka rozwinęła się w teorii i metodologii wychowania fizycznego, metrologii sportu, antropomotoryki, biomechaniki, medycyny sportowej i innych nauk. Na przestrzeni około 130-140 lat historii tego zagadnienia zgromadzono ogromny i różnorodny materiał, który od zawsze budził i nadal budzi ogromne zainteresowanie nie tylko naukowców, ale także nauczycieli wychowania fizycznego, trenerów, uczniów i ich opiekunów. rodzice.

Pierwszy artykuł poświęcony rozważanemu problemowi ma charakter wprowadzający. Odsłania podstawy teorii testów i testowania, bez zapoznania się z którymi nauczycielowi trudno jest rozwiązać problemy stosowania testów w praktyce swojej pracy. Nazwijmy choć część pojawiających się problemów. Co to jest „test”? Jaka jest klasyfikacja testów? Dlaczego i czy konieczne jest badanie sprawności fizycznej uczniów? Jak określić poziom (wysoki, średni, niski) rozwoju cech fizycznych i gotowości? Co jest uważane za normę podczas testowania i jak to ustawić? Jeśli nauczyciel wymyślił nowy test motoryczny lub baterię testów w celu określenia sprawności fizycznej dzieci, to na co powinien zwrócić uwagę i jakie niezbędne warunki (wymagania, kryteria) powinien spełnić? Badanie kondycji fizycznej uczniów wymaga obowiązkowego zapoznania nauczyciela z elementarnymi metodami statystyki matematycznej. Które?

W naszych artykułach będziemy prezentować także informacje historyczne dotyczące powstania testów i teorii badania sprawności fizycznej człowieka. Powiedzmy, kiedy i gdzie pojawiły się pierwsze testy, w tym baterie testów oceniających sprawność fizyczną. Jakie są najczęstsze testy określające zdolności kondycyjne (siła, szybkość, wytrzymałość, elastyczność) i koordynacyjne dzieci w wieku szkolnym? Które baterie (programy) testów do oceny sprawności fizycznej dzieci i młodzieży cieszą się największą popularnością różne kraje? Omówimy także tak ważny problem praktyczny, jak związek między wynikami testów a ocenami (ocenami) z przedmiotu „ Kultura fizyczna" Mówiąc dokładniej, jeśli uczeń konsekwentnie osiąga wysokie wyniki na testach, czy automatycznie oznacza to doskonałą ocenę z naszego przedmiotu? I tak dalej.

W tym artykule omówimy: 1) zadania testowe; 2) pojęcie „próby” i klasyfikacja prób motorycznych (motorycznych); 3) kryteria współczynnika jakości badań motorycznych; 4) organizacja badań sprawności fizycznej dzieci w wieku szkolnym.

1. Zadania testowe. Badanie zdolności motorycznych człowieka jest jednym z najbardziej znanych ważne obszary działalność naukowców i nauczycieli w zakresie kultury fizycznej i sportu. Pomaga rozwiązać szereg złożonych problemów pedagogicznych w zakresie identyfikacji poziomów rozwoju zdolności warunkowania i koordynacji, oceny jakości gotowości technicznej i taktycznej. Na podstawie wyników testów można porównać poziom przygotowania zarówno poszczególnych uczniów, jak i całych grup uczniów zamieszkujących szkołę różne regiony i kraje; przeprowadzić odpowiednią selekcję do uprawiania tego czy innego sportu, do udziału w zawodach; przeprowadzać dość obiektywną kontrolę nad edukacją (treningiem) uczniów i młodych sportowców; określić zalety i wady zastosowanych środków, metod nauczania i form organizacji zajęć; wreszcie uzasadnienie norm (wiekowych, indywidualnych) sprawności fizycznej dzieci i młodzieży.



a) uczyć uczniów samodzielnego określania poziomu swojej sprawności fizycznej i planowania dla siebie niezbędnych zestawów ćwiczeń fizycznych;

b) zachęcać uczniów do dalszego doskonalenia swoich umiejętności kondycja fizyczna
(formularze);

c) znać nie tyle początkowy poziom rozwoju zdolności motorycznych, ale jego zmianę w pewnym czasie;

d) stymulować uczniów, którzy osiągnęli wysokie wyniki, ale nie tyle ze względu na osiągnięty wysoki poziom sprawności fizycznej, ale ze względu na realizację planowanego wzrostu wyników osobistych.



Eksperci podkreślają, że tradycyjne podejście do testowania, polegające na porównywaniu danych ze standardowych testów i standardów z przedstawionymi wynikami, powoduje negatywne nastawienie wielu uczniów, zwłaszcza tych o niskim i średnim poziomie sprawności fizycznej. Testowanie powinno pomóc zwiększyć zainteresowanie uczniów, sprawić im radość i nie prowadzić do rozwoju kompleksu niższości. W tym zakresie proponujemy następujące podejścia:

1) wyniki sprawdzianu studenta ustala się nie na podstawie porównania ze standardami, lecz na podstawie zmian, jakie zaszły w określonym czasie;

2) zmodyfikowano wszystkie elementy testu, zastosowano lżejsze wersje ćwiczeń (zadania składające się na treść testu muszą być na tyle łatwe, aby prawdopodobieństwo ich pomyślnego wykonania było wysokie);

3) wyklucza się wyniki zerowe lub ze znakiem minus, kwalifikują się wyłącznie wyniki pozytywne.

Dlatego podczas testowania ważne jest, aby połączyć zadania naukowe (teoretyczne) i osobiście istotne, pozytywne motywy, aby uczeń wziął udział w tej procedurze.

2. Pojęcie „próby” i klasyfikacja prób motorycznych (motorycznych). Termin test przetłumaczony z po angielsku oznacza próbę, test. Testy służą do rozwiązywania wielu problemów naukowych i problemy praktyczne. Wśród sposobów oceny stanu fizycznego człowieka (obserwacja, oceny ekspertów) metoda testów (w naszym przypadku - motoryczna lub motoryczna) jest główną metodą stosowaną w metrologii sportowej i innych dyscyplinach naukowych - „badanie ruchów”, teoria i metodologia wychowania fizycznego.

Test to pomiar lub test przeprowadzany w celu określenia zdolności lub stanu danej osoby. Takich pomiarów może być wiele, w tym opartych na stosowaniu szerokiej gamy ćwiczeń fizycznych. Jednak nie każde ćwiczenie fizyczne lub test można uznać za test. Tylko te badania (próbki), które spełniają specjalne wymagania i zgodnie z którymi muszą być:

a) określono cel stosowania dowolnego testu (lub testów);

b) opracowano znormalizowaną metodologię pomiaru wyników testów i procedurę testowania;

c) określono wiarygodność i zawartość informacyjną testów;

d) wdrożono możliwość prezentacji wyników badań w odpowiednim systemie oceny.

System stosowania testów w związku z zadanym zadaniem, organizowania warunków, przeprowadzania testów przez podmioty, oceniania i analizowania wyników nazywa się testowanie. Wartość liczbowa uzyskana podczas pomiarów wynosi wynik testu.

Na przykład testem jest skok w dal z miejsca; procedura wykonywania skoków i pomiarów wyników - testowanie; długość skoku - wynik testu.

Testy stosowane w wychowaniu fizycznym opierają się na czynnościach motorycznych ( ćwiczenia fizyczne, zadania motoryczne). Takie testy nazywane są silnik lub silnik.

Obecnie nie ma jednolitej klasyfikacji badań motorycznych. Znana jest klasyfikacja testów ze względu na ich strukturę i preferowane wskazania (patrz tabela 1).

Wyróżnić jednostka I złożony testy. Test jednostkowy służy do pomiaru i oceny jednej cechy (zdolności koordynacyjnej lub warunkowania). Ponieważ struktura każdej zdolności koordynacyjnej lub warunkowania jest złożona, taki test zwykle ocenia tylko jeden element tej zdolności (na przykład zdolność utrzymywania równowagi, szybkość reakcji prostej, siłę mięśni ramion).

Używając edukacyjny Test ocenia zdolność uczenia się motorycznego (na podstawie różnicy pomiędzy wynikami końcowymi i początkowymi za dany okres treningu technik ruchowych).

Seria testowa umożliwia stosowanie tego samego testu przez długi czas, gdy mierzona umiejętność znacznie się poprawia. Jednocześnie poziom trudności zadań testowych stale rośnie. Niestety tego typu pojedynczy test nie jest jeszcze powszechnie stosowany zarówno w nauce, jak i praktyce.

Używając złożone badanie ocenić kilka oznak lub elementów różnych zdolności lub tej samej zdolności (na przykład podskoczenie z miejsca - z machnięciem ramion, bez machania rękami, na określoną wysokość). Na podstawie takiego testu można uzyskać informację o poziomie zdolności szybkościowo-siłowych (na podstawie wysokości skoku), koordynacyjnych (na podstawie dokładności różnicowania wysiłków siłowych, różnicy wysokości skoku z i bez machania ramionami).

Profil testowy składa się z kilku odrębnych testów, na podstawie których ocenia się kilka różnych sprawności fizycznych (heterogeniczny profil testowy) lub wielokrotne przejawy tej samej zdolności fizycznej (jednorodny profil testowy). Wyniki badań mogą być prezentowane w formie profilu, co pozwala na to

Formy testów i możliwości ich wykorzystania (wg D.-D. Blume, 1987)


Tabela 1


Typ Wymierna zdolność Znak struktury Przykład
Test jednostkowy
Test elementarny zawierający jedno zadanie motoryczne Jeden cel testu, jeden końcowy wynik testu Test równowagi, tremometr, test połączenia, test rytmu, skok dokładności lądowania
Test praktyczny Jedna zdolność lub aspekt (składnik) zdolności Jedno lub więcej zadań testowych. Jeden końcowy wynik testu (okres nauczania) Ogólny test badawczy
Seria testowa Jedna zdolność lub aspekt (składnik) zdolności Jedno zadanie testowe z opcjami lub kilka zadań o rosnącym stopniu trudności Test oceniający umiejętność nawiązywania połączenia (komunikacji)
Złożone badanie
Złożony test zawierający jedno zadanie Wiele zdolności lub aspektów (składników) jednej zdolności Jedno zadanie testowe, wiele ocen końcowych Próba skoku
Test zadania wielokrotnego użytku Wiele zadań testowych uruchamianych sekwencyjnie, wiele ocen końcowych Test reakcji wielokrotnego użytku
Profil testowy Wiele zdolności lub aspektów jednej zdolności Wiele testów, wiele ocen końcowych Gwiazda koordynująca
Sprawdź baterię Wiele zdolności lub aspektów jednej zdolności Wiele testów, jeden wynik testu Bateria testowa do oceny zdolności uczenia się motorycznego

szybko porównuj wyniki indywidualne i grupowe.

Sprawdź baterię składa się również z kilku odrębnych testów, których wyniki są łączone w jedną końcową punktację, uwzględnianą w jednej ze skal ocen (więcej na ten temat w drugim artykule). Podobnie jak w profilu testowym, tutaj rozróżniamy jednorodny I heterogeniczny baterie.

jednorodna bateria, lub jednorodny profil są wykorzystywane do oceny wszystkich składników złożonej zdolności (np. szybkości reakcji). W takim przypadku wyniki poszczególnych badań muszą być ze sobą ściśle powiązane (skorelowane).

Heterogeniczny profil testu lub heterogeniczna bateria służy do oceny kompleksu (zestawu) różnych zdolności motorycznych. Takie baterie testowe służą np. do oceny zdolności siłowych, szybkościowych i wytrzymałościowych – są to baterie testów sprawności fizycznej.

W testach zadania wielokrotnego użytku badani konsekwentnie wykonują zadania motoryczne i za każde rozwiązanie zadania motorycznego otrzymują indywidualne oceny. Oceny te mogą być ze sobą ściśle powiązane. Poprzez odpowiednie obliczenia statystyczne można uzyskać dodatkowe informacje na temat ocenianych umiejętności. Przykładem są sekwencyjnie wykonywane zadania testu skoku (tab. 2).

Z definicji badań motorycznych wynika, że ​​służą one ocenie zdolności motoryczne i częściowo zdolności motoryczne. Dlatego w najbardziej ogólnej formie wyróżnia się testy kondycyjne, koordynacyjne oraz testy oceniające zdolności i umiejętności motoryczne (techniki ruchu). Systematyzacja ta jest jednak nadal zbyt ogólna.

Klasyfikacja badań motorycznych wg ich dominujące wskazania wynika z usystematyzowania zdolności fizycznych (motorycznych). Pod tym względem istnieją testy kondycjonujące(do oceny siły: maksymalnej, szybkości, wytrzymałości siłowej; do oceny wytrzymałości; do oceny możliwości szybkościowych; do oceny gibkości: czynnej i biernej) oraz testy koordynacyjne(aby oszacować coor

zdolności poznawcze związane z odrębnymi, niezależnymi grupami czynności motorycznych, które mierzą specjalne zdolności koordynacyjne; ocena specyficznych zdolności koordynacyjnych - umiejętność utrzymywania równowagi, orientacja przestrzenna, reakcja, różnicowanie parametrów ruchu, rytm, przegrupowanie czynności motorycznych, koordynacja (komunikacja), stabilność przedsionkowa, dobrowolne rozluźnienie mięśni.

Opracowano dużą liczbę testów oceniających zdolności motoryczne w różnych dyscyplinach sportowych. Są one podane w odpowiednich podręcznikach i podręcznikach i nie są omawiane w tym artykule.

Zatem każda klasyfikacja służy jako swego rodzaju wytyczna przy wyborze (lub tworzeniu) rodzaju testów, który najlepiej odpowiada celom testowania.

3. Kryteria jakości badań motorycznych. Jak zauważono powyżej, koncepcja „testu motorycznego” spełnia swój cel, jeśli test spełnia odpowiednie kryteria podstawowe: rzetelność, stabilność, równoważność, obiektywność, zawartość informacyjna, a także kryteria dodatkowe: standaryzacja, porównywalność i ekonomiczność.

Testy spełniające wymagania rzetelności i zawartości informacyjnej nazywane są dobrymi lub autentycznymi (rzetelnymi).

Rzetelność testu oznacza stopień dokładności, z jaką ocenia on daną zdolność motoryczną, niezależnie od wymagań osoby oceniającej. Rzetelność to stopień, w jakim wyniki są spójne, gdy te same osoby są testowane wielokrotnie w tych samych warunkach; jest to stabilność lub stabilność wyniku testu danej osoby po powtórzeniu ćwiczenia testowego. Innymi słowy, uczeń w grupie przedmiotów, na podstawie wyników powtarzanych testów (na przykład wskaźników skoku, czasu biegu, odległości rzutu), konsekwentnie utrzymuje swoje miejsce w rankingu.

Rzetelność testu określa się za pomocą analizy korelacyjno-statystycznej poprzez obliczenie współczynnika rzetelności. W tym przypadku stosuje się różne metody oceny wiarygodności testu.

Stabilność testu opiera się na zależności pomiędzy pierwszą a drugą próbą, powtórzoną po pewnym czasie w tych samych warunkach przez tego samego eksperymentatora. Metodę powtarzanego testowania w celu określenia wiarygodności nazywa się ponownym testem. Stabilność testu zależy od rodzaju testu, wieku i płci osób badanych oraz odstępu czasu pomiędzy testem a ponownym testem. Na przykład wyniki w testach warunkowania lub cech morfologicznych w krótkich odstępach czasu są bardziej stabilne niż wyniki w testach koordynacyjnych; W przypadku starszych uczniów wyniki są bardziej stabilne niż w przypadku młodszych. Ponowne badanie przeprowadza się zwykle nie później niż tydzień później. Przy dłuższych przerwach (np. po miesiącu) stabilność nawet takich prób jak bieg na 1000 m czy skok w dal z miejsca staje się zauważalnie niższa.

Równoważność testu polega na korelacji wyniku testu z wynikami innych testów tego samego typu. Na przykład kryterium równoważności stosuje się, gdy trzeba wybrać, który test lepiej odzwierciedla możliwości szybkościowe: bieg na 30, 50, 60 czy 100 m.

To lub inne podejście do testów równoważnych (jednorodnych) zależy od wielu powodów. Jeżeli zachodzi potrzeba zwiększenia wiarygodności ocen lub wniosków z badań, wskazane jest zastosowanie dwóch lub większej liczby równorzędnych testów. A jeśli zadaniem jest stworzenie baterii zawierającej minimum testów, to należy zastosować tylko jeden z równoważnych testów.


Tabela 2 Kolejno wykonywane zadania próby skokowej (wg D.-D. Blume, 1987)

№№ Cel testu Ocena wyniku Umiejętność
Skocz na maksymalną wysokość bez wahania ramion Wzrost (cm Siła skoku
Skocz na maksymalną wysokość z machaniem ramionami Wzrost (cm Siła skakania i zdolność połączenia
Skocz na maksymalną wysokość, machając ramionami i podskakując Wzrost (cm Łączność i siła skoków
10 skoków z wymachami ramion na odległość równą 2/3 maksymalnej wysokości skoku jak w zadaniu 2 Suma odchyleń od zadanego znaku Umiejętność różnicowania parametrów mocy ruchów
Różnica między wynikami rozwiązania jednego problemu i dwóch problemów ... cm Możliwość połączenia (komunikacja)

Jak zauważono, taka bateria jest niejednorodna, ponieważ zawarte w niej testy mierzą różne zdolności motoryczne. Przykładem heterogenicznej baterii testowej jest bieg na 30 m, podciągnięcia, skłon do przodu i bieg na 1000 m. Inne przykłady takich kompleksów zostaną zaprezentowane w osobnej publikacji.

Rzetelność testów określa się także poprzez porównanie średnich wyników prób parzystych i nieparzystych objętych testem. Na przykład średnią celność rzutu piłką do celu z 1, 3, 5, 7 i 9 prób porównuje się ze średnią celnością rzutów z 2, 4, 6, 8 i 10 prób. Ta metoda oceny wiarygodności nazywana jest metodą podwajania lub dzielenia i stosowana jest przede wszystkim przy ocenie zdolności koordynacyjnych oraz w przypadku, gdy liczba prób składających się na wynik testu wynosi co najmniej sześć.

Pod obiektywność(spójność) testu odnosi się do stopnia zgodności wyników uzyskanych na tych samych przedmiotach przez różnych eksperymentatorów (nauczycieli, sędziów, ekspertów).

a) czas, miejsce i warunki pogodowe testów;

b) ujednolicone wsparcie materiałowe i sprzętowe;

c) czynniki psychofizjologiczne (wielkość i intensywność obciążenia, motywacja);

d) prezentacja informacji (dokładne ustne przedstawienie zadania testowego, wyjaśnienie i demonstracja).

Przestrzeganie tych warunków stwarza tzw obiektywność testu. Mówią też o obiektywizm interpretacyjny, dotyczące stopnia niezależności interpretacji wyników badań przez różnych eksperymentatorów.

Generalnie, jak zauważają eksperci, wiarygodność testów można zwiększyć na różne sposoby: bardziej rygorystyczna standaryzacja testów (patrz wyżej), zwiększenie liczby prób, najlepszą motywacją przedmiotów, zwiększenie liczby oceniających (sędziów, ekspertów), zwiększenie spójności ich opinii oraz zwiększenie liczby egzaminów równoważnych.

Nie ma ustalonych wartości wskaźników niezawodności testów. W większości przypadków stosuje się następujące zalecenia: 0,95-0,99 - doskonała niezawodność; 0,90-0,94 - dobrze; 0,80-0,89 - akceptowalny; 0,70-0,79 - źle; 0,60-0,69 - wątpliwe dla ocen indywidualnych, test nadaje się jedynie do scharakteryzowania grupy osób. Treść informacji testu to stopień dokładności, z jaką mierzy on zdolność motoryczną lub ocenianą umiejętność. W obcym i Literatura rosyjska Zamiast słowa „informatywność” używają terminu „validity” (od angielskiego valid – valid, reality, legality). Tak naprawdę w odniesieniu do zawartości informacyjnej badacz odpowiada na dwa pytania: co mierzy ten konkretny test (bateria testów) i jaki jest stopień dokładności pomiaru.

Wyróżnić ważność logiczne (merytoryczne), empiryczne (bazujące na danych eksperymentalnych) i predykcyjne. Bardziej szczegółowe informacje na ten temat znajdują się w klasycznych już podręcznikach dla studentów uniwersytetów wychowania fizycznego (Sports Metrology / Pod red. V.M. Zatsiorsky. - M.: FiS, 1982. - P. 73-80; Godik M.A. Metrologia sportowa. - M. .: FiS, 1988), a także w szeregu współczesnych podręczników.

Jak zauważono, ważnymi dodatkowymi kryteriami testowymi są: standaryzacja, porównywalność i wydajność.

Esencja racjonowanie polega na tym, że na podstawie wyników badań można stworzyć standardy, które mają szczególne znaczenie dla praktyki (o tym będzie mowa w osobnym artykule).

Porównywalność test to możliwość porównania wyników uzyskanych z jednego testu lub kilku form równoległych (jednorodnych) testów. W praktyce stosowanie porównywalnych testów motorycznych zmniejsza prawdopodobieństwo, że w wyniku regularnego stosowania tego samego testu oceniany będzie nie tylko stopień umiejętności, ale i poziom umiejętności. Jednocześnie porównywalne wyniki badań zwiększają wiarygodność wniosków.

Esencja efektywność kryterium jakości testu jest to, że jego przeprowadzenie nie wymaga długiego czasu, dużych kosztów materiałowych i udziału wielu asystentów. Przykładowo zestaw sześciu testów sprawdzających sprawność fizyczną, zalecany w „Kompleksowym programie wychowania fizycznego uczniów klas I-XI” (M.: Prosveshcheniye, 2005-2006), może być realizowany przez nauczyciela z dwoma asystenci na jednej lekcji, badający 25-30 dzieci.

Organizacja badania sprawności fizycznej dzieci w wieku szkolnym Drugim istotnym problemem badania zdolności motorycznych (przypomnijmy, że pierwszy – dobór testów informacyjnych – był omawiany wcześniej) to organizacja ich wykorzystania.

Nauczyciel wychowania fizycznego musi określić, kiedy najlepiej organizować sprawdziany, jak je przeprowadzać w klasie i jak często należy je przeprowadzać.

Zapisz testowanie ustalane są zgodnie z programem nauczania, który przewiduje obowiązkowe sprawdzanie sprawności fizycznej uczniów dwa razy dziennie. Wskazane jest wykonanie pierwszego badania w drugim lub trzecim tygodniu września (po godz proces edukacyjny wróci do normy), a drugi – na dwa tygodnie przed zakończeniem roku szkolnego (w późniejszym terminie mogą wystąpić trudności organizacyjne spowodowane zbliżającymi się egzaminami i urlopami).

Znajomość rocznych zmian w rozwoju zdolności motorycznych dzieci w wieku szkolnym pozwala nauczycielowi na dokonanie odpowiednich dostosowań w procesie wychowania fizycznego na kolejny rok rok akademicki. Nauczyciel może jednak i powinien częściej przeprowadzać sprawdziany oraz sprawować tzw. kontrolę operacyjną. Tej procedury wskazane jest wykonanie np. w celu określenia zmian poziomu szybkości, zdolności siłowych i wytrzymałościowych pod wpływem zajęć lekkoatletycznych w pierwszym kwartale itp. W tym celu nauczyciel może wykorzystać testy oceniające zdolności koordynacyjne dzieci na początku i na końcu przyswajania materiału edukacyjnego. program nauczania na przykład w grach sportowych, aby zidentyfikować zmiany we wskaźnikach rozwoju tych umiejętności.

Należy wziąć pod uwagę, że różnorodność rozwiązywanych problemów pedagogicznych nie pozwala na zapewnienie nauczycielowi jednolitej metodologii testowania, tych samych zasad przeprowadzania sprawdzianów i oceniania wyników testów. Wymaga to od eksperymentatorów (nauczycieli) wykazania się niezależnością w rozwiązywaniu problemów teoretycznych, metodologicznych i organizacyjnych związanych z testowaniem.

Testowanie na zajęciach musi być powiązany z jego treścią. Innymi słowy, zastosowany test (lub testy), pod warunkiem spełnienia odpowiednich wymagań stawianych mu jako metoda badawcza, powinien (powinien) być organicznie włączony do planowanych ćwiczeń fizycznych. Jeśli na przykład uczniowie muszą określić poziom rozwoju zdolności szybkościowych lub wytrzymałości, wówczas niezbędne testy należy zaplanować w tej części lekcji, w której zostaną rozwiązane zadania rozwijania odpowiednich zdolności fizycznych.

Częstotliwość testowania w dużej mierze zależy od tempa rozwoju określonych zdolności fizycznych, wieku, płci i Cechy indywidulane ich rozwój.

Na przykład osiągnięcie znacznego przyrostu szybkości, wytrzymałości lub siły zajmuje kilka miesięcy. regularne zajęcia(szkolenie). Jednocześnie, aby uzyskać znaczny wzrost gibkości czy indywidualnych zdolności koordynacyjnych wystarczy zaledwie 4-12 treningów. Jeśli zaczniesz od zera, możesz osiągnąć poprawę tej lub innej jakości fizycznej w krótszym czasie. Jednak aby poprawić tę samą jakość, gdy osiągnie ona u ucznia wysoki poziom, potrzeba więcej czasu. W związku z tym nauczyciel musi głębiej przestudiować cechy rozwoju i poprawy różnych zdolności motorycznych u dzieci w różnym wieku i płci.

Jak zauważono, przy ocenie ogólnej sprawności fizycznej uczniów można zastosować szeroką gamę baterii testowych, których wybór zależy od konkretnych celów testowania i dostępności niezbędne warunki. Ponieważ jednak uzyskane wyniki badań można ocenić jedynie poprzez porównanie, wskazane jest wybranie testów, które są szeroko reprezentowane w teorii i praktyce wychowania fizycznego dzieci. Sięgnij np. do tych, które są zalecane w „Kompleksowym programie wychowania fizycznego dla uczniów klas I-XI” Szkoła średnia„(M.: Edukacja, 2004-2006).

Aby porównać ogólny poziom sprawności fizycznej ucznia lub grupy uczniów za pomocą zestawu testów, uciekają się do przeliczania wyników testów na punkty lub noty (szerzej o tym porozmawiamy w następnym artykule). Zmiana ilości punktów podczas powtarzanych testów umożliwia ocenę postępów zarówno pojedynczego dziecka, jak i grupy dzieci.

Wychowanie fizyczne w szkole, 2007, nr 6


Wstęp

Znaczenie. Zagadnienie badania sprawności fizycznej człowieka jest jednym z najbardziej rozwiniętych w teorii i metodologii wychowania fizycznego. Za ostatnie dziesięciolecia Zgromadzono ogromny i różnorodny materiał: zdefiniowanie zadań testowych; warunkowość wyników testów według różnych czynników; opracowywanie testów oceniających indywidualne zdolności kondycyjne i koordynacyjne; programy badań charakteryzujące sprawność fizyczną dzieci i młodzieży w wieku od 11 do 15 lat, przyjęte w r Federacja Rosyjska, w innych krajach WNP i w wielu innych krajach.

Badanie cech motorycznych dzieci w wieku szkolnym jest jedną z najważniejszych i podstawowych metod kontroli pedagogicznej.

Pomaga rozwiązać szereg złożonych problemów pedagogicznych: określić poziomy rozwoju zdolności warunkowania i koordynacji, ocenić jakość gotowości technicznej i taktycznej. Na podstawie wyników testu możesz:

porównać przygotowanie zarówno poszczególnych uczniów, jak i całych grup zamieszkujących różne regiony i kraje;

przeprowadzać selekcję sportów do uprawiania tego lub innego sportu, do udziału w zawodach;

sprawuje w dużej mierze obiektywną kontrolę nad edukacją (treningiem) uczniów i młodych sportowców;

określić zalety i wady zastosowanych środków, metod nauczania i form organizacji zajęć;

wreszcie uzasadnienie norm (wiekowych, indywidualnych) sprawności fizycznej dzieci i młodzieży.

Oprócz zadań naukowych stosowanych w praktyce w różnych krajach, zadania testowe sprowadzają się do:

samodzielnie uczyć dzieci w wieku szkolnym określania poziomu swojej sprawności fizycznej i planować dla siebie niezbędne zestawy ćwiczeń fizycznych;

zachęcanie uczniów do dalszej poprawy swojej kondycji fizycznej (sylwety);

znać nie tyle początkowy poziom rozwoju zdolności motorycznych, ale jego zmianę w pewnym czasie;

zachęcaj uczniów, którzy osiągnęli sukces wysokie wyniki, ale nie tyle o wysoki poziom, ile o planowany wzrost wyników osobistych.

W pracy tej będziemy opierać się na testach zalecanych w „Kompleksowym programie wychowania fizycznego dla uczniów klas 1–11 szkoły ogólnokształcącej” przygotowanym przez V.I. Lyakh i G.B. Maxsona.

Cel pracy: uzasadnienie metodyki badania cech fizycznych uczniów szkół podstawowych.

Hipoteza badawcza: zastosowanie testów jest dokładną, informacyjną metodą określania rozwoju cech fizycznych.

Przedmiot badań: testowanie jako metoda kontroli pedagogicznej.

Temat badań: badanie cech uczniów.


Rozdział 1. POGLĄDY NA TEORIĘ BADAŃ SPRAWNOŚCI FIZYCZNEJ

1.1 Krótkie informacje historyczne o teorii badania zdolności motorycznych

Pomiar osiągnięć motorycznych człowieka interesuje się od dawna. Pierwsze informacje na temat pomiaru odległości, na jaką wykonywano skoki w dal, pochodzą z 664 roku p.n.e. mi. W XXIX Igrzyska Olimpijskie w czasach starożytnych w Olimpii Chionis ze Sparty skoczył na odległość 52 stóp, czyli około 16,66 m. Oczywiste jest, że mówimy o wielokrotnym skoku.

Wiadomo, że jeden z twórców wychowania fizycznego, J. Ch. F. Guts-Muts, 1759-1839, mierzył osiągnięcia motoryczne swoich uczniów i sporządzał dokładne zapisy ich wyników. A za udoskonalenie ich osiągnięć przyznał im „nagrody” - wieńce dębowe (G. Sorm, 1977). W latach trzydziestych XIX wieku. Eiselen, pracownik słynnego niemieckiego nauczyciela F. L. Yahna, na podstawie dokonanych pomiarów sporządził tabelę określającą osiągnięcia w skokach. Jak widać zawiera trzy gradacje (tabela 1).

Tabela 1. - Wyniki skoków (w cm) mężczyzn (źródło: K. Mekota, P. Blahus, 1983)

podstawowy

Przez kozę


Należy pamiętać, że już w połowie XIX w. w Niemczech przy ustalaniu długości lub wysokości skoku zalecano uwzględnienie parametrów ciała.

Dokonuje się dokładnych pomiarów osiągnięć sportowych, w tym rekordowych połowa 19 wieku i regularnie od 1896 roku, od czasów igrzysk olimpijskich naszych czasów.

Od dłuższego czasu ludzie próbują mierzyć zdolności siłowe. Pierwsze ciekawe informacje na ten temat pochodzą z 1741 roku, kiedy za pomocą prostych przyrządów udało się zmierzyć siłę zapaśnika Thomasa Tophama. Podniósł ciężar o masie przekraczającej 830 kg (G. Sorm, 1977). Możliwości siłowe uczniów zostały już zmierzone przez Guts-Mutsa i Jana za pomocą prostych mierników siły. Jednak pierwszą hamownię, protoplastę współczesnego hamowni, zaprojektował Reiniger we Francji w 1807 r. W praktyce wychowania fizycznego gimnazjalistów w Paryżu wykorzystywał ją F. Amoros w 1821 r. W XIX w. Do pomiaru siły wykorzystaliśmy także podnoszenie ciała w zawieszeniu na drążku, zginanie i prostowanie ramion w podparciu oraz podnoszenie ciężarów.

Prekursorami współczesnych baterii testów określających sprawność fizyczną są wszechstronne imprezy sportowo-gimnastyczne. Pierwszym z nich jest pięciobój starożytny, wprowadzony do praktyki na XVIII Igrzyskach Olimpijskich w starożytności w 708 roku p.n.e. mi. Obejmowały one rzut dyskiem, rzut oszczepem, skakanie, bieganie i zapasy. Dziesięciobój, jaki znamy, po raz pierwszy znalazł się w programie zawodów III Igrzysk Olimpijskich (St. Louis, USA, 1904), a pięciobój nowoczesny na V Igrzyskach Olimpijskich (Sztokholm, Szwecja, 1912). Układ ćwiczeń w tych zawodach jest niejednorodny; sportowiec musi wykazać gotowość w różnych dyscyplinach. Musi więc być wszechstronny fizycznie.

Prawdopodobnie biorąc pod uwagę tę ideę, mniej więcej w tym samym czasie (początek XX wieku) wprowadzono do praktyki zestawy ćwiczeń dla dzieci, młodzieży i dorosłych, które kompleksowo określały sprawność fizyczną człowieka. Po raz pierwszy tak złożone testy wprowadzono w Szwecji (1906), następnie w Niemczech (1913), a jeszcze później – w Austrii i ZSRR (Rosja) – kompleks „Gotowi do pracy i obrony” (1931).

Poprzednicy współczesnych testów motorycznych powstali w koniec XIX- początek XX wieku W szczególności D. A. Sargent wprowadził do praktyki na Uniwersytecie Harvarda „test siły”, który oprócz dynamometrii i spirometrii obejmował unoszenie ramion w górę oraz unoszenie i opuszczanie ciała. Od 1890 roku test ten jest stosowany na 15 uniwersytetach w USA. Francuz G. Hebert stworzył test, którego publikacja ukazała się w 1911 roku. Obejmuje on 12 zadań motorycznych: bieg na różnych dystansach, skok z miejsca i biegu, rzut, wielokrotne podnoszenie 40-kilogramowego pocisku (waga), pływanie i nurkowanie .

Przyjrzyjmy się pokrótce źródłom informacji omawiającym wyniki badania naukowe lekarze i psycholodzy. Badania lekarzy do końca XIX wieku. najczęściej skupiały się na zmianie zewnętrznych danych morfologicznych, a także identyfikacji asymetrii. Wykorzystywana do tych celów antropometria dotrzymywała kroku zastosowaniu dynamometrii. I tak belgijski lekarz A. Quetelet po przeprowadzeniu szeroko zakrojonych badań opublikował w 1838 r. pracę, z której wynika, że ​​średnie wyniki kręgosłupa (kręgosłupa) 25-letnich kobiet i mężczyzn wynoszą odpowiednio 53 i 82 kg. W 1884 roku Włoch A. Mosso badał wytrzymałość mięśni. W tym celu posłużył się ergografem, który pozwolił mu obserwować rozwój zmęczenia przy wielokrotnym zginaniu palca.

Początki współczesnej ergometrii sięgają 1707 roku. Powstało wówczas urządzenie umożliwiające pomiar tętna na minutę. Prototyp dzisiejszego ergometru zaprojektował G. A. Him w 1858 roku. Cykloergometry i bieżnie powstały później, w latach 1889-1913.

Na przełomie XIX i XX w. Rozpoczęły się systematyczne badania prowadzone przez psychologów. Badany jest czas reakcji i opracowywane są testy określające koordynację i rytm motoryczny. Pojęcie „czasu reakcji” wprowadził do nauki austriacki fizjolog S. Exner w 1873 r. Studenci twórcy psychologii eksperymentalnej W. Wundta w utworzonym w 1879 r. laboratorium w Lipsku przeprowadzili szeroko zakrojone pomiary czasu jałowego i reakcji złożonych. Pierwsze testy koordynacji ruchowej obejmowały opukiwanie i różne rodzaje cel. Jedną z pierwszych prób badania celowania jest zaproponowany przez niego w 1900 roku test X. Frenkla. Jego istotą było trzymanie palec wskazujący we wszelkiego rodzaju otworach, pierścieniach itp. Jest to prototyp nowoczesnych testów „na drżenie statyczne i dynamiczne”.

Próbuję ustalić talent muzyczny w 1915 roku S. E. Seashore badał zdolność do rytmu.

Teoria testowania sięga jednak końca XIX i początku XX wieku. Wtedy położono podwaliny statystyki matematycznej, bez której współczesna teoria testów nie da się uniknąć. Na tej drodze niewątpliwe zasługi mają genetyk i antropolog F. Galton, matematycy Pearson i U. Youle oraz matematyk-psycholog S. Spearman. To właśnie ci naukowcy stworzyli nową gałąź biologii - biometrię, która opiera się na pomiarach i metodach statystycznych, takich jak korelacja, regresja itp. Stworzona przez Pearsona (1901) i Spearmana (1904) złożona metoda matematyczno-statyczna - analiza czynnikowa – pozwolił angielski naukowiec Bart (S. Burt) zastosować ją w 1925 roku do analizy wyników testów motorycznych uczniów londyńskich szkół. W rezultacie zidentyfikowano zdolności fizyczne, takie jak siła, szybkość, zwinność i wytrzymałość. Wyróżniał się także czynnik zwany „ogólną sprawnością fizyczną”. Nieco później jeden z najbardziej znane prace Amerykański naukowiec McCloy (S.N. McCloy, 1934) - „Pomiar ogólnych zdolności motorycznych”. Na początku lat 40. naukowcy dochodzą do wniosku na temat złożonej struktury zdolności motorycznych człowieka. Stosując różne testy motoryczne w połączeniu z wykorzystaniem równolegle opracowanych modeli matematycznych (analiza jedno- i wieloczynnikowa), teoria testowania mocno wdrożyła koncepcje pięciu zdolności motorycznych: siły, szybkości, koordynacji ruchowej, wytrzymałości i elastyczności.

Próby motoryczne na terenie byłego ZSRR posłużyły do ​​opracowania standardów kontroli dla kompleksu „Gotowi do pracy i obrony” (1931). Znany jest test zdolności motorycznych (głównie koordynacji ruchów), który dla dzieci i młodzieży zaproponował N. I. Ozeretsky (1923). Mniej więcej w tym samym czasie w Niemczech, Polsce, Czechosłowacji i innych krajach pojawiły się prace nad pomiarem zdolności motorycznych dzieci i młodzieży.

Znaczący postęp w rozwoju teorii badania sprawności fizycznej człowieka nastąpił na przełomie lat 50. i 60. XX wieku. XX wiek Założycielem tej teorii jest najprawdopodobniej Amerykanin McCloy, który wraz z M. D. Youngiem opublikował w 1954 r. monografię „Tests and Measurement in Health Care and Physical Education”, na której później powoływało się wielu autorów podobnych prac.

Książka „Structure and Measurement of Physical Abilities” autorstwa słynnego amerykańskiego badacza E.A. miała i nadal ma ogromne znaczenie teoretyczne. Fleishmana (1964). Książka nie tylko odzwierciedla teoretyczne i metodologiczne zagadnienia problematyki testowania tych zdolności, ale także zarysowuje konkretne wyniki, możliwości podejść, badania niezawodności, informacyjności (ważności) testów, a także przedstawia ważne materiał faktyczny według struktury czynnikowej testów motorycznych różnych zdolności motorycznych.

Bardzo ważne jeśli chodzi o teorię sprawdzania zdolności fizycznych, istnieją książki V.M. Zatsiorsky „Właściwości fizyczne sportowca” (1966) i „Cybernetyka, matematyka, sport” (1969).

Krótką informację historyczną na temat badań sprawności fizycznej w byłym ZSRR można znaleźć w publikacjach E.Ya. Bondarevsky, V.V. Kudryavtsev, Yu.I. Sbrueva, V.G. Panaeva, B.G. Fadeeva, PA Winogradowa i inni.

Konwencjonalnie można wyróżnić trzy etapy testów w ZSRR (Rosja):

Etap 1 – 1920-1940 – okres masowych badań mających na celu zbadanie głównych wskaźników rozwój fizyczny oraz poziom gotowości motorycznej, pojawienie się na tej podstawie standardów kompleksu „Gotowi do pracy i obrony”.

Etap 2 - 1946-1960 - badanie gotowości motorycznej w zależności od cech morfofunkcjonalnych w celu stworzenia przesłanek do naukowego i teoretycznego uzasadnienia ich związku.

Etap 3 - od 1961 r. do chwili obecnej - okres kompleksowych badań kondycji fizycznej ludności w zależności od cech klimatycznych i geograficznych regionów kraju.

Z badań przeprowadzonych w tym okresie wynika, że ​​na wskaźniki rozwoju fizycznego i sprawności ruchowej ludzi zamieszkujących różne regiony kraju wpływa wpływ czynników biologicznych, klimatyczno-geograficznych, społeczno-ekonomicznych i innych, zarówno stałych, jak i zmiennych. Zgodnie z opracowanym jednolitym kompleksowym programem, składającym się z czterech sekcji (sprawność fizyczna, rozwój fizyczny, stan funkcjonalny głównych układów organizmu, informacja socjologiczna), w 1981 r. przeprowadzono kompleksowe badanie kondycji fizycznej populacji w różnym wieku i płeć różnych regionów ZSRR.

Nieco później nasi eksperci zauważyli, że poziom rozwoju fizycznego i gotowości człowieka bada się od ponad 100 lat. Jednak pomimo stosunkowo dużej liczby prac w tym kierunku nie jest możliwe przeprowadzenie głębokiej i kompleksowej analizy uzyskanych danych, gdyż badania były prowadzone na różnych kontyngentach, w różnych okresach sezonowych, przy użyciu różnych metod, programów badawczych oraz matematyczne i statystyczne przetwarzanie otrzymanych informacji.

W tym zakresie główny nacisk położono na opracowanie metodologii i zorganizowanie jednolitego systemu gromadzenia danych, uwzględniającego wymagania metrologiczne i metodologiczne oraz utworzenie banku danych na komputerze.

W połowie lat 80. ubiegłego stulecia przeprowadzono masowe ogólnounijne badanie wśród około 200 000 osób w wieku od 6 do 60 lat, co potwierdziło wnioski z poprzedniego badania.

Od samego początku podejścia naukowe Badając sprawność fizyczną danej osoby, badacze starali się uzyskać odpowiedzi na dwa główne pytania:

jakie badania wybrać, aby ocenić poziom rozwoju określonej zdolności motorycznej (fizycznej) i poziom sprawności fizycznej dzieci, młodzieży i dorosłych;

Ile badań potrzeba, aby uzyskać minimalną i jednocześnie wystarczającą informację o kondycji fizycznej człowieka?

Nie ma jeszcze na świecie wspólnych poglądów w tych kwestiach. Jednocześnie coraz bliższe są pomysły na programy badań (baterie) charakteryzujące sprawność fizyczną dzieci i młodzieży w wieku od 6 do 17 lat, przyjęte w różnych krajach.

1.2 Pojęcie „testu” i klasyfikacja testów silnika (silnika).

Termin test przetłumaczony z języka angielskiego oznacza „próbkę, test”.

Testy służą do rozwiązywania wielu problemów naukowych i praktycznych. Wśród innych metod oceny stanu fizycznego człowieka (obserwacja, ekspertyza) metoda badawcza (w naszym przypadku motoryczna lub motoryczna) jest główną metodą stosowaną w metrologii sportowej i innych dyscyplinach naukowych („badanie ruchów”, teoria i metody wychowania fizycznego).

Test to pomiar lub test przeprowadzany w celu określenia zdolności lub stanu danej osoby. Takich pomiarów może być wiele, w tym opartych na stosowaniu szerokiej gamy ćwiczeń fizycznych. Jednak nie każde ćwiczenie fizyczne lub test można uznać za test. Do badań można stosować wyłącznie te badania (próbki), które spełniają specjalne wymagania:

należy określić cel każdego testu (lub testów);

Należy opracować znormalizowaną metodologię pomiarów testowych i procedurę testowania;

konieczne jest określenie wiarygodności i zawartości informacyjnej testów;

wyniki badań mogą być prezentowane w odpowiednim systemie oceny.

System stosowania testów zgodnie z zadaniem, organizacją warunków, wykonywaniem testów przez osoby badane, oceną i analizą wyników nazywa się testowaniem, a wynikiem badania (testu) jest wartość liczbowa uzyskana podczas pomiarów. Na przykład testem jest skok w dal z miejsca; procedura skoków i pomiar wyników - testowanie; długość skoku jest wynikiem testu.

Testy stosowane w wychowaniu fizycznym opierają się na czynnościach motorycznych (ćwiczenia fizyczne, zadania motoryczne). Takie testy nazywane są testami ruchowymi lub motorycznymi.

Obecnie nie ma jednolitej klasyfikacji badań motorycznych. Znana jest klasyfikacja testów ze względu na ich budowę i podstawowe wskazania (tab. 2).

Jak wynika z tabeli, rozróżnia się testy pojedyncze i złożone. Pojedynczy test służy do pomiaru i oceny jednej cechy (zdolności koordynacji lub warunkowania). Ponieważ, jak widzimy, struktura każdej zdolności koordynacyjnej lub warunkowania jest złożona, test taki z reguły ocenia tylko jeden element takiej zdolności (na przykład zdolność do utrzymywania równowagi, szybkość prostej reakcji, siła mięśni ramion).

Tabela 2. – Formy testów i możliwości ich wykorzystania (wg D.D. Blume, 1987)

Wymierna zdolność

Znak struktury

Test jednostkowy

Test elementarny zawierający jedno zadanie motoryczne

Jedna zdolność lub aspekt (składnik) zdolności

Jeden cel testu, jeden końcowy wynik testu

Test równowagi, drżenie, test łączności, test rytmu

Test praktyczny

Jedno lub więcej zadań testowych. Jeden końcowy wynik testu

Ogólny test badawczy

Seria testowa

Jedno zadanie testowe z opcjami lub kilka zadań o podwyższonym stopniu trudności

Test oceniający umiejętność nawiązywania połączenia (komunikacji)

Złożone badanie

Złożony test zawierający jedno zadanie

Wiele zdolności lub aspektów (składników) jednej zdolności

Jedno zadanie testowe, wiele ocen końcowych

Próba skoku

Test zadania wielokrotnego użytku

Wiele zadań testowych uruchamianych sekwencyjnie, wiele ocen końcowych

Test reakcji wielokrotnego użytku

Profil testowy

Wiele testów, wiele ocen końcowych

Zadanie koordynacyjne

Sprawdź baterię

Wiele testów, jeden wynik testu

Bateria testowa do oceny zdolności uczenia się ruchu


Za pomocą testu treningowego ocenia się zdolność uczenia się motorycznego (na podstawie różnicy między wynikami końcowymi i początkowymi za dany okres treningu technik ruchowych).

Seria testów umożliwia stosowanie tego samego testu przez dłuższy okres czasu, gdy zdolność do pomiaru ulega znacznej poprawie. Jednocześnie poziom trudności zadań testowych stale rośnie. Niestety tego typu badanie nie jest jeszcze dostatecznie stosowane zarówno w nauce, jak i praktyce.

Za pomocą złożonego testu ocenia się kilka cech lub elementów o różnej lub tej samej zdolności, np. podskoczenie z miejsca (z machnięciem rąk, bez machania rękami, na daną wysokość). Na podstawie tego testu można uzyskać informację o poziomie zdolności szybkościowo-siłowych (w oparciu o wysokość skoku), koordynacyjnych (w oparciu o dokładność różnicowania wysiłków siłowych, różnicę wysokości skoku z i bez machania rękami).

Profil testu składa się z indywidualnych testów, które oceniają albo kilka różnych zdolności fizycznych (heterogeniczny profil testu), albo różne przejawy tej samej zdolności fizycznej (homogeniczny profil testu). Wyniki badań mogą być prezentowane w formie profilu, co pozwala na porównanie wyników indywidualnych i grupowych.

Bateria testów składa się również z kilku pojedynczych testów, których wyniki są łączone w jedną końcową ocenę, uwzględnianą w jednej ze skal ocen (patrz rozdział 2). Podobnie jak w profilu testowym, rozróżnia się akumulatory homogeniczne i heterogeniczne. Jednorodna bateria, czyli jednorodny profil, znajduje zastosowanie w ocenie wszystkich składowych złożonej zdolności (np. zdolności reakcji). W takim przypadku wyniki poszczególnych badań muszą być ze sobą ściśle powiązane (muszą korelować).

W testach zadań wielokrotnych badani wykonują zadania motoryczne sekwencyjnie i za każde rozwiązanie zadania ruchowego otrzymują oddzielną ocenę. Oceny te mogą być ze sobą ściśle powiązane. Można to uzyskać poprzez odpowiednie obliczenia statystyczne Dodatkowe informacje o ocenianych umiejętnościach. Przykładem są kolejno rozwiązywane zadania testu skoków (tabela 3).

Tabela 3. - Kolejno rozwiązane zadania testu skoku

Cel testu

Ocena wyniku

Umiejętność

Maksymalny skok bez wahania ramion

Siła skoku

Maksymalny podskok z zamachem ramion

Siła skakania i zdolność połączenia

Maksymalny podskok z falą ramion i skokiem

Łączność i siła skoków

10 skoków z wymachami ramion na odległość równą 2/3 maksymalnej wysokości skoku jak w zadaniu 2

Suma odchyleń od zadanego znaku

Umiejętność różnicowania parametrów mocy ruchów

Różnica między wynikami rozwiązania jednego i dwóch problemów

Możliwość połączenia (komunikacja)

(wg D.D. Blume, 1987)

Definicja testów motorycznych mówi, że oceniają one zdolności motoryczne i częściowo motoryczne. W najbardziej ogólnej formie wyróżnia się testy kondycyjne, koordynacyjne oraz testy oceniające zdolności i umiejętności motoryczne (techniki ruchu). Systematyzacja ta jest jednak nadal zbyt ogólna. Klasyfikacja testów motorycznych według ich podstawowych wskazań wynika z usystematyzowania zdolności fizycznych (motorycznych).

W tym zakresie istnieją:

1) testy stanu:

ocenić siłę: maksymalną, szybkościową, wytrzymałość siłową;

ocenić wytrzymałość;

ocenić zdolności szybkościowe;

ocenić elastyczność - czynną i pasywną;

2) testy koordynacyjne:

oceniać zdolności koordynacyjne poszczególnych niezależnych grup czynności ruchowych mierzących specjalne zdolności koordynacyjne;

ocena specyficznych zdolności koordynacyjnych - umiejętności równowagi, orientacji w przestrzeni, reakcji, różnicowania parametrów ruchu, rytmu, restrukturyzacji czynności motorycznych, koordynacji (komunikacji),

stabilność przedsionkowa, dobrowolne rozluźnienie mięśni.

Pojęcie „testów do oceny zdolności motorycznych” nie jest omawiane w tej pracy. Przykłady testów podano w Załączniku 2.

Zatem każda klasyfikacja jest swego rodzaju wytycznymi dotyczącymi wyboru (lub stworzenia) rodzaju testów, które są bardziej spójne z zadaniami testowymi.

1.3 Kryteria jakości badań motorycznych

Koncepcja „testu silnika” spełnia swoje zadanie, gdy test spełnia odpowiednie wymagania.

Testy spełniające wymagania rzetelności i zawartości informacyjnej nazywane są dobrymi lub autentycznymi (rzetelnymi).

Rzetelność testu oznacza stopień dokładności, z jaką ocenia on konkretną zdolność motoryczną, niezależnie od wymagań osoby oceniającej. Rzetelność to stopień, w jakim wyniki są spójne, gdy te same osoby są testowane wielokrotnie w tych samych warunkach; Jest to stabilność lub stabilność wyniku testu danej osoby, gdy ćwiczenie kontrolne jest powtarzane. Innymi słowy, dziecko w grupie przedmiotów, na podstawie wyników powtarzanych testów (na przykład wydajność skoków, czas biegu, odległość rzutu), konsekwentnie utrzymuje swoje miejsce w rankingu.

Rzetelność testu określa się za pomocą analizy korelacyjno-statystycznej poprzez obliczenie współczynnika rzetelności. W tym przypadku stosuje się różne metody oceny wiarygodności testu.

Stabilność testu opiera się na zależności pomiędzy pierwszą a drugą próbą, powtórzoną po pewnym czasie w tych samych warunkach przez tego samego eksperymentatora. Metodę powtarzanego testowania w celu określenia wiarygodności nazywa się ponownym testem. Stabilność testu zależy od rodzaju testu, wieku i płci osób badanych oraz odstępu czasu pomiędzy testem a ponownym testem. Na przykład wyniki w testach warunkowania lub cech morfologicznych w krótkich odstępach czasu są bardziej stabilne niż wyniki w testach koordynacyjnych; Starsze dzieci mają bardziej stabilne wyniki niż młodsze. Ponowne badanie przeprowadza się zwykle nie później niż tydzień później. Przy dłuższych przerwach (np. po miesiącu) stabilność nawet takich prób jak bieg na 1000 m czy skok w dal z miejsca staje się zauważalnie niższa.

Równoważność testu polega na korelacji wyniku testu z wynikami innych testów tego samego typu (np. gdy trzeba wybrać, który test lepiej odzwierciedla możliwości szybkościowe: bieg na 30, 50, 60 czy 100 m).

Stosunek do testów równoważnych (jednorodnych) zależy od wielu powodów. Jeżeli zachodzi potrzeba zwiększenia wiarygodności ocen lub wniosków z badań, wskazane jest zastosowanie dwóch lub większej liczby testów równoważnych. A jeśli zadaniem jest stworzenie baterii zawierającej minimum testów, należy zastosować tylko jeden z równoważnych testów. Jak zauważono, taka bateria jest niejednorodna, ponieważ zawarte w niej testy mierzą różne zdolności motoryczne. Przykładem heterogenicznego zestawu testów jest bieg na 30 m, podciąganie, skłon w przód i bieg na 1000 m.

Rzetelność testów określa się także poprzez porównanie średnich wyników prób parzystych i nieparzystych objętych testem. Na przykład, średnią celność strzałów na bramkę z 1, 3, 5, 7 i 9 prób porównuje się ze średnią celnością strzałów z 2, 4, 6, 8 i 10 prób. Ta metoda oceny niezawodności nazywana jest metodą podwajania lub dzielenia. Stosuje się go przede wszystkim przy ocenie zdolności koordynacyjnych oraz w przypadku, gdy liczba prób składających się na wynik testu wynosi co najmniej 6.

Przez obiektywność (spójność) testu rozumie się stopień zgodności wyników uzyskanych na tych samych przedmiotach przez różnych eksperymentatorów (nauczycieli, sędziów, ekspertów).

Aby zwiększyć obiektywność testów, konieczne jest spełnienie standardowych warunków testowych:

czas testu, miejsce, warunki pogodowe;

ujednolicone wsparcie materiałowe i sprzętowe;

czynniki psychofizjologiczne (objętość i intensywność obciążenia, motywacja);

prezentacja informacji (dokładne ustne przedstawienie zadania testowego, wyjaśnienie i demonstracja).

Jest to tak zwana obiektywność testu. Mówią także o obiektywności interpretacyjnej, która dotyczy stopnia niezależności w interpretacji wyników testów przez różnych eksperymentatorów.

Generalnie, jak zauważają eksperci, wiarygodność testów można zwiększyć na różne sposoby: bardziej rygorystyczna standaryzacja testów (patrz wyżej), zwiększenie liczby prób, lepsza motywacja badanych, zwiększenie liczby oceniających (sędziów , eksperci), wzrost spójności ich opinii, wzrost liczby równoważnych testów.

Nie ma ustalonych wartości wskaźników niezawodności testów. W większości przypadków stosuje się następujące zalecenia: 0,95-0,99 - doskonała niezawodność; 0,90-0,94 - dobrze; 0,80-0,89 - akceptowalny; 0,70-0,79 - źle; 0,60-0,69 - wątpliwe dla ocen indywidualnych, test nadaje się jedynie do charakterystyki grupy osób.

Ważność testu to stopień dokładności, z jaką mierzy on zdolność motoryczną lub oceniane umiejętności. W literaturze zagranicznej (i krajowej) zamiast słowa „informatywność” używa się terminu „validity” (od angielskiego valid – valid, reality, legality). Tak naprawdę, mówiąc o treści informacyjnej, badacz odpowiada na dwa pytania: co mierzy ten konkretny test (bateria testów) i jaki jest stopień dokładności pomiaru?

Wyróżnia się kilka rodzajów trafności: logiczną (merytoryczną), empiryczną (opartą na danych eksperymentalnych) i predykcyjną (2).

Ważnymi dodatkowymi kryteriami testowymi są standaryzacja, porównywalność i wydajność.

Istota normalizacji polega na tym, że na podstawie wyników badań można tworzyć standardy, które mają szczególne znaczenie dla praktyki.

Porównywalność testów to zdolność do porównywania wyników uzyskanych z jednego lub większej liczby form równoległych (jednorodnych) testów. W praktyce stosowanie porównywalnych testów motorycznych zmniejsza prawdopodobieństwo, że w wyniku regularnego stosowania tego samego testu oceniany będzie nie tylko stopień umiejętności, ale i poziom umiejętności. Jednocześnie porównywalne wyniki badań zwiększają wiarygodność wniosków.

Istotą oszczędności jako kryterium jakości testu jest to, że przeprowadzenie testu nie wymaga długiego czasu, dużych kosztów materiałowych i udziału wielu asystentów.


Wniosek

Poprzednicy współczesnych testów motorycznych powstali na przełomie XIX i XX wieku. Od 1920 roku w naszym kraju przeprowadza się masowe badania w celu zbadania głównych wskaźników rozwoju fizycznego i poziomu gotowości motorycznej. Na podstawie tych danych opracowano standardy kompleksu „Gotowi do pracy i obrony”.

Teoria testowania mocno uwzględnia koncepcje pięciu zdolności motorycznych: siły, szybkości, koordynacji, wytrzymałości i elastyczności. Aby je ocenić, opracowano wiele różnych baterii testowych.

Wśród metod oceny stanu fizycznego człowieka najważniejsza jest metoda testowa. Istnieją testy pojedyncze i złożone. Również w związku z systematyzacją zdolności fizycznych (motorycznych) testy dzieli się na warunkowanie i koordynację.

Wszystkie testy muszą spełniać określone wymagania. Do głównych kryteriów zalicza się: rzetelność, stabilność, równoważność, obiektywność, zawartość informacyjną (ważność). Dodatkowe kryteria obejmują: standaryzację, porównywalność i efektywność.

Dlatego przy wyborze niektórych testów należy spełnić wszystkie te wymagania. Aby zwiększyć obiektywność testów, należy zastosować bardziej rygorystyczną standaryzację testów, zwiększyć liczbę prób, lepszą motywację osób badanych, zwiększyć liczbę oceniających (sędziów, ekspertów), zwiększyć spójność ich opinii oraz wzrost liczby badań równoważnych.


Rozdział 2. Cele, metody i organizacja badań

2.1 Cele badawcze:

1. Poznaj teorię testowania danych źródła literackie;

2. Analizować metodologię badania cech fizycznych;

3. Porównaj wskaźniki gotowości ruchowej uczniów klas 7a i 7b.

2.2 Metody badawcze:

1. Analiza i synteza źródeł literackich.

Prowadzone przez całe badanie. Rozwiązywanie tych problemów dalej poziom teoretyczny realizowane poprzez studiowanie literatury z zakresu: teorii i metodologii wychowania fizycznego i sportu, wychowania cech fizycznych, metrologii sportowej. Przeanalizowano 20 źródeł literackich.

2. Wpływ werbalny.

Udzielano instruktażu dotyczącego kolejności wykonywania prób motorycznych oraz rozmowy motywacyjnej, która miała na celu wprowadzenie w nastrój umożliwiający osiągnięcie lepszego wyniku.

3. Badanie cech fizycznych.

Bieg na 30 metrów (ze startu wysokiego),

bieg wahadłowy 3 x 10 metrów,

skok w dal z miejsca,

bieg 6 minut (m),

skłon do przodu z pozycji siedzącej (cm),

podciąganie na drążku (dziewczyny na niskim poziomie).

4. Metody statystyki matematycznej.

Służy do wykonywania obliczeń, które były używane w analiza porównawcza uczniowie klas 7a i 7b.

2.3 Organizacja badania

W pierwszym etapie, w kwietniu 2009 roku, przeprowadzono analizę literatury naukowej i metodologicznej:

· studiowanie treści programów wychowania fizycznego dla uczniów szkół ogólnokształcących

Wyślij swoją dobrą pracę do bazy wiedzy jest prosta. Skorzystaj z poniższego formularza

Studenci, doktoranci, młodzi naukowcy, którzy wykorzystują bazę wiedzy w swoich studiach i pracy, będą Państwu bardzo wdzięczni.

Wysłany dnia http://www.allbest.ru/

1. PODSTAWOWE POJĘCIA

Test to pomiar lub test przeprowadzany w celu określenia kondycji lub zdolności sportowca. Proces testowania nazywa się testowaniem: uzyskana wartość liczbowa jest wynikiem testowania (lub wyniku testu). Na przykład bieg na 100 m jest testem, procedura prowadzenia wyścigów i pomiaru czasu jest testem, czas biegu jest wynikiem testu.

Testy oparte na zadaniach motorycznych nazywane są testami motorycznymi (lub motorycznymi). W testach tych wynikami mogą być albo osiągnięcia motoryczne (czas pokonania dystansu, liczba powtórzeń, przebyty dystans itp.), albo wskaźniki fizjologiczne i biochemiczne. W zależności od tego, a także od zadania stojącego przed podmiotem, wyróżnia się trzy grupy badań motorycznych (tab. A).

Tabela A. Rodzaje badań silnika.

Nazwa testu

Zadanie dla sportowca

Wyniki testu

Ćwiczenia testowe

Osiągnięcie motoryczne

Bieg na 1500 m, czas biegu

Standardowe testy funkcjonalne

Dla wszystkich takie same, dawkowane albo: a) według ilości wykonanej pracy, albo: b) według wielkości zmian fizjologicznych

Wskaźniki fizjologiczne lub biochemiczne podczas standardowej pracy Wskaźniki motoryczne podczas standardowej ilości zmian fizjologicznych

Rejestracja tętna podczas pracy standardowej 1000 km/min Prędkość biegowa przy tętnie 160 uderzeń/min, próbka PCV (170)

Maksymalne testy funkcjonalne

Pokaż maksymalny wynik

Wskaźniki fizjologiczne lub biochemiczne

Określenie maksymalnego długu tlenowego lub maksymalnego zużycia tlenu

Czasami stosuje się nie jeden, ale kilka testów, które mają jeden ostateczny cel (na przykład ocena kondycji sportowca w okresie treningu wyczynowego). Taka grupa nazywana jest kompleksem lub baterią testów. Nie wszystkie pomiary można wykorzystać jako testy. Aby to zrobić, muszą spełniać specjalne wymagania. Należą do nich: 1) niezawodność testów; 2) treść informacyjna testu; 3) obecność systemu ocen (patrz następny rozdział); 4) standaryzacja – procedura i warunki badania muszą być takie same we wszystkich przypadkach stosowania testu. Testy spełniające wymagania wiarygodności i zawartości informacyjnej nazywane są testami dobrymi lub autentycznymi.

2. NIEZAWODNOŚĆ TESTU

2.1 Pojęcie wiarygodności testu

fizyczne testy na bieżni

Wiarygodność testu to stopień zgodności wyników przy wielokrotnym testowaniu tych samych osób (lub innych obiektów) w tych samych warunkach. W idealnym przypadku ten sam test przeprowadzony na tych samych osobach w tych samych warunkach powinien dać takie same wyniki. Jednak nawet przy najbardziej rygorystycznej standaryzacji testów i precyzyjnym sprzęcie wyniki testów zawsze się nieco różnią. Na przykład sportowiec, który właśnie wycisnął na ławce 55 kg na dynamometrze nadgarstkowym, w ciągu kilku minut pokaże jedynie 50 kg. Zróżnicowanie takie nazywa się zmiennością wewnątrzjednostkową lub (używając bardziej ogólnej terminologii statystyki matematycznej) zmiennością wewnątrzklasową. Jest to spowodowane czterema głównymi przyczynami:

zmiana stanu badanych (zmęczenie, trening, nauka, zmiana motywacji, koncentracji itp.);

niekontrolowane zmiany warunków zewnętrznych i urządzeń (temperatura i wilgotność, napięcie zasilania, obecność osób nieupoważnionych, wiatr itp.);

zmiana stanu osoby przeprowadzającej lub oceniającej test, zastąpienie jednego eksperymentatora lub sędziego innym;

niedoskonałość testu (istnieją testy, które są oczywiście niewiarygodne, np. rzuty wolne do kosza do koszykówki przed pierwszym chybieniem; nawet zawodnik z dużym procentem trafień może przypadkowo popełnić błąd przy pierwszych rzutach).

Poniższy uproszczony przykład pomoże zrozumieć ideę metod stosowanych do oceny wiarygodności testów. Załóżmy, że chcą porównać wyniki dwóch zawodników w skoku w dal z miejsca na podstawie dwóch wykonanych prób. Jeśli chcesz wyciągnąć trafne wnioski, nie możesz ograniczyć się do rejestrowania tylko najlepszych wyników. Załóżmy, że wyniki każdego z zawodników różnią się w granicach ±10 cm od średni rozmiar i wynoszą odpowiednio 220±10 cm (tj. 210 i 230 cm) oraz 320±10 cm (tj. 310 i 330 cm). W tym przypadku wniosek będzie oczywiście całkowicie jednoznaczny: drugi sportowiec jest lepszy od pierwszego. Różnica pomiędzy wynikami (320 cm - 220 cm = 100 cm) jest wyraźnie większa niż wahania losowe (±10 cm). Będzie to dużo mniej pewne

Ryż. 1. Stosunek zmienności międzyklasowej i wewnątrzklasowej przy wysokiej (górnej) i niskiej (dolnej) niezawodności.

Krótkie pociągnięcia pionowe – dane z prób indywidualnych, X i A” 2, X 3 – średnie wyniki trzech osób

wniosek, jeśli przy tej samej zmienności wewnątrzklasowej (równej ± 10 cm) różnica między obiektami (zmienność międzyklasowa) będzie niewielka. Załóżmy, że średnie wartości wyniosą 220 cm (w jednej próbie 210 cm, w drugiej 230 cm) i 222 (212 i 232 cm). Wtedy może się zdarzyć np., że w pierwszej próbie pierwszy zawodnik skacze na odległość 230 cm, a drugi tylko 212 i będzie można odnieść wrażenie, że ten pierwszy jest znacznie silniejszy od drugiego.

Przykład pokazuje, że główne znaczenie nie ma samej zmienności wewnątrzklasowej, ale jej związku z różnicami międzyklasowymi. Ta sama zmienność wewnątrzklasowa daje różną rzetelność przy różnych różnicach między klasami (w konkretnym przypadku przedmiotów, ryc. 1).

Teoria rzetelności testu opiera się na fakcie, że wynik dowolnego pomiaru przeprowadzonego na osobie – X ( – jest sumą dwóch wielkości:

X^Hoo + Heh, (1)

gdzie X x to tzw. prawdziwy wynik, który chcą zarejestrować;

X e - błąd spowodowany niekontrolowaną zmianą stanu przedmiotu, wprowadzonym przez urządzenie pomiarowe itp.

Z definicji przez wynik prawdziwy rozumie się średnią wartość X^ dla nieskończenie dużej liczby obserwacji w identycznych warunkach (dlatego znak nieskończoności oo stawia się w miejscu X).

Jeżeli błędy są losowe (ich suma wynosi zero i przy różnych próbach nie są od siebie zależne), to ze statystyki matematycznej wynika:

O/ = Ooo T<З е,

tj. rozrzut wyników zarejestrowanych w doświadczeniu (st/2) jest równy sumie rozrzutów wyników prawdziwych ((Xm 2) i błędów (0 e 2).

Ooo 2 charakteryzuje wyidealizowaną (tj. pozbawioną błędów) zmienność międzyklasową, a e 2 charakteryzuje zmienność wewnątrzklasową. Wpływ o e 2 zmienia rozkład wyników badań (rys. 2).

Z definicji współczynnik rzetelności (Hz) jest równy stosunkowi prawdziwej wariancji do wariancji zarejestrowanej w eksperymencie:

Innymi słowy, r p jest po prostu proporcją prawdziwej zmienności w zmienności zarejestrowanej w doświadczeniu.

Oprócz współczynnika niezawodności stosuje się również wskaźnik niezawodności:

co jest uważane za teoretyczny współczynnik korelacji pomiędzy zarejestrowanymi wartościami testowymi a wartościami rzeczywistymi. Stosują także koncepcję błędu standardowego rzetelności, rozumianego jako odchylenie standardowe zarejestrowanych wyników badań (X () od linii regresji łączącej wartość X g z wynikami prawdziwymi (X”) – rys. 3.

2.2 Ocena niezawodności na podstawie danych doświadczalnych

Pojęcie prawdziwego wyniku testu jest abstrakcją. Hoe nie da się zmierzyć eksperymentalnie (w końcu nie da się w rzeczywistości przeprowadzić nieskończenie dużej liczby obserwacji w identycznych warunkach). Dlatego musimy zastosować metody pośrednie.

Najbardziej preferowaną metodą oceny wiarygodności jest analiza wariancji, a następnie obliczenie tzw. współczynników korelacji wewnątrzklasowej.

Jak wiadomo, analiza wariancji umożliwia rozłożenie zarejestrowanej eksperymentalnie zmienności wyników badań na składowe wynikające z wpływu poszczególnych czynników. Na przykład, jeśli zarejestrujemy wyniki osób badanych w jakimkolwiek teście, powtarzając ten test w różne dni i podejmując kilka prób każdego dnia, okresowo zmieniając eksperymentatorów, wówczas wystąpi różnica:

a) z przedmiotu na temat (zmienność międzyosobnicza),

b) z dnia na dzień,

c) od eksperymentatora do eksperymentatora,

d) od próby do próby.

Analiza wariancji umożliwia wyizolowanie i ocenę zmienności powodowanej przez te czynniki.

Uproszczony przykład pokazuje, jak to się robi. Załóżmy, że wyniki dwóch prób mierzono u 5 osób (k = 5, n = 2)

Wyniki analizy wariancji (patrz kurs statystyki matematycznej oraz załącznik 1 do pierwszej części książki) podano w tradycyjnej formie w tabeli. 2.

Tabela 2

Rzetelność ocenia się za pomocą tzw. współczynnika korelacji wewnątrzklasowej:

gdzie r „i jest współczynnikiem korelacji wewnątrzklasowej (współczynnikiem rzetelności, który w celu odróżnienia go od zwykłego współczynnika korelacji (r) jest oznaczony dodatkową liczbą pierwszą (r”)\

n -- liczba prób wykorzystanych w teście;

n” – liczba prób, dla których przeprowadzana jest ocena niezawodności.

Przykładowo, jeśli chcą oszacować wiarygodność średniej z dwóch prób na podstawie danych podanych w przykładzie, to

Jeśli ograniczymy się tylko do jednej próby, to niezawodność będzie równa:

a jeśli zwiększysz liczbę prób do czterech, współczynnik niezawodności również nieznacznie wzrośnie:

Zatem, aby ocenić rzetelność, należy po pierwsze przeprowadzić analizę wariancji, a po drugie obliczyć współczynnik korelacji wewnątrzklasowej (współczynnik rzetelności).

Pewne trudności pojawiają się, gdy występuje tzw. trend, czyli systematyczny wzrost lub spadek wyników od próby do próby (ryc. 4). W tym przypadku stosuje się bardziej złożone metody oceny niezawodności (nie są one opisane w tej książce).

W przypadku dwóch prób i braku trendu wartości współczynnika korelacji wewnątrzklasowej praktycznie pokrywają się z wartościami zwykłego współczynnika korelacji pomiędzy wynikami pierwszej i drugiej próby. Dlatego w takich sytuacjach do oceny wiarygodności można zastosować zwykły współczynnik korelacji (ocenia on wiarygodność jednej, a nie dwóch prób). Jeśli jednak liczba ponownych prób w teście jest większa niż dwie, a zwłaszcza jeśli zastosowano złożone projekty testów,

Ryż. 4. Seria sześciu prób, z których trzy pierwsze (po lewej) lub trzy ostatnie (po prawej) podlegają trendowi

(na przykład 2 próby dziennie przez dwa dni) konieczne jest obliczenie współczynnika wewnątrzklasowego.

Współczynnik rzetelności nie jest bezwzględnym wskaźnikiem charakteryzującym test. Współczynnik ten może się różnić w zależności od populacji badanych (na przykład może być inny dla początkujących i doświadczonych sportowców), warunków badania (czy powtarzane próby są przeprowadzane jedna po drugiej, czy, powiedzmy, w odstępach tygodniowych) i innych powodów . Dlatego zawsze konieczne jest opisanie, w jaki sposób i na kim przeprowadzono badanie.

2.3 Niezawodność w praktyce testowej

Nierzetelność danych eksperymentalnych zmniejsza wielkość szacunków współczynników korelacji. Ponieważ żaden test nie może bardziej korelować z innym testem niż sam ze sobą, górna granica szacowania współczynnika korelacji nie wynosi tu już ±1,00, ale wskaźnik rzetelności

g (oo = Y~g i

Aby przejść od szacowania współczynników korelacji pomiędzy danymi empirycznymi do szacowania korelacji pomiędzy wartościami prawdziwymi, można skorzystać z wyrażenia

gdzie r xy jest korelacją między prawdziwymi wartościami X i Y;

1~xy -- korelacja pomiędzy danymi empirycznymi; HzI^ - ocena wiarygodności X i Y.

Na przykład, jeśli r xy = 0,60, r xx = 0,80 i r yy = 0,90, to korelacja między prawdziwymi wartościami wynosi 0,707.

Podany wzór (6) nazywany jest poprawką redukcyjną (lub wzorem Spearmana-Browna) i jest stale stosowany w praktyce.

Nie ma ustalonej wartości wiarygodności testu, którą można uznać za akceptowalną. Wszystko zależy od wagi wniosków płynących z zastosowania testu, a przecież w większości przypadków w sporcie można przyjąć następujące przybliżone wytyczne: 0,95-0,99 --¦ doskonała rzetelność, 0,90-^0,94 - - dobry, 0,80-0,89 - akceptowalny, 0,70-0,79 - zły, 0,60-0,69 - wątpliwy w ocenie indywidualnej, test nadaje się jedynie do scharakteryzowania grupy osób.

Można osiągnąć pewną poprawę wiarygodności testu, zwiększając liczbę ponownych prób. Oto jak na przykład w eksperymencie niezawodność testu (rzucenie granatu o masie 350 g przy rozbiegu) wzrosła wraz ze wzrostem liczby prób: 1 próba - 0,53, 2 próby - 0,72, 3 próby - 0,78, 4 próby - 0,80, 5 prób - 0,82, 6 prób - 0,84. Przykład pokazuje, że jeśli na początku niezawodność rośnie szybko, to po 3-4 próbach wzrost znacznie spowalnia.

Przy kilku powtórzonych próbach wyniki można określić na różne sposoby: a) na podstawie najlepszej próby, b) na podstawie średniej arytmetycznej, c) na podstawie mediany, d) na podstawie średniej dwóch lub trzech najlepszych prób itp. Badania wykazały, że pokazało, że w większości przypadków najbardziej wiarygodne jest użycie średniej arytmetycznej, mediana jest nieco mniej wiarygodna, a najlepsza próba jest jeszcze mniej wiarygodna.

Mówiąc o wiarygodności testów, rozróżnia się ich stabilność (odtwarzalność), spójność i równoważność.

2.4 Testowanie stabilności

Stabilność testu odnosi się do odtwarzalności wyników przy powtarzaniu ich po pewnym czasie w tych samych warunkach. Powtarzane testowanie nazywa się zwykle ponownym testem. Schemat oceny stabilności testu wygląda następująco: 1

W tym przypadku rozróżnia się dwa przypadki. W jednym przeprowadza się powtórny test w celu uzyskania wiarygodnych danych o stanie podmiotu w całym odstępie czasu między badaniem a ponownym badaniem (na przykład w celu uzyskania wiarygodnych danych o możliwościach funkcjonalnych narciarzy w czerwcu są one mierzone dwa razy w odstępie tygodnia). W tym przypadku ważne są dokładne wyniki testów, a wiarygodność należy oceniać za pomocą analizy wariancji.

W innym przypadku istotne może być jedynie zachowanie kolejności podmiotów w grupie (czy pierwszy pozostaje pierwszym, ostatni pozostaje jednym z ostatnich). W tym przypadku stabilność ocenia się za pomocą współczynnika korelacji pomiędzy testem i ponownym testem.

Stabilność testu zależy od:

rodzaj testu

kontyngent podmiotów,

odstęp czasu pomiędzy testem a ponownym testem. Na przykład cechy morfologiczne w małych rozmiarach

przedziały czasowe są bardzo stabilne; testy dokładności ruchów (na przykład rzucanie w cel) mają najmniejszą stabilność.

U dorosłych wyniki badań są bardziej stabilne niż u dzieci; wśród sportowców są one bardziej stabilne niż wśród osób nieuprawiających sportu.

Wraz ze wzrostem odstępu czasu między testem a ponownym testem stabilność testu maleje (Tabela 3).

2.5 Testuj spójność

Spójność testu charakteryzuje się niezależnością wyników testu od cech osobistych osoby przeprowadzającej lub oceniającej test.” Spójność określa stopień zgodności wyników uzyskanych na te same przedmioty przez różnych eksperymentatorów, sędziów, i eksperci W tym przypadku możliwe są dwie opcje:

Osoba przeprowadzająca test jedynie ocenia wyniki testu, nie wpływając na jego przebieg. Na przykład różni egzaminatorzy mogą różnie oceniać tę samą pracę pisemną. Oceny sędziów w gimnastyce, łyżwiarstwie figurowym, boksie, ręczne wskaźniki pomiaru czasu, oceny elektrokardiogramu lub radiogramu przez różnych lekarzy itp. często się różnią.

Osoba przeprowadzająca badanie ma wpływ na wyniki. Na przykład niektórzy eksperymentatorzy są bardziej wytrwali i wymagający niż inni i lepiej motywują osoby badane. Ma to wpływ na wyniki (które same w sobie można zmierzyć dość obiektywnie).

Spójność testu to zasadniczo wiarygodność wyników testu, gdy test przeprowadzają różne osoby.

1 Zamiast terminu „spójność” często używa się terminu „obiektywność”. Takie użycie słów jest niefortunne, ponieważ zbieżność wyników różnych eksperymentatorów lub sędziów (ekspertów) wcale nie wskazuje na ich obiektywność. Razem mogą świadomie lub nieświadomie popełniać błędy, zniekształcając obiektywną prawdę.

2.6 Równoważność testu

Często test jest wynikiem wyboru z pewnej liczby podobnych testów.

Np. rzucanie koszem do koszykówki można wykonywać z różnych punktów, sprint można wykonywać na dystansie powiedzmy 50, 60 lub 100 m, podciąganie można wykonywać na kółkach lub drążku, z chwytem górnym lub dolnym itp.

W takich przypadkach można zastosować tzw. metodę form równoległych, polegającą na tym, że badani proszeni są o wykonanie dwóch wersji tego samego testu i następnie oceniany jest stopień zgodności wyników. Schemat testowania jest tutaj następujący:

Współczynnik korelacji obliczony pomiędzy wynikami testów nazywany jest współczynnikiem równoważności. Podejście do równoważności testów zależy od konkretnej sytuacji. Z jednej strony, jeśli dwa lub więcej testów jest równoważnych, ich łączne zastosowanie zwiększa wiarygodność szacunków; z drugiej strony przydatne może być pozostawienie w baterii tylko jednego równoważnego testu - uprości to testowanie i tylko nieznacznie zmniejszy zawartość informacyjną zestawu testowego. Rozwiązanie tego problemu zależy od takich czynników, jak złożoność i uciążliwość testów, stopień wymaganej dokładności testów itp.

Jeśli wszystkie testy zawarte w zestawie testów są wysoce równoważne, nazywa się to homogenicznym. Cały ten kompleks mierzy jedną właściwość zdolności motorycznych człowieka. Załóżmy, że kompleks składający się ze skoków w dal, w pionie i potrójnych skoków z miejsca będzie prawdopodobnie jednorodny. I odwrotnie, jeśli w kompleksie nie ma testów równoważnych, to wszystkie zawarte w nim testy mierzą różne właściwości. Taki kompleks nazywa się heterogenicznym. Przykład heterogenicznej baterii testów: podciąganie na drążku, skłon do przodu (w celu sprawdzenia elastyczności), bieg na 1500 m.

2.7 Sposoby poprawy wiarygodności testów

Wiarygodność testów można w pewnym stopniu zwiększyć poprzez:

a) bardziej rygorystyczna standaryzacja badań,

b) zwiększenie liczby prób,

c) zwiększenie liczby rzeczoznawców (sędziów, ekspertów) i zwiększenie spójności ich opinii,

d) zwiększenie liczby badań równoważnych,

e) lepsza motywacja badanych.

3. TESTY INFORMACYJNE

3.1 Podstawowe pojęcia

Informacyjność testu to stopień dokładności, z jaką mierzy on właściwość (jakość, zdolność, cechę itp.), którą wykorzystuje do oceny. Informatywność często nazywana jest także ważnością (od angielskiego uaNaNu – ważność, rzeczywistość, legalność). Załóżmy, że do określenia poziomu specjalnego przygotowania siłowego sprinterów – biegaczy i pływaków – chcą oni wykorzystać następujące wskaźniki: 1) dynamometria nadgarstka, 2) siła zgięcia podeszwowego stopy, 3) siła prostowników barku staw (mięśnie te wytrzymują duże obciążenie podczas pływania), 4) siła mięśni prostowników szyi. Na podstawie tych badań proponuje się zarządzanie procesem treningowym, w szczególności odnajdywanie słabych ogniw w narządzie ruchu i celowe ich wzmacnianie. Czy wybrane testy są dobre? Czy mają charakter informacyjny? Nawet bez przeprowadzania specjalnych eksperymentów można się domyślić, że drugi test będzie prawdopodobnie pouczający dla sprinterów i biegaczy, trzeci dla pływaków, a pierwszy i czwarty prawdopodobnie nie wykażą niczego interesującego ani dla pływaków, ani dla biegaczy (choć mogą być bardzo przydatne w innych sportach, takich jak zapasy). W różnych przypadkach te same testy mogą mieć różną zawartość informacyjną.

Pytanie o informatywność testu dzieli się na 2 pytania szczegółowe:

Co mierzy ten test?

Jak on to dokładnie robi?

Przykładowo, czy można ocenić sprawność biegaczy długodystansowych na podstawie takiego wskaźnika, jak maksymalne zużycie tlenu (MOC), a jeśli tak, to z jaką dokładnością? Innymi słowy, jaka jest zawartość informacyjna Niezależnego Konsultanta wśród osób pozostających w ośrodku? Czy ten test można wykorzystać w procesie kontrolnym?

Jeśli test służy do określenia (zdiagnozowania) stanu sportowca w momencie badania, wówczas mówi się o informacyjności diagnostycznej. Jeżeli na podstawie wyników testu chcą wyciągnąć wnioski na temat możliwych przyszłych wyników sportowca, test musi zawierać informacje predykcyjne. Test może mieć charakter diagnostyczny, ale nie prognostyczny i odwrotnie.

Stopień zawartości informacji można scharakteryzować ilościowo – na podstawie danych eksperymentalnych (tzw. empiryczna zawartość informacji) i jakościowo – na podstawie miarodajnej analizy sytuacji (merytoryczna, czyli logiczna, treść informacyjna).

3.2 Treść informacji empirycznej (przypadek pierwszy – istnieje mierzalne kryterium)

Ideą ustalania zawartości informacji empirycznej jest to, że wyniki testu porównuje się z jakimś kryterium. W tym celu należy obliczyć współczynnik korelacji pomiędzy kryterium a testem (współczynnik ten nazywany jest współczynnikiem informacyjności i oznaczany jest r gk, gdzie I jest pierwszą literą w słowie „test”, k w słowie „kryterium”).

Za kryterium uważa się wskaźnik, który w sposób oczywisty i bezsporny odzwierciedla właściwość, która będzie mierzona za pomocą testu.

Często zdarza się, że istnieje dobrze określone kryterium, z którym można porównać proponowany test. Na przykład, oceniając specjalne przygotowanie sportowców w sporcie z obiektywnie mierzonymi wynikami, sam wynik zwykle służy jako takie kryterium: test, którego korelacja z wynikiem sportowym jest wyższa, jest bardziej pouczający. W przypadku określenia zawartości informacji prognostycznej kryterium jest wskaźnik, którego prognozę należy przeprowadzić (przykładowo, jeśli przewiduje się długość ciała dziecka, kryterium jest długość jego ciała w wieku dorosłym).

Do najczęściej spotykanych kryteriów w metrologii sportowej należą:

Wynik sportowy.

Dowolna cecha ilościowa podstawowego ćwiczenia sportowego (na przykład długość kroku w biegu, siła odbicia w skokach, skuteczność walki pod tablicą w koszykówce, serw w tenisie lub siatkówce, procent celnych długich podań w piłce nożnej).

Wyniki innego badania, którego zawartość informacyjna została udowodniona (robi się to w przypadku, gdy przeprowadzenie badania kryterialnego jest uciążliwe i trudne i można wybrać inny test, który jest równie informacyjny, ale prostszy. Na przykład zamiast wymiany gazowej określ tętno). Ten szczególny przypadek, gdy kryterium jest inny test, nazywany jest treścią informacji konkurencyjnej.

Przynależność do określonej grupy. Możesz na przykład porównać członków kadry narodowej, mistrzów sportu i pierwszorzędnych sportowców; przynależność do jednej z tych grup jest kryterium. W tym przypadku stosuje się specjalne odmiany analiza korelacji.

Tzw. kryterium złożone, czyli np. suma punktów w wieloboju. W tym przypadku uniwersalne tabele typów i punktów mogą być albo ogólnie przyjęte, albo opracowane na nowo przez eksperymentatora (sposób kompilowania tabel można znaleźć w następnym rozdziale). Kryterium złożone stosuje się, gdy nie ma jednego kryterium (np. jeśli zadaniem jest ocena ogólnej sprawności fizycznej, umiejętności zawodnika w grach sportowych itp., żaden pojedynczy wskaźnik nie może służyć jako kryterium).

Przykład określenia zawartości informacyjnej tego samego testu – prędkość biegu 30 m w ruchu dla mężczyzn – przy różnych kryteriach podano w tabeli 4.

Kwestia wyboru kryterium jest zasadniczo najważniejsza dla określenia prawdziwego znaczenia i informatywności testu. Na przykład, jeśli zadaniem jest określenie zawartości informacyjnej takiego testu, jak skok w dal sprinterów z miejsca, możesz wybrać inne kryteria: wynik w biegu na 100 m, długość kroku, stosunek długości kroku do długości nogi lub na wysokość itp. Treść informacyjna testu ulegnie w tym przypadku zmianie (w podanym przykładzie wzrosła z 0,558 dla prędkości biegu do 0,781 dla stosunku „długość kroku/długość nogi”).

W sporcie, w którym nie da się obiektywnie zmierzyć sportowej rywalizacji, próbuje się ominąć tę trudność, wprowadzając sztuczne kryteria. Na przykład w grach zespołowych eksperci klasyfikują wszystkich graczy według ich umiejętności w określonej kolejności (tj. sporządzają listy 20, 50 lub, powiedzmy, 100 najsilniejszych graczy). Miejsce zajmowane przez sportowca (jak mówią jego ranga) jest uważane za kryterium, z którym porównuje się wyniki testów w celu określenia ich informatywności.

Powstaje pytanie: po co stosować testy, skoro kryterium jest znane? Czy nie jest na przykład łatwiej organizować zawody kontrolne i ustalać wyniki sportowe, niż ustalać osiągnięcia w ćwiczeniach kontrolnych? Stosowanie testów ma następujące zalety:

nie zawsze możliwe lub wskazane jest ustalenie wyniku sportowego (np. nie zawsze można organizować zawody w biegach maratońskich, zimą zwykle nie da się zarejestrować wyniku w rzucie oszczepem, a latem w narciarstwie biegowym);

wynik sportowy zależy od wielu przyczyn (czynników), takich jak siła, wytrzymałość, technika itp. Zastosowanie testów pozwala określić mocne i słabe strony sportowca oraz ocenić każdy z tych czynników z osobna

3.3 Informacyjność empiryczna (przypadek drugi – nie ma jednego kryterium; informatywność czynnikowa)

Często zdarza się, że nie ma jednego kryterium, według którego można porównać wyniki proponowanych badań. Załóżmy, że chcą znaleźć najbardziej pouczające testy, które pozwolą ocenić gotowość siłową młodych ludzi. Co wolisz: podciąganie na drążku lub pompki, przysiady ze sztangą, wiosłowanie ze sztangą, a może przejście do przysiadu z pozycji leżącej? Jakie może być kryterium wyboru odpowiedniego testu w tym przypadku?

Można zaproponować badanym dużą baterię różnych testów wytrzymałościowych, a następnie wybrać spośród nich te, które dają największą korelację z wynikami całego kompleksu (nie da się przecież systematycznie wykorzystywać całego kompleksu – jest to zbyt uciążliwe i niewygodne). Testy te będą najbardziej pouczające: dostarczą informacji o możliwych wynikach osób badanych w całym początkowym zestawie testów. Ale wyniki zestawu testów nie są wyrażone w jednej liczbie. Można oczywiście stworzyć jakieś kryterium złożone (na przykład określić ilość punktów zdobytych w jakiejś skali). Jednak znacznie skuteczniejszy jest inny sposób, oparty na idei analizy czynnikowej.

Analiza czynnikowa jest jedną z metod statystyki wieloczynnikowej (słowo „wielowymiarowy” wskazuje, że jednocześnie bada się wiele różnych wskaźników, na przykład wyniki osób w wielu testach). Jest to dość złożona metoda, dlatego w tym miejscu warto ograniczyć się do przedstawienia jedynie jej głównej idei.

Analiza czynnikowa wychodzi z faktu, że wynik dowolnego testu jest konsekwencją jednoczesnego działania szeregu czynników bezpośrednio nieobserwowalnych (inaczej zwanych ukrytymi). Przykładowo wyniki biegu na 100, 800 i 5000 m zależą od szybkości, siły, wytrzymałości itp. zawodnika. Znaczenie tych czynników dla każdego dystansu nie jest jednakowo ważne. Jeśli wybierzesz dwa testy, na które w przybliżeniu jednakowo wpływają te same czynniki, wówczas wyniki tych testów będą ze sobą silnie skorelowane (powiedzmy w biegach na dystansach 800 i 1000 m). Jeśli testy nie mają wspólnych czynników lub mają niewielki wpływ na wyniki, korelacja między tymi testami będzie niska (np. korelacja między wynikami na 100 m i 5000 m). Kiedy bierze się pod uwagę dużą liczbę różnych testów i oblicza się współczynniki korelacji między nimi, wówczas za pomocą analizy czynnikowej można określić, ile czynników współdziała na te testy i jaki jest stopień ich udziału w każdym teście. A wtedy łatwo jest wybrać testy (lub ich kombinacje), które najdokładniej oceniają poziom poszczególnych czynników. Taka jest idea silniowej zawartości informacyjnej testów. Poniższy przykład konkretnego eksperymentu pokazuje, jak to się robi.

Zadanie polegało na znalezieniu najbardziej pouczających testów pozwalających ocenić ogólną gotowość siłową uczniów-sportowców klas III i I uprawiających różne dyscypliny sportowe. W tym celu zostało to zbadane. (N.V. Averkovich, V.M. Zatsiorsky, 1966) według 15 testów, 108 osób. W wyniku analizy czynnikowej zidentyfikowano trzy czynniki: 1) siłę kończyn górnych, 2) siłę kończyn dolnych, 3) siłę mięśni brzucha i zginaczy stawu biodrowego. Najbardziej pouczające wśród badanych okazały się testy: dla pierwszego czynnika – pompki, dla drugiego – skok w dal z miejsca, dla trzeciego – unoszenie prostych nóg w zwisie oraz maksymalna liczba przejść do przysiadu z pozycji leżącej w ciągu 1 minuta . Jeśli ograniczymy się tylko do jednego testu, to najbardziej pouczające było przerzucenie siłą na poprzeczkę (oceniona została liczba powtórzeń).

3.4 Informatyka empiryczna w praktyce

Wykorzystując w praktyce empiryczne wskaźniki informacyjności, należy mieć na uwadze, że obowiązują one jedynie w odniesieniu do tych podmiotów i warunków, dla których są obliczane. Test, który ma charakter informacyjny w grupie początkujących, może okazać się całkowicie pozbawiony informacji, jeśli spróbujesz go zastosować w grupie mistrzów sportu.

Treść informacyjna testu nie jest taka sama w różnych grupach. W szczególności w grupach o bardziej jednorodnym składzie test zazwyczaj dostarcza mniej informacji. Jeśli zostanie określona zawartość informacyjna testu w dowolnej grupie, a następnie najsilniejsi z nich zostaną włączeni do kadry narodowej, wówczas zawartość informacyjna tego samego testu w kadrze narodowej będzie znacznie niższa. Przyczyny tego są wyraźnie widoczne na ryc. 5: selekcja zmniejsza ogólną wariancję wyników w grupie i zmniejsza wielkość współczynnika korelacji. Na przykład, jeśli określimy zawartość informacyjną takiego testu, jak MPC pływaków na 400 m, którzy mają znacznie różne wyniki (powiedzmy od 3,55 do 6,30), wówczas współczynnik treści informacyjnej będzie bardzo wysoki (Y 4th>0,90); jeśli przeprowadzimy te same pomiary w grupie pływaków z wynikami od 3,55 do 4,30, g liczba w wartości bezwzględnej nie przekroczy 0,4-0,6; jeśli ten sam wskaźnik ustalimy wśród najsilniejszych pływaków świata (3,53>, 5=4,00), to współczynnik treści informacyjnej w ogóle „”może być równy zeru: za pomocą samego tego testu nie będzie można rozróżnić między pływakami pływającymi powiedzmy 3,55 i 3,59, przy czym te i inne mają wartości MIC. będzie wysoka i mniej więcej taka sama.

Współczynniki informatywności w dużej mierze zależą od rzetelności testu i kryterium. Test o niskiej wiarygodności zawsze nie jest zbyt pouczający, dlatego nie ma sensu sprawdzać testów o niskiej wiarygodności pod kątem zawartości informacyjnej. Niedostateczna rzetelność kryterium prowadzi także do spadku współczynników informacyjności. Jednak w tym przypadku błędem byłoby zaniedbanie testu jako nieinformacyjnego - wszak górna granica możliwej korelacji testu to nie ±1, ale jego wskaźnik rzetelności. Dlatego konieczne jest porównanie współczynnika zawartości informacji z tym wskaźnikiem. Rzeczywistą zawartość informacyjną (skorygowaną o zawodność kryterium) oblicza się ze wzoru:

I tak, w jednej z prac, na podstawie ocen 4 ekspertów ustalono rangę zawodnika piłki wodnej (ranga była uznawana za kryterium umiejętności). Rzetelność (spójność) kryterium, określona za pomocą współczynnika korelacji wewnątrzklasowej, wyniosła 0,64. Współczynnik informacyjny wyniósł 0,56. Rzeczywisty współczynnik zawartości informacji (skorygowany o zawodność kryterium) wynosi:

Z informacyjnością i rzetelnością testu ściśle wiąże się koncepcja jego zdolności dyskryminacyjnej, rozumianej jako minimalna różnica między podmiotami diagnozowanymi za pomocą testu (pojęcie to ma podobne znaczenie do pojęcia czułości urządzenia). . Zdolność dyskryminacyjna testu zależy od:

Międzyosobnicze zróżnicowanie wyników. Na przykład test „maksymalna liczba powtarzających się rzutów piłką do koszykówki o ścianę z odległości 4 m w ciągu 10 sekund” jest dobry dla początkujących, ale nieodpowiedni dla wprawnych koszykarzy, ponieważ wszyscy dają w przybliżeniu ten sam wynik i stać się nie do odróżnienia. W wielu przypadkach zmienność międzyklasową można zwiększyć, zwiększając trudność testu. Na przykład, jeśli poddasz sportowcom o różnych kwalifikacjach łatwy dla nich test funkcjonalny (powiedzmy 20 przysiadów lub praca na ergometrze rowerowym o mocy 200 kgm/min), to wielkość zmian fizjologicznych u każdego będzie wynosić w przybliżeniu takie same i nie będzie można ocenić stopnia gotowości. Jeśli zaoferujesz im trudne zadanie, różnice między zawodnikami staną się duże i na podstawie wyników testów będzie można ocenić przygotowanie sportowców.

Rzetelność (tj. związek między zmiennością międzyosobniczą i wewnątrzosobniczą) testu i kryterium. Jeśli wyniki tego samego przedmiotu w skoku w dal z miejsca różnią się, powiedzmy:

Zatem w przypadkach ±10 cm, choć długość skoku można określić z dokładnością do ±1 cm, nie da się z całą pewnością rozróżnić osób, których „prawdziwe” wyniki wynoszą 315 i 316 cm.

Nie ma ustalonej wartości zawartości informacyjnej testu, po której można uznać test za odpowiedni.Wiele zależy od konkretnej sytuacji: pożądanej dokładności prognozy, konieczności uzyskania przynajmniej kilku dodatkowych informacji o sportowcu itp. W praktyce do diagnostyki wykorzystuje się testy, których zawartość informacyjna jest nie mniejsza niż 0,3. Do prognozy z reguły potrzebna jest większa zawartość informacyjna - co najmniej 0,6.

Zawartość informacyjna zestawu testów jest oczywiście wyższa niż zawartość informacyjna jednego testu. Często zdarza się, że zawartość informacyjna jednego pojedynczego testu jest zbyt mała, aby zastosować ten test. Zawartość informacyjna zestawu testów może być wystarczająca.

Nie zawsze można określić zawartość informacyjną testu na podstawie eksperymentu i matematycznego przetwarzania jego wyników. Przykładowo, jeśli zadaniem jest opracowanie kart na egzaminy lub tematów do prac dyplomowych (jest to również rodzaj testu), należy wybrać pytania, które niosą ze sobą najwięcej informacji, dzięki którym najdokładniej można ocenić wiedzę absolwentów i ich przygotowanie do pracy praktycznej. Na razie w takich przypadkach opierają się jedynie na logicznej, merytorycznej analizie sytuacji.

Czasami zdarza się, że treść informacyjna testu jest jasna bez żadnych eksperymentów, zwłaszcza gdy test jest po prostu częścią działań, które sportowiec wykonuje na zawodach. Nie potrzeba eksperymentów, aby wykazać informatywność takich wskaźników, jak czas potrzebny na wykonanie zwrotów w pływaniu, prędkość w ostatnich krokach rozbiegu w skoku w dal, procent rzutów wolnych w koszykówce, jakość służyć w tenisie lub siatkówce.

Jednak nie wszystkie takie testy są równie pouczające. Na przykład rzut z autu w piłce nożnej, mimo że jest elementem gry, trudno uznać za jeden z najważniejszych wskaźników umiejętności piłkarzy. Jeśli jest wiele takich testów i musisz wybrać te najbardziej pouczające, nie możesz obejść się bez matematycznych metod teorii testów.

Analiza treści informacyjnych testu oraz jego uzasadnienie doświadczalne i matematyczne powinny się uzupełniać. Żadne z tych podejść stosowane samodzielnie nie jest wystarczające. W szczególności, jeżeli w wyniku eksperymentu zostanie ustalony wysoki współczynnik zawartości informacyjnej testu, należy sprawdzić, czy nie jest to konsekwencja tzw. fałszywej korelacji. Wiadomo, że fałszywe korelacje pojawiają się, gdy na wyniki obu skorelowanych cech wpływa jakiś trzeci wskaźnik, który sam w sobie nie reprezentuje

odsetki. Przykładowo wśród uczniów szkół średnich można zaobserwować istotną korelację pomiędzy wynikiem w biegu na 100 m a znajomością geometrii, gdyż oni w porównaniu do uczniów szkół podstawowych będą średnio wykazywać się wyższymi wynikami zarówno w bieganiu, jak i znajomości geometrii. Trzecią, zewnętrzną cechą, która spowodowała pojawienie się korelacji, był wiek badanych. Oczywiście pomyliłby się badacz, który tego nie zauważył i zalecał egzamin z geometrii jako sprawdzian dla biegaczy na 100 m. Aby uniknąć takich błędów, należy przeanalizować związki przyczynowo-skutkowe, które spowodowały korelacja pomiędzy kryterium a testem. W szczególności przydatne jest wyobrażenie sobie, co by się stało, gdyby wyniki testów uległy poprawie. Czy przełoży się to na wzrost wyników kryterialnych? W powyższym przykładzie oznacza to: czy uczeń lepiej znający geometrię będzie szybszy w biegu na 100 m? Oczywista odpowiedź negatywna prowadzi do naturalnego wniosku: znajomość geometrii nie może być sprawdzianem dla sprinterów. Stwierdzona korelacja jest fałszywa. Oczywiście sytuacje z życia codziennego są znacznie bardziej złożone niż ten celowo głupi przykład.

Szczególnym przypadkiem znaczącej informatywności testów jest informatywność z definicji. W tym przypadku po prostu zgadzają się co do znaczenia, jakie należy nadać temu lub innemu słowu (terminowi). Mówią na przykład: „skok wzwyż z miejsca charakteryzuje się zdolnością do skakania”. Bardziej trafne byłoby stwierdzenie: „zgódźmy się, że zdolnością do skakania będziemy nazywać to, co mierzy się efektem wyskoczenia z miejsca”. Taka wzajemna zgoda jest konieczna, bo pozwala uniknąć niepotrzebnych nieporozumień (w końcu ktoś może zrozumieć, że umiejętność skakania skutkuje dziesięciokrotnym skokiem na jednej nodze, a skok wzwyż z miejsca uważać za, powiedzmy, próbę „wybuchowej” siły nóg ).

56.0 Standaryzacja testów

Standaryzację testów sprawności fizycznej mających na celu ocenę wydolności tlenowej człowieka osiąga się poprzez przestrzeganie poniższych zasad.

Metodologia badań musi umożliwiać bezpośredni pomiar lub pośrednie obliczenie maksymalnego zużycia tlenu przez organizm (wydajności tlenowej), gdyż ten fizjologiczny wskaźnik sprawności fizycznej człowieka jest najważniejszy. Będzie ona oznaczona symbolem gpax1ggsht U 0g i wyrażona w mililitrach na kilogram masy ciała pacjenta na minutę (ml/kg-min.).

Generalnie metodologia badań powinna być taka sama zarówno dla pomiarów laboratoryjnych, jak i terenowych, jednakże:

1. W warunkach laboratoryjnych (w laboratoriach stacjonarnych i mobilnych) wydolność tlenową człowieka można bezpośrednio określić przy użyciu dość skomplikowanego sprzętu i dużej liczby pomiarów.

2. W terenie wydolność tlenową ocenia się pośrednio na podstawie ograniczonej liczby pomiarów fizjologicznych.

Metodologia badań powinna umożliwiać porównanie ich wyników.

Badanie należy przeprowadzić w ciągu jednego dnia i najlepiej bez przerw. Umożliwi to celowe rozłożenie czasu, sprzętu i wysiłku podczas testów wstępnych i ponownych.

Metodologia badania musi być na tyle elastyczna, aby umożliwić badanie grup osób o różnych zdolnościach fizycznych, różnym wieku, płci, różnym poziomie aktywności itp.

57,0. Wybór sprzętu

Wszystkie powyższe zasady badań fizjologicznych można przestrzegać przede wszystkim pod warunkiem prawidłowego doboru następujących środków technicznych:

bieżnia,

ergometr rowerowy,

krokergometr,

niezbędny sprzęt pomocniczy, który można wykorzystać w dowolnym typie testu.

57.1. Bieżnia może być wykorzystywana w różnorodnych badaniach. Jednak to urządzenie jest najdroższe. Nawet najmniejsza wersja jest zbyt nieporęczna, aby można ją było powszechnie stosować w terenie. Bieżnia powinna umożliwiać prędkość od 3 do (co najmniej) 8 km/h (2-5 mil/h) i nachylenie od 0 do 30%. Nachylenie bieżni definiuje się jako procent wzniesienia w pionie w stosunku do przebytej odległości w poziomie.

Odległość i wzniesienie muszą być wyrażone w metrach, prędkość w metrach na sekundę (m/s) lub kilometrach na godzinę (km/h).

57.2. Ergometr rowerowy. Urządzenie to jest łatwe w obsłudze zarówno w warunkach laboratoryjnych jak i terenowych. Jest dość uniwersalny, można nim wykonywać prace o różnej intensywności - od poziomu minimalnego do maksymalnego.

Ergometr rowerowy posiada mechaniczny lub elektryczny układ hamulcowy. Elektryczny układ hamulcowy może być zasilany albo ze źródła zewnętrznego, albo z generatora umieszczonego na ergometrze.

Regulowany opór mechaniczny wyrażany jest w kilogramach na minutę (kgm/min) i watach. Kilometry na minutę przelicza się na waty, korzystając ze wzoru:

1 wat = 6 kgm/min. 2

Ergometr rowerowy musi posiadać ruchome siedzisko, tak aby wysokość jego położenia mogła być dostosowana indywidualnie do każdej osoby. Podczas testów fotelik jest zamontowany w taki sposób, aby osoba na nim siedząca mogła dosięgnąć dolnego pedału z prawie całkowicie wyprostowaną nogą. Średnio odległość siedziska od pedału w pozycji maksymalnie opuszczonej powinna wynosić 109% długości nogi osoby badanej.

Istnieją różne konstrukcje ergometrów rowerowych. Jednakże rodzaj ergometru nie ma wpływu na wyniki eksperymentu, jeśli podany opór w watach lub kilogramach na minutę dokładnie odpowiada całkowitemu obciążeniu zewnętrznemu.

Krokergometr. Jest to stosunkowo niedrogie urządzenie z możliwością regulacji wysokości stopnia od 0 do 50 cm, które podobnie jak ergometr rowerowy można z łatwością stosować zarówno w laboratorium, jak i w terenie.

Porównanie trzech opcji testowania. Każdy z tych instrumentów ma swoje zalety i wady (w zależności od tego, czy jest używany w laboratoriach, czy w terenie). Zwykle podczas pracy na bieżni wartość max1ggsht U07 jest nieco większa niż podczas pracy na ergometrze rowerowym; z kolei odczyty na ergometrze rowerowym przewyższają odczyty na stepergometrze.

Poziom wydatku energetycznego osób w spoczynku lub wykonujących zadanie pokonania grawitacji jest wprost proporcjonalny do ich masy ciała. Dlatego też ćwiczenia na bieżni i stepergometrze stwarzają dla wszystkich osób taki sam względny wysiłek związany z podnoszeniem (ciała) na daną wysokość: przy danej prędkości i nachyleniu bieżni, częstotliwości kroków i wysokości kroków na bieżni. krokergometr, wysokość ciała zostanie podniesiona - jest taka sama (ale wykonywana praca jest inna. - wyd.). Z kolei ergometr rowerowy przy stałej wartości danego obciążenia wymaga niemal takiego samego wydatku energetycznego, niezależnie od płci i wieku badanego.

58.0, Ogólne uwagi dotyczące procedur testowych

Aby zastosować testy na dużych grupach ludzi, potrzebne są proste i oszczędzające czas metody testowania. Jednak w celu bardziej szczegółowego zbadania cech fizjologicznych podmiotu potrzebne są bardziej dogłębne i pracochłonne testy. Aby uzyskać większą wartość z testów i bardziej elastycznie z nich korzystać, konieczne jest znalezienie optymalnego kompromisu pomiędzy tymi dwoma wymaganiami.

58.1. Intensywność pracy. Testowanie należy rozpocząć od małych obciążeń, z którymi poradzi sobie najsłabszy z badanych. Ocenę zdolności adaptacyjnych układu sercowo-naczyniowego i oddechowego należy przeprowadzać podczas pracy ze stopniowo wzrastającymi obciążeniami. Dlatego też granice funkcjonalne muszą być ustalone z wystarczającą precyzją. Względy praktyczne sugerują przyjęcie wyjściowego tempa metabolizmu (tj. spoczynkowego tempa metabolizmu) jako jednostki miary ilości energii wymaganej do wykonania danej czynności. Obciążenie początkowe i jego kolejne etapy wyrażone są w Meta, wielokrotnościach tempa metabolizmu człowieka w stanie całkowitego spoczynku. Fizjologiczne wskaźniki leżące u podstaw Meta to ilość tlenu (w mililitrach na minutę) zużywanego przez osobę w spoczynku lub jego kaloryczny odpowiednik (w kilokaloriach na minutę).

Aby monitorować obciążenia w jednostkach Met lub równoważne wartości zużycia tlenu bezpośrednio podczas testów, wymagany jest skomplikowany elektroniczny sprzęt obliczeniowy, który obecnie jest wciąż stosunkowo niedostępny. Dlatego też przy określaniu ilości tlenu potrzebnej organizmowi do wykonania obciążeń określonego rodzaju i intensywności praktycznie wygodnie jest posługiwać się wzorami empirycznymi. Przewidywane (na podstawie wzorów empirycznych – red.) wartości zużycia tlenu podczas pracy na bieżni – według prędkości i nachylenia, podczas próby schodkowej – według wysokości i częstotliwości kroków są dobrze zgodne z wynikami pomiarów bezpośrednich i może być stosowany jako fizjologiczny odpowiednik wysiłku fizycznego, z którym korelowane są wszystkie wskaźniki fizjologiczne uzyskane podczas badania.

58.2. Czas trwania testów. Chęć skrócenia procesu testowania nie powinna odbywać się ze szkodą dla celów i założeń testu. Zbyt krótkie testy nie dadzą wystarczająco rozróżnialnych wyników, a ich zdolność różnicująca będzie niewielka; Zbyt długie testy w większym stopniu aktywują mechanizmy termoregulacyjne, co utrudnia osiągnięcie maksymalnej wydajności tlenowej. W zalecanej procedurze testowej każdy poziom obciążenia utrzymuje się przez 2 minuty. Średni czas testu wynosi od 10 do 16 minut.

58.3. Wskazania do przerwania badania. Badanie należy przerwać, chyba że:

ciśnienie tętna stale spada pomimo zwiększonego obciążenia pracą;

skurczowe ciśnienie krwi przekracza 240–250 mmHg. Sztuka.;

rozkurczowe ciśnienie krwi wzrasta powyżej 125 mm Hg. Sztuka.;

pojawiają się objawy złego samopoczucia, takie jak nasilający się ból w klatce piersiowej, silna duszność, chromanie przestankowe;

pojawiają się kliniczne objawy niedotlenienia: bladość lub sinica twarzy, zawroty głowy, zjawiska psychotyczne, brak reakcji na podrażnienia;

Odczyty elektrokardiogramu wskazują na napadowe nadkomorowe lub komorowe zaburzenia rytmu, pojawienie się komorowych zespołów pozaskurczowych występujących przed końcem załamka T, zaburzenia przewodzenia z wyjątkiem łagodnej blokady L-V, zmniejszenie typu poziomego lub zstępującego /?-5G o więcej niż 0,3 mV. .;";, -

58,4. Środki ostrożności.

Zdrowie podmiotu. Przed badaniem podmiot musi przejść badania lekarskie i otrzymać zaświadczenie stwierdzające, że jest zdrowy. Zdecydowanie wskazane jest wykonanie elektrokardiogramu (przynajmniej jednego odprowadzenia piersiowego). W przypadku mężczyzn powyżej 40. roku życia obowiązkowe jest wykonanie elektrokardiogramu. Regularnie powtarzane pomiary ciśnienia krwi powinny stanowić integralną część całej procedury badawczej. Na zakończenie badania należy poinformować uczestników o środkach zapobiegających niebezpiecznemu gromadzeniu się krwi w kończynach dolnych.

Przeciwwskazania. Przedmiot nie jest dopuszczony do egzaminu w następujących przypadkach:

brak zgody lekarza na udział w badaniach z maksymalnymi obciążeniami;

temperatura w jamie ustnej przekracza 37,5°C;

tętno po długim odpoczynku przekracza 100 uderzeń/min;

wyraźny spadek czynności serca;

przypadek zawału lub zapalenia mięśnia sercowego w ciągu ostatnich 3 miesięcy; objawy i odczyty elektrokardiogramu wskazujące na obecność tych chorób; objawy dusznicy bolesnej;

choroby zakaźne, w tym przeziębienia.

Miesiączka nie jest przeciwwskazaniem do udziału w badaniach. Jednak w niektórych przypadkach wskazana jest zmiana harmonogramu ich gospodarstwa.

B. TESTY STANDARDOWE

59,0. Opis głównej metodologii prowadzenia standardu

We wszystkich trzech rodzajach ćwiczeń i niezależnie od tego, czy badanie przeprowadzane jest przy obciążeniu maksymalnym, czy submaksymalnym, podstawowa procedura badania jest taka sama.

Badany przychodzi do laboratorium w lekkim stroju sportowym i miękkim obuwiu. W ciągu 2 godzin. Przed rozpoczęciem badania nie powinien jeść, pić kawy i palić.

Odpoczynek. Badanie poprzedzone jest 15-minutową przerwą na odpoczynek. W tym czasie, gdy instalowane są fizjologiczne przyrządy pomiarowe, osoba badana siedzi wygodnie na krześle.

Okres zakwaterowania. Już pierwsze badanie dowolnego przedmiotu, podobnie jak wszystkie powtarzane testy, da dość wiarygodne wyniki, jeśli główny test zostanie poprzedzony krótkim okresem ćwiczeń z małym obciążeniem - okresem akomodacji. Trwa 3 minuty. i służy następującym celom:

zapoznać podmiot ze sprzętem i rodzajem pracy, jaką musi wykonywać;

wstępne badanie reakcji fizjologicznej pacjenta na obciążenie o wartości około 4 Meta, co odpowiada częstości akcji serca około 100 uderzeń/min;

przyspieszyć adaptację organizmu do samego testu.

Odpoczynek. Po okresie zakwaterowania następuje krótki (2 min.) okres odpoczynku; osoba badana siedzi wygodnie na krześle, podczas gdy eksperymentator dokonuje niezbędnych przygotowań technicznych.

Test. Na początku egzaminu ustala się obciążenie równe obciążeniu okresu akomodacyjnego, a osoba badana wykonuje ćwiczenia bez przerwy aż do zakończenia testu. Co 2 minuty obciążenie pracą wzrasta o 1 metr.

Testowanie zostaje zatrzymane, gdy wystąpi jeden z następujących warunków:

podmiot nie jest w stanie kontynuować wykonywania zadania;

występują oznaki dekompensacji fizjologicznej (patrz 58.3);

dane uzyskane na ostatnim etapie obciążenia pozwalają na ekstrapolację maksymalnej wydolności tlenowej na podstawie kolejnych pomiarów fizjologicznych (wykonywanych podczas badań. - przyp. red.).

59,5. Pomiary. Maksymalne zużycie tlenu w mililitrach na kilogram na minutę mierzy się bezpośrednio lub oblicza. Metody określania zużycia tlenu są bardzo zróżnicowane, podobnie jak dodatkowe techniki stosowane do analizy możliwości fizjologicznych każdego osobnika. Zostanie to omówione bardziej szczegółowo później.

59,6. Powrót do zdrowia. Po zakończeniu doświadczenia obserwację fizjologiczną kontynuuje się przez co najmniej 3 minuty. Badany ponownie spoczywa na krześle, lekko unosząc nogi.

Notatka. Opisana technika badania dostarcza porównywalnych danych fizjologicznych uzyskanych przy tej samej sekwencji zwiększania obciążenia na bieżni, ergometrze rowerowym i stepergometrze. Poniżej metodologia badań została opisana oddzielnie dla każdego z trzech urządzeń.

60,0. Test na bieżni

Sprzęt. Bieżnia i niezbędny sprzęt pomocniczy.

Opis. Podstawowe procedury testowe opisane w 59.0 są dokładnie przestrzegane.

Prędkość bieżni, na której porusza się pacjent, wynosi 80 m/min (4,8 km/h lub 3 mil/h). Przy tej prędkości energia potrzebna do poruszania się w poziomie wynosi około 3 Meta; Każde 2,5% zwiększenie nachylenia dodaje jedną jednostkę początkowego tempa metabolizmu, tj. 1 Met, do wydatku energetycznego. Pod koniec pierwszych 2 min. nachylenie bieżni szybko wzrasta do 5%, pod koniec kolejnych 2 minut - do 7,5%, następnie do 10%, 12,5% itd. Kompletny schemat podano w tabeli. 1.

Podobne dokumenty

    Przeprowadzanie badań kontrolnych z wykorzystaniem ćwiczeń kontrolnych lub testów sprawdzających gotowość do wysiłku fizycznego. Problem standaryzacji testów. Trafność zewnętrzna i wewnętrzna testów. Prowadzenie protokołu badania kontrolnego.

    streszczenie, dodano 11.12.2009

    Charakterystyka zdolności motorycznych oraz metody kształtowania gibkości, wytrzymałości, zwinności, siły i szybkości. Badanie zdolności motorycznych uczniów na lekcjach wychowania fizycznego. Zastosowanie testów motorycznych w ćwiczeniach praktycznych.

    teza, dodana 25.02.2011

    Ocena dynamiki zmian danych antropometrycznych u uczniów systematycznie trenujących lekkoatletykę oraz uczniów nieuczestniczących w sekcjach sportowych. Opracowanie testów określających ogólną sprawność fizyczną; analiza wyników.

    praca magisterska, dodana 07.07.2015

    Główne kierunki stosowania testów, ich klasyfikacja. Testy selekcji w zapasach. Metody oceny osiągnięć sportowych. Testowanie specjalnej wytrzymałości zapaśnika. Związek pomiędzy wskaźnikami testowymi a umiejętnościami technicznymi zapaśników freestyle.

    praca magisterska, dodana 03.03.2012

    Ocena wytrzymałości specjalnej pływaka za pomocą ćwiczeń kontrolnych. Adaptowalność podstawowych reakcji układów fizjologicznych w środowisku wodnym. Opracowanie zasad oceny wskaźników medycznych i biologicznych stosowanych podczas badania pływaka.

    artykuł, dodano 08.03.2009

    Uznanie zdrowej energii za podstawową podstawę zdrowia. Zapoznanie z cechami ćwiczeń gimnastycznych według systemu qigong. Dobór zestawu ćwiczeń do ćwiczeń domowych. Sporządzanie testów w celu wyciągnięcia wniosków na temat wykonanej pracy.

    praca magisterska, dodana 07.07.2015

    Metrologia sportowa to nauka o wielkościach fizycznych w wychowaniu fizycznym i sporcie. Podstawy pomiaru, teoria testów, oceny i normy. Metody pozyskiwania informacji na temat ilościowej oceny jakości wskaźników; jakość Elementy statystyki matematycznej.

    prezentacja, dodano 12.02.2012

    Istota i znaczenie kontroli w wychowaniu fizycznym oraz jej rodzaje. Sprawdzanie i ocena umiejętności motorycznych nabytych na lekcjach wychowania fizycznego. Badanie poziomu sprawności fizycznej. Monitorowanie stanu funkcjonalnego uczniów.

    praca na kursie, dodano 06.06.2014

    Obliczanie bezwzględnych i względnych błędów pomiarowych. Przeliczanie wyników testów na wyniki przy użyciu skali regresywnej i proporcjonalnej. Ranking wyników testów. Zmiany w rozmieszczeniu grup w porównaniu do poprzednich ocen.

    test, dodano 11.02.2013

    Tryb aktywności ruchowej. Rola czynników determinujących wydolność fizyczną piłkarzy na różnych etapach długotrwałego treningu. Rodzaje pomocy ergogenicznych. Metodologia przeprowadzania testów w celu określenia poziomu wydolności fizycznej.

Co to jest testowanie

Zgodnie z normą IEEE Std 829-1983 Testowanie to proces analizy oprogramowania mający na celu identyfikację różnic pomiędzy jego faktycznie istniejącymi i wymaganymi właściwościami (wadą) oraz ocenę właściwości oprogramowania.

Zgodnie z normą GOST R ISO IEC 12207-99 cykl życia oprogramowania definiuje m.in. pomocnicze procesy weryfikacji, certyfikacji, wspólnej analizy i audytu. Proces weryfikacji to proces stwierdzający, że oprogramowanie działa w pełni zgodnie z wymaganiami lub warunkami wdrożonymi w poprzedniej pracy. Proces ten może obejmować analizę, weryfikację i testowanie (testowanie). Proces certyfikacji to proces stwierdzający kompletność zgodności ustalonych wymagań, utworzonego systemu lub oprogramowania z jego przeznaczeniem funkcjonalnym. Proces wspólnej recenzji to proces oceny stanów i, jeśli to konieczne, wyników prac (produktów) projektu. Proces audytu to proces sprawdzający zgodność z wymaganiami, planami i warunkami umowy. Razem te procesy składają się na to, co zwykle nazywa się testowaniem.

Testowanie opiera się na procedurach testowych z określonymi danymi wejściowymi, warunkami początkowymi i oczekiwanymi wynikami, zaprojektowanymi w konkretnym celu, takim jak weryfikacja konkretnego programu lub weryfikacja zgodności z określonym wymaganiem. Procedury testowe mogą testować różne aspekty funkcjonowania programu, od poprawnego działania określonej funkcji po odpowiednie spełnienie wymagań biznesowych.

Realizując projekt należy rozważyć, według jakich norm i wymagań produkt będzie testowany. Jakie narzędzia (jeśli w ogóle) zostaną użyte do znalezienia i udokumentowania wykrytych usterek. Jeśli od samego początku projektu będziemy pamiętać o testowaniu, testowanie powstającego produktu nie przyniesie przykrych niespodzianek. Oznacza to, że jakość produktu najprawdopodobniej będzie dość wysoka.

Cykl życia produktu i testowanie

Coraz częściej w dzisiejszych czasach wykorzystuje się iteracyjne procesy wytwarzania oprogramowania, w szczególności technologię RUP – Racjonalny Ujednolicony Proces(ryc. 1). Dzięki takiemu podejściu testowanie przestaje być procesem „od ręki”, który ma miejsce po napisaniu przez programistów całego niezbędnego kodu. Praca nad testami rozpoczyna się już na początkowym etapie identyfikacji wymagań dla przyszłego produktu i jest ściśle zintegrowana z bieżącymi zadaniami. A to stawia nowe wymagania testerom. Ich rola nie ogranicza się do możliwie najpełniejszego i jak najwcześniejszego identyfikowania błędów. Muszą uczestniczyć w ogólnym procesie identyfikacji i eliminowania najważniejszych ryzyk projektu. W tym celu dla każdej iteracji określany jest cel testowania i metody jego osiągnięcia. A na koniec każdej iteracji określa się, w jakim stopniu cel został osiągnięty, czy potrzebne są dodatkowe testy i czy należy zmienić zasady i narzędzia przeprowadzania testów. Z kolei każda wykryta wada musi przejść swój własny cykl życia.

Ryż. 1. Cykl życia produktu według RUP

Testowanie zazwyczaj przeprowadza się w cyklach, z których każdy ma określoną listę zadań i celów. Cykl testowania może pokrywać się z iteracją lub odpowiadać określonej jej części. Zwykle cykl testowy przeprowadzany jest dla konkretnej wersji systemu.

Cykl życia oprogramowania składa się z serii stosunkowo krótkich iteracji (rysunek 2). Iteracja to pełny cykl rozwoju prowadzący do wydania produktu końcowego lub jego skróconej wersji, który rozwija się z iteracji na iterację, aby ostatecznie stać się kompletnym systemem.

Każda iteracja obejmuje zazwyczaj zadania planowania pracy, analizy, projektowania, wdrażania, testowania i oceny osiągniętych wyników. Jednak relacje między tymi zadaniami mogą się znacząco zmienić. Zgodnie z zależnością pomiędzy różnymi zadaniami w iteracji, grupuje się je w fazy. Pierwsza faza, Początek, skupia się na zadaniach analitycznych. Druga faza iteracji, Rozwój, koncentruje się na projektowaniu i testowaniu kluczowych rozwiązań projektowych. W trzeciej fazie – Construction – największa część zadań deweloperskich i testowych. Natomiast w ostatniej fazie – Transferze – w największym stopniu rozwiązywane są zadania testowania i przekazania systemu Klientowi.

Ryż. 2. Iteracje cyklu życia oprogramowania

Każda faza ma swoje specyficzne cele w cyklu życia produktu i jest uważana za zakończoną, gdy te cele zostaną osiągnięte. Wszystkie iteracje, z wyjątkiem być może iteracji fazy Początku, kończą się utworzeniem działającej wersji opracowywanego systemu.

Kategorie testowe

Testy różnią się znacznie pod względem rozwiązywanych problemów i wykorzystywanej technologii.

Kategorie testowe Opis kategorii Rodzaje testów
Aktualne testy Dodano zestaw testów mających na celu określenie funkcjonalności nowych funkcji systemu.
  • Test naprężeń;
  • testowanie cykli koniunkturalnych;
  • test naprężeń.
Testowanie regresyjne Celem testów regresyjnych jest sprawdzenie, czy dodatki do systemu nie zmniejszają jego możliwości, tj. testowanie odbywa się według wymagań, które zostały już spełnione przed dodaniem nowych funkcji.
  • Test naprężeń;
  • testowanie cykli koniunkturalnych;
  • test naprężeń.

Testowanie podkategorii

Testowanie podkategorii Opis rodzaju badania Podtypy testów
Test naprężeń Służy do testowania wszystkich funkcji aplikacji bez wyjątku. W tym przypadku kolejność testowania funkcji nie ma znaczenia.
  • testy funkcjonalności;
  • testowanie interfejsu;
  • testowanie baz danych
Testowanie cyklu koniunkturalnego Służy do testowania funkcji aplikacji w kolejności, w jakiej są wywoływane przez użytkownika. Na przykład symulowanie wszystkich działań księgowego w pierwszym kwartale.
  • testy jednostkowe (testy jednostkowe);
  • testy funkcjonalności;
  • testowanie interfejsu;
  • testowanie baz danych.
Test naprężeń

Używany do testów

Wydajność aplikacji. Celem tych testów jest określenie zakresu stabilnego działania aplikacji. Podczas tego testu wywoływane są wszystkie dostępne funkcje.

  • testy jednostkowe (testy jednostkowe);
  • testy funkcjonalności;
  • testowanie interfejsu;
  • testowanie baz danych.

Rodzaje testów

Testów jednostkowych (testowanie jednostkowe) - ten typ polega na testowaniu poszczególnych modułów aplikacji. Aby uzyskać maksymalne wyniki, testowanie odbywa się jednocześnie z opracowywaniem modułów.

Testy funkcjonalności - Celem tego testu jest sprawdzenie, czy element testowy działa prawidłowo. Sprawdzana jest poprawność poruszania się po obiekcie oraz wprowadzania, przetwarzania i wyprowadzania danych.

Testowanie bazy danych - sprawdzanie funkcjonalności bazy danych podczas normalnej pracy aplikacji, podczas przeciążeń oraz w trybie wielu użytkowników.

Testów jednostkowych

W przypadku OOP typowym sposobem organizacji testów jednostkowych jest testowanie metod każdej klasy, następnie klasy każdego pakietu i tak dalej. Stopniowo przechodzimy do testowania całego projektu, a dotychczasowe testy mają charakter regresyjny.

Dokumentacja wyjściowa tych testów obejmuje procedury testowe, dane wejściowe, kod wykonujący test i dane wyjściowe. Poniżej przedstawiono rodzaj dokumentacji wyjściowej.

Testy funkcjonalności

Testowanie funkcjonalne elementu testowego jest planowane i przeprowadzane w oparciu o wymagania testowe określone na etapie definiowania wymagań. Wymagania obejmują reguły biznesowe, diagramy przypadków użycia, funkcje biznesowe i, jeśli są dostępne, diagramy działań. Celem testów funkcjonalnych jest sprawdzenie, czy opracowane komponenty graficzne spełniają określone wymagania.

Tego typu testów nie da się w pełni zautomatyzować. Dlatego dzieli się na:

  • Testowanie automatyczne (będzie stosowane w przypadku, gdy możliwe jest sprawdzenie informacji wyjściowych).

Cel: testowanie wprowadzania, przetwarzania i wyprowadzania danych;

  • Testowanie ręczne (w pozostałych przypadkach).

Cel: Sprawdza, czy wymagania użytkownika są prawidłowo spełnione.

Należy wykonać (odtworzyć) każdy z przypadków użycia, używając zarówno wartości prawidłowych, jak i oczywiście błędnych, aby potwierdzić prawidłowe działanie, zgodnie z następującymi kryteriami:

  • produkt odpowiednio reaguje na wszystkie wprowadzone dane (oczekiwane wyniki są wyświetlane w odpowiedzi na prawidłowo wprowadzone dane);
  • produkt odpowiednio reaguje na błędnie wprowadzone dane (pojawiają się odpowiednie komunikaty o błędach).

Testowanie bazy danych

Celem tych testów jest zapewnienie niezawodności metod dostępu do baz danych, ich prawidłowego wykonania, bez naruszenia integralności danych.

Należy korzystać sekwencyjnie z jak największej liczby wywołań bazy danych. Stosuje się podejście, w którym test jest zaprojektowany w taki sposób, aby „załadować” bazę danych sekwencją zarówno wartości poprawnych, jak i oczywiście błędnych. Określana jest reakcja bazy danych na wprowadzone dane oraz szacuje się przedziały czasowe ich przetwarzania.

Część pierwsza, teoria testów, zawiera opis modeli statystycznych służących do przetwarzania danych diagnostycznych. Zawiera modele do analizy odpowiedzi w zadaniach testowych oraz modele do obliczania całkowitych wyników testów. Mullenberg (1980, 1990) nazwał to „psychometrią”. Klasyczna teoria testów, współczesna teoria testów (lub model Item Response Analysis – IRT) oraz


próbki pozycji stanowią trzy najważniejsze typy modeli teorii testów. Przedmiotem rozważań psychodiagnostyki są dwa pierwsze modele.

Klasyczna teoria testu. Na podstawie tej teorii opracowano większość testów intelektualnych i osobowości. Centralnym pojęciem tej teorii jest pojęcie „niezawodności”. Rzetelność odnosi się do spójności wyników w powtarzanych ocenach. W podręcznikach pojęcie to jest zwykle przedstawiane bardzo skrótowo, a następnie podany jest szczegółowy opis aparatu statystyki matematycznej. W tym rozdziale wprowadzającym przedstawimy zwięzły opis podstawowego znaczenia omawianego pojęcia. W klasycznej teorii testów niezawodność odnosi się do powtarzalności wyników kilku procedur pomiarowych (głównie pomiarów z wykorzystaniem testów). Pojęcie niezawodności wiąże się z obliczeniem błędu pomiaru. Wyniki uzyskane podczas procesu badawczego można przedstawić jako sumę wyniku rzeczywistego i błędu pomiaru:

Xi = Ti+ Ej

Gdzie Xi jest oceną uzyskanych wyników, Ti jest wynikiem prawdziwym, oraz Ej- błąd pomiaru.

Oceną uzyskanych wyników jest z reguły liczba poprawnych odpowiedzi na zadania testowe. Prawdziwy wynik można uważać za prawdziwą ocenę w sensie platońskim (Gulliksen, 1950). Koncepcja oczekiwanych rezultatów jest szeroko rozpowszechniona, tj. pomysły na wyniki, które można uzyskać w wyniku dużej liczby powtórzeń procedur pomiarowych (Pan & Nowicz, 1968). Jednak przeprowadzenie tej samej procedury oceny przez jedną osobę nie jest możliwe. Należy zatem szukać innych możliwości rozwiązania problemu (Witlman, 1988).

Koncepcja ta przyjmuje pewne założenia dotyczące prawdziwych wyników i błędów pomiaru. Te ostatnie są traktowane jako niezależny czynnik, co oczywiście jest całkowicie rozsądnym założeniem, ponieważ losowe wahania wyników nie dają kowariancji: rEE =0.

Zakłada się, że nie ma korelacji między wynikami rzeczywistymi a błędami pomiaru: reEE =0.


Całkowity błąd wynosi 0, ponieważ Za prawdziwe oszacowanie przyjmuje się średnią arytmetyczną:

Założenia te ostatecznie prowadzą nas do dobrze znanej definicji niezawodności jako stosunku prawdziwego wyniku do całkowitej wariancji lub wyrażenia: 1 minus stosunek, którego licznikiem jest błąd pomiaru, a mianownikiem jest całkowita wariancja:


, LUB

Ze wzoru na określenie niezawodności otrzymujemy wariancję błędu S2 (E) równy całkowitej wariancji liczby przypadków (1 – r XX „); zatem błąd standardowy pomiaru określa się wzorem:

Po teoretycznym uzasadnieniu niezawodności i jej pochodnych należy wyznaczyć wskaźnik niezawodności konkretnego testu. Istnieją praktyczne procedury oceny wiarygodności testów, takie jak stosowanie wymiennych form (testy równoległe), dzielenie elementów na dwie części, ponowne testowanie i pomiar spójności wewnętrznej. W każdym podręczniku znajdują się wskaźniki zgodności wyników badań:

r XX’ =r(x 1 , x 2)

Gdzie r XX ' - współczynnik stabilności oraz x 1 I x 2 - wyniki dwóch pomiarów.

Koncepcję niezawodności form wymiennych wprowadził i rozwinął Gulliksen (1950). Procedura ta jest dość pracochłonna, ponieważ wiąże się z koniecznością stworzenia równoległej serii zadań

r XX’ =r(x 1 , x 2)

Gdzie r XX ' - współczynnik równoważności oraz x 1 I x 2 - dwa równoległe testy.

Kolejna procedura - podzielenie głównego ciasta na dwie części A i B - jest łatwiejsza w wykonaniu. Wyniki uzyskane z obu części testu są ze sobą skorelowane. Stosując wzór Spearmana-Browna ocenia się rzetelność testu jako całości:

gdzie A i B to dwie równoległe części testu.

Kolejną metodą jest określenie wewnętrznej spójności zadań testowych. Metoda ta opiera się na wyznaczaniu kowariancji poszczególnych zadań. Sg to wariancja losowo wybranego zadania, a Sgh to kowariancja dwóch losowo wybranych zadań. Najczęściej stosowanym współczynnikiem do określenia spójności wewnętrznej jest alfa Cronbacha. Formuła jest również stosowana KR20 i λ-2(lamda-2).

Klasyczna koncepcja niezawodności definiuje błędy pomiarowe powstające zarówno podczas badań, jak i podczas obserwacji. Źródła tych błędów są różne: mogą to być cechy osobiste, cechy warunków testowania i same zadania testowe. Istnieją specjalne metody obliczania błędów. Wiemy, że nasze obserwacje mogą okazać się błędne, nasze narzędzia metodologiczne są niedoskonałe, tak jak niedoskonali są sami ludzie. (Jak nie pamiętać Szekspira: „Niegodny zaufania jesteś ty, który masz na imię człowiek”). Fakt, że w klasycznej teorii testów błędy pomiarowe są wyraźnie widoczne i wyjaśniane, jest ważnym pozytywnym punktem.

Klasyczna teoria testu ma wiele istotnych cech, które można również uznać za jej wady. Niektóre z tych cech są odnotowane w podręcznikach, ale rzadko podkreśla się ich znaczenie (z codziennego punktu widzenia) ani nie zauważa się, że z teoretycznego lub metodologicznego punktu widzenia należy je uważać za wady.

Pierwszy. Klasyczna teoria testów i koncepcja niezawodności skupiają się na obliczaniu całkowitych wyników testów, które są wynikiem zsumowania wyników uzyskanych w poszczególnych zadaniach. Tak, podczas pracy


Drugi. Współczynnik rzetelności polega na ocenie wielkości rozproszenia mierzonych wskaźników. Wynika z tego, że współczynnik rzetelności będzie niższy, jeśli (przy pozostałych wskaźnikach niezmienionych) próba będzie bardziej jednorodna. Nie ma jednego współczynnika wewnętrznej spójności pozycji testowych, współczynnik ten jest zawsze „kontekstowy”. Na przykład Crocker i Algina (1986) proponują specjalną formułę „korekty próbki jednorodnej”, zaprojektowaną dla najwyższych i najniższych wyników uzyskanych przez osoby badane. Ważne jest, aby diagnosta znał charakterystykę zmienności populacji próby, w przeciwnym razie nie będzie mógł zastosować do tego badania określonych w instrukcji współczynników spójności.

Trzeci. Zjawisko redukcji do średniej arytmetycznej jest logiczną konsekwencją klasycznej koncepcji niezawodności. Jeśli wynik testu ulega wahaniom (tj. nie jest wystarczająco wiarygodny), możliwe jest, że po powtórzeniu procedury osoby z niskimi wynikami otrzymają wyższe wyniki i odwrotnie, osoby z wysokimi wynikami otrzymają niski wynik. Tego artefaktu procedury pomiarowej nie należy mylić z prawdziwą zmianą lub przejawem procesów rozwojowych. Ale jednocześnie nie jest łatwo je rozróżnić, bo... Nigdy nie można wykluczyć możliwości zmian w trakcie rozwoju. Dla całkowitej pewności konieczne jest porównanie z grupą kontrolną.

Czwartą cechą testów opracowanych zgodnie z zasadami teorii klasycznej jest obecność danych normatywnych. Znajomość norm testowych pozwala badaczowi na odpowiednią interpretację wyników osób zdających. Poza normami wyniki testów są bez znaczenia. Opracowanie standardów testów jest przedsięwzięciem dość kosztownym, gdyż psycholog musi uzyskać wyniki testów z reprezentatywnej próby.

2 Ya ter Laak

Jeżeli mówimy o mankamentach klasycznej koncepcji niezawodności, to warto przytoczyć wypowiedź Siytsmy (1992, s. 123-125). Zauważa, że ​​pierwszym i głównym założeniem klasycznej teorii testów jest to, że wyniki testów są zgodne z zasadą przedziału. Nie ma jednak badań potwierdzających to założenie. W istocie jest to „pomiar według arbitralnie ustalonej reguły”. Ta cecha stawia klasyczną teorię testu w niekorzystnej sytuacji w porównaniu ze skalami pomiaru postawy i, oczywiście, w porównaniu z współczesną teorią testu. Wiele metod analizy danych (analiza wariancji, analiza regresji, analiza korelacji i czynnikowa) opiera się na założeniu istnienia skali przedziałowej. Nie ma jednak solidnych podstaw. Można jedynie zakładać, że skala prawdziwych wyników jest skalą wartości cech psychologicznych (na przykład zdolności arytmetycznych, inteligencji, neurotyczności).

Druga uwaga dotyczy faktu, że wyniki testu nie są absolutnymi wskaźnikami tej czy innej cechy psychologicznej badanej osoby, należy je traktować jedynie jako wyniki tego czy innego testu. Dwa testy mogą mieć na celu zbadanie tych samych cech psychologicznych (np. inteligencji, zdolności werbalnych, ekstrawersji), ale nie oznacza to, że te dwa testy są równoważne lub mają te same możliwości. Porównywanie wyników dwóch osób badanych różnymi testami jest nieprawidłowe. To samo dotyczy sytuacji, gdy ten sam zdający zdaje dwa różne testy. Trzeci punkt dotyczy założenia, że ​​błąd standardowy pomiaru jest taki sam dla każdego poziomu mierzonych indywidualnych zdolności. Nie ma jednak empirycznego sprawdzenia tego założenia. Na przykład nie ma gwarancji, że osoba zdająca posiadająca dobre umiejętności matematyczne uzyska wysoki wynik w stosunkowo prostym teście arytmetycznym. W takim przypadku osoba o niskich lub średnich zdolnościach ma większe szanse na otrzymanie wysokiej oceny.

W ramach współczesnej teorii testów lub teorii analizy odpowiedzi pozycje testowe zawierają opis dużego


liczba modeli możliwych odpowiedzi respondentów. Modele te różnią się założeniami, na których opierają się, a także wymaganiami dotyczącymi uzyskiwanych danych. Model Rascha jest często uważany za synonim teorii analizy odpowiedzi na pozycje (1RT). Tak naprawdę jest to tylko jeden z modeli. Przedstawiony w nim wzór na opis krzywej charakterystycznej zadania g jest następujący:

Gdzie G- osobne zadanie testowe; do potęgi- funkcja wykładnicza (zależność nieliniowa); δ („delta”) - poziom trudności testu.

Inne elementy testowe, np. H, uzyskują także własne krzywe charakterystyczne. Warunek spełniony δ godz > δ g (np Oznacza to, że H- trudniejsze zadanie. Dlatego dla dowolnej wartości wskaźnika Θ („theta” – ukryte właściwości zdolności zdających) prawdopodobieństwo pomyślnego wykonania zadania H mniej. Model ten nazywa się ścisłym, gdyż jest oczywiste, że przy niskim stopniu ekspresji cechy prawdopodobieństwo wykonania zadania jest bliskie zeru. W tym modelu nie ma miejsca na domysły i domysły. W przypadku zadań wielokrotnego wyboru nie ma potrzeby przyjmowania założeń dotyczących prawdopodobieństwa powodzenia. Dodatkowo model ten jest rygorystyczny w tym sensie, że wszystkie pozycje testowe muszą posiadać tę samą zdolność dyskryminacyjną (wysoka dyskryminacyjność znajduje odzwierciedlenie w stromości krzywej; można tu skonstruować skalę Guttmana, według której w każdym punkcie krzywej charakterystycznej prawdopodobieństwo wykonania zadania waha się od O do 1). Z tego powodu nie wszystkie pozycje można uwzględnić w testach opartych na modelu Rascha.

Istnieje kilka wariantów tego modelu (np. Birnbaura, 1968; zob. Lord i Novik). Pozwala na istnienie zadań o różnej dyskryminacji

umiejętność.

Holenderski badacz Mokken (1971) opracował dwa modele analizy odpowiedzi elementów testowych, które są mniej rygorystyczne niż model Rascha, a zatem być może bardziej realistyczne. Jako warunek podstawowy

Via Mokken wysuwa tezę, że krzywa charakterystyczna zadania powinna przebiegać jednostajnie, bez przerw. Wszystkie zadania testowe mają na celu zbadanie tej samej cechy psychologicznej, którą należy zmierzyć V. Dopuszczalna jest jakakolwiek forma tej zależności, dopóki nie zostanie przerwana. Zatem o kształcie krzywej charakterystycznej nie decyduje żadna konkretna funkcja. Ta „swoboda” pozwala na wykorzystanie większej liczby pozycji testowych, a poziom oceny nie jest wyższy niż zwykle.

Metodologia wzorców odpowiedzi na pozycje (IRT) różni się od metodologii większości badań eksperymentalnych i korelacyjnych. Model matematyczny przeznaczony jest do badania cech behawioralnych, poznawczych, emocjonalnych, a także zjawisk rozwojowych. Zjawiska te często ograniczają się do odpowiedzi na pytania, co skłoniło Mellenberga (1990) do nazwania IRT „teorią mini-zachowania”. Wyniki badania można w pewnym stopniu przedstawić w postaci krzywych spójności, szczególnie w przypadkach, gdy brakuje teoretycznego zrozumienia badanych cech. Do tej pory dysponujemy jedynie kilkoma testami inteligencji, uzdolnień i osobowości stworzonymi w oparciu o liczne modele teorii IRT. Przy opracowywaniu testów osiągnięć częściej wykorzystuje się warianty modelu Rascha (Verhelst, 1993), natomiast modele Mokkena bardziej nadają się do zjawisk rozwojowych (patrz także rozdział 6).

Reakcja osoby badanej na elementy testowe jest podstawową jednostką modeli IRT. Rodzaj reakcji zależy od stopnia ekspresji badanej cechy u danej osoby. Cechą taką mogą być na przykład zdolności arytmetyczne czy przestrzenne. W większości przypadków jest to ten lub inny aspekt inteligencji, charakterystyka osiągnięć lub cechy osobowości. Zakłada się, że istnieje nieliniowa zależność pomiędzy pozycją danej osoby w pewnym zakresie badanych cech a prawdopodobieństwem pomyślnego wykonania danego zadania. Nieliniowość tej zależności jest w pewnym sensie intuicyjna. Słynne frazy „Każdy początek jest trudny” (powolne nie-


start liniowy) i „Nie jest łatwo zostać świętym” oznaczają, że dalsza poprawa po osiągnięciu pewnego poziomu jest trudna. Krzywa powoli się zbliża, ale prawie nigdy nie osiąga 100% wskaźnika sukcesu.

Niektóre modele raczej zaprzeczają naszemu intuicyjnemu zrozumieniu. Weźmy ten przykład. Osoba o dobrowolnym wskaźniku intensywności charakterystycznej wynoszącym 1,5 ma 60% prawdopodobieństwa powodzenia w wykonaniu zadania. Kłóci się to z naszym intuicyjnym rozumieniem takiej sytuacji, gdyż albo zadanie można sobie skutecznie poradzić, albo nie można sobie z nim poradzić wcale. Weźmy taki przykład: osoba próbuje 100 razy osiągnąć wysokość 1 m 50 cm, sukces towarzyszy mu 60 razy, tj. ma 60-procentową skuteczność.

Aby ocenić nasilenie cechy, wymagane są co najmniej dwa zadania. Model Rascha polega na określeniu nasilenia cech niezależnie od trudności zadania. To też kłóci się z naszą intuicją: załóżmy, że dana osoba ma 80% szans na skok powyżej 1,30 m. Jeśli tak jest, to według krzywej charakterystyki zadania ma 60% szans na skok powyżej 1,50 m i 40% szans skoku powyżej 1,50 m. prawdopodobieństwo skoku powyżej 1,70 m. Zatem niezależnie od wartości zmiennej niezależnej (wzrost) można oszacować zdolność danej osoby do wysokich skoków.

Istnieje około 50 modeli IRT (Goldstein i Wood, 1989).Istnieje wiele funkcji nieliniowych, które opisują (wyjaśniają) prawdopodobieństwo powodzenia w wykonaniu zadania lub grupy zadań. Wymagania i ograniczenia tych modeli są różne, a różnice te można ujawnić porównując model Rascha i skalę Mokkena. Wymagania tych modeli obejmują:

1) potrzebę określenia badanej cechy i oceny miejsca osoby w obrębie tej cechy;

2) ocena kolejności zadań;

3) sprawdzenie konkretnych modeli. W psychometrii opracowano wiele procedur testowania modelu.

Niektóre podręczniki omawiają teorię IRT jako formę analizy pozycji testowych (patrz na przykład

Croker i Algina, J 986). Można jednak argumentować, że IRT to „mini-teoria dotycząca mini-zachowania”. Zwolennicy teorii IRT zauważają, że jeśli koncepcje (modele) na poziomie średniozaawansowanym są niedoskonałe, to co można powiedzieć o bardziej złożonych konstruktach w psychologii?

Klasyczne i współczesne teorie testów. Ludzie nie mogą powstrzymać się od porównywania rzeczy, które wyglądają prawie tak samo. (Być może codzienny odpowiednik psychometrii polega głównie na porównywaniu ludzi pod kątem istotnych cech i wybieraniu między nimi.) Każda z zaprezentowanych teorii – teoria pomiaru błędów estymacji i model matematyczny odpowiedzi testowych – ma swoich zwolenników (Goldstein i Wood, 1986).

Modelom IRT nie zarzuca się, że są „ocenami opartymi na regułach”, jak klasyczna teoria testów. Model IRT koncentruje się na analizie ocenianych cech. Charakterystyki osobowości i charakterystyki zadań ocenia się za pomocą skal (porządkowych lub przedziałowych). Co więcej, możliwe jest porównanie wyników różnych testów mających na celu badanie podobnych cech. Wreszcie, rzetelność nie jest taka sama dla każdej wartości na skali, a średnie wyniki są na ogół bardziej wiarygodne niż wyniki na początku i na końcu skali. Zatem modele IRT wydają się teoretycznie lepsze. Istnieją także różnice w praktycznym zastosowaniu współczesnej teorii testów i teorii klasycznej (Sijstma, 1992, s. 127-130). Współczesna teoria testów jest bardziej złożona w porównaniu do klasycznej, dlatego rzadziej korzystają z niej osoby niebędące specjalistami. Ponadto IRT ma specyficzne wymagania zadaniowe. Oznacza to, że z badania należy wykluczyć pozycje, które nie spełniają wymagań modelu. Zasada ta ma ponadto zastosowanie do tych zadań, które były częścią szeroko stosowanych testów zbudowanych na zasadach teorii klasycznej. Test staje się krótszy, a przez to spada jego wiarygodność.

IRT zapewnia modele matematyczne do badania zjawisk w świecie rzeczywistym. Modele powinny pomóc nam zrozumieć kluczowe aspekty tych zjawisk. Tutaj jednak leży główne pytanie teoretyczne. Można rozważyć modele


jako podejście do badania złożonej rzeczywistości, w której żyjemy. Ale model i rzeczywistość to nie to samo. Według poglądu pesymistycznego możliwe jest modelowanie jedynie izolowanych (i nie najciekawszych) typów zachowań. Można też spotkać się ze stwierdzeniem, że rzeczywistości w ogóle nie da się modelować, bo podlega ona nie tylko prawom przyczynowo-skutkowym. W najlepszym przypadku możliwe jest modelowanie indywidualnych (idealnych) zjawisk behawioralnych. Istnieje inny, bardziej optymistyczny pogląd na możliwości modelowania. Powyższe stanowisko blokuje możliwość głębokiego zrozumienia natury zjawisk ludzkiego zachowania. Zastosowanie tego czy innego modelu rodzi pewne ogólne, fundamentalne pytania. Naszym zdaniem nie ma wątpliwości, że IRT jest koncepcją przewyższającą teoretycznie i technicznie klasyczną teorię testów.

Praktycznym celem testów, niezależnie od tego, na jakiej podstawie teoretycznej są tworzone, jest ustalenie istotnych kryteriów i ustalenie na ich podstawie cech określonych konstruktów psychologicznych. Czy model IRT ma zalety również pod tym względem? Możliwe, że testy oparte na tym modelu nie przewidują dokładniej niż testy oparte na teorii klasycznej i możliwe, że ich wkład w rozwój konstruktów psychologicznych nie jest większy. Diagnozy preferują kryteria, które są bezpośrednio istotne dla jednostki, instytucji lub społeczności. Model bardziej zaawansowany naukowo „ipso facto”* nie definiuje bardziej odpowiedniego kryterium i jest w pewnym stopniu ograniczony w wyjaśnianiu konstrukcji naukowych. Jest oczywiste, że rozwój testów opartych na teorii klasycznej będzie kontynuowany, ale jednocześnie powstaną nowe modele IRT, obejmujące badanie większej liczby zjawisk psychologicznych.

W klasycznej teorii testów rozróżnia się pojęcia „rzetelności” i „ważności”. Wyniki badań muszą być wiarygodne, tj. wyniki badania początkowego i ponownego badania powinny być spójne. Oprócz,

* tym samym(lakier) - sam w sobie (ok. tłumaczenie).

wyniki powinny być wolne (w miarę możliwości) od błędów estymacji. Trafność jest jednym z wymogów uzyskiwanych wyników. W tym przypadku niezawodność uważa się za warunek konieczny, ale jeszcze niewystarczający ważności testu.

Koncepcja trafności sugeruje, że ustalenia odnoszą się do czegoś ważnego pod względem praktycznym lub teoretycznym. Wnioski wyciągnięte z wyników testów muszą być aktualne. Najczęściej mówi się o dwóch rodzajach trafności: predykcyjnej (kryterium) i konstruktywnej. Istnieją także inne rodzaje ważności (patrz rozdział 3). Dodatkowo trafność można określić w przypadku quasi-eksperymentów (Cook i Campbell, 1976, Cook & Shadish, 1994). Jednak głównym rodzajem trafności jest nadal trafność predykcyjna, rozumiana jako zdolność do przewidzenia na podstawie wyniku testu czegoś istotnego dotyczącego przyszłego zachowania, a także możliwość głębszego zrozumienia określonej właściwości lub cechy psychologicznej.

Przedstawione rodzaje ważności są omówione w każdym podręczniku i towarzyszy im opis metod analizy ważności testów. Analiza czynnikowa jest bardziej odpowiednia do określenia trafności konstruktu, a równania regresji liniowej służą do analizy trafności predykcyjnej. Pewne cechy (wyniki w nauce, skuteczność terapii) można przewidzieć na podstawie jednego lub większej liczby wskaźników uzyskanych podczas pracy z testami intelektualnymi lub osobowości. Techniki przetwarzania danych, takie jak korelacja, regresja, analiza wariancji, analiza częściowych korelacji i wariancji, służą do określenia trafności predykcyjnej testu.

Często opisywana jest także ważność treści. Zakłada się, że wszystkie zadania i zadania testu muszą należeć do określonego obszaru (właściwości psychiczne, zachowanie itp.). Koncepcja ważności treści charakteryzuje zgodność każdego elementu testu z mierzoną dziedziną. Ważność treści jest czasami postrzegana jako część niezawodności lub „możliwości uogólnienia” (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Jednak kiedy


Wybierając zadania do testów osiągnięć z konkretnego obszaru tematycznego, warto zwrócić także uwagę na zasady uwzględniania zadań na teście.

W klasycznej teorii testów rzetelność i trafność są traktowane stosunkowo niezależnie od siebie. Istnieje jednak inne rozumienie związku między tymi pojęciami. Nowoczesna teoria testów opiera się na wykorzystaniu modeli. Parametry są szacowane w ramach pewnego modelu. Jeśli zadanie nie spełnia wymagań modelu, to w ramach tego modelu uważa się je za nieważne. Walidacja konstrukcji jest częścią weryfikacji samego modelu. Walidacja ta odnosi się przede wszystkim do testowania istnienia jednowymiarowej ukrytej cechy będącej przedmiotem zainteresowania o znanej charakterystyce skali. Wyniki skali z pewnością można wykorzystać do określenia odpowiednich miar i można je skorelować z miarami innych konstruktów, aby zebrać informacje o zbieżnej i rozbieżnej ważności konstruktu.

Psychodiagnostyka jest podobna do języka, opisywanego jako jedność czterech komponentów prezentowanych na trzech poziomach. Pierwszy element, teoria testu, jest analogiczny do składni, gramatyki języka. Gramatyka generatywna jest z jednej strony genialnym modelem, a z drugiej systemem przestrzegającym reguł. Za pomocą tych reguł zdania złożone buduje się na podstawie prostych zdań twierdzących. Jednocześnie jednak model ten pomija opis tego, jak zorganizowany jest proces komunikacji (co jest przekazywane i co jest postrzegane) oraz w jakim celu jest realizowany. Zrozumienie tego wymaga dodatkowej wiedzy. To samo można powiedzieć o teorii testu: jest ona konieczna w psychodiagnostyce, ale nie jest w stanie wyjaśnić, czym zajmuje się psychodiagnostyk i jakie są jego cele.

1.3.2. Teorie psychologiczne i konstrukty psychologiczne

Psychodiagnostyka jest zawsze diagnozą czegoś konkretnego: cech osobowych, zachowań, myślenia, emocji. Testy mają na celu ocenę różnic indywidualnych. Istnieje kilka koncepcji

różnice indywidualne, z których każda ma swoje własne charakterystyczne cechy. Jeżeli uzna się, że psychodiagnostyka nie ogranicza się jedynie do oceny różnic indywidualnych, wówczas istotne stają się dla psychodiagnostyki inne teorie. Przykładem jest ocena różnic w procesach rozwoju psychicznego i różnic w środowisku społecznym. Choć ocena różnic indywidualnych nie jest niezbędnym atrybutem psychodiagnostyki, istnieją jednak pewne tradycje badań w tym obszarze. Psychodiagnostyka rozpoczęła się od oceny różnic w inteligencji. Głównym celem testów było „ustalenie dziedzicznego przekazu geniuszu” (Gallon) lub selekcja dzieci do szkolenia (Binet, Simon). Pomiar IQ zyskał teoretyczne zrozumienie i praktyczne rozwinięcie w pracach Spearmana (Wielka Brytania) i Thurstone'a (USA). Raymond B. Cattell zrobił podobnie, aby ocenić cechy osobowości. Psychodiagnostyka nierozerwalnie łączy się z teoriami i wyobrażeniami dotyczącymi różnic indywidualnych w osiągnięciach (ocena maksymalnych możliwości) i formach zachowania (poziom typowego funkcjonowania). Tradycja ta jest nadal skuteczna i dziś. W podręcznikach psychodiagnostyki znacznie rzadziej ocenia się różnice w środowisku społecznym niż uwzględnia się cechy samych procesów rozwojowych. Nie ma na to żadnego rozsądnego wytłumaczenia. Z jednej strony diagnostyka nie ogranicza się do pewnych teorii i koncepcji. Z drugiej strony potrzebuje teorii, bo to w nich ustala się diagnozowane treści (czyli „co” jest diagnozowane). Na przykład inteligencję można uważać zarówno za cechę ogólną, jak i za podstawę wielu niezależnych od siebie zdolności. Jeśli psychodiagnostyka próbuje „uciec” od tej czy innej teorii, wówczas podstawą procesu psychodiagnostycznego stają się idee zdrowego rozsądku. W badaniach wykorzystuje się różne metody analizy danych, a ogólna logika badań determinuje wybór tego czy innego modelu matematycznego i determinuje strukturę stosowanych pojęć psychologicznych. Takie metody statystyki matematycznej


ki, takie jak analiza wariancji, analiza regresji, analiza czynnikowa i obliczanie korelacji, zakładają istnienie zależności liniowych. Jeśli metody te zostaną użyte nieprawidłowo, „wprowadzają” swoją strukturę do uzyskanych danych i stosowanych konstrukcji.

Idee dotyczące różnic w środowisku społecznym i rozwoju osobowości nie miały prawie żadnego wpływu na psychodiagnostykę. Podręczniki (patrz np. Murphy i Davidshofer, 1988) badają klasyczną teorię testów i omawiają odpowiednie metody przetwarzania statystycznego, opisują dobrze znane testy i omawiają zastosowanie psychodiagnostyki w praktyce: w psychologii zarządzania, w doborze personelu, w ocenianiu cechy psychologiczne człowieka.

Teorie różnic indywidualnych (a także idee dotyczące różnic między środowiskami społecznymi i rozwojem umysłowym) są analogiczne do badania semantyki języka. Jest to badanie istoty, treści i znaczenia. Znaczenia są ustrukturyzowane w określony sposób (podobnie jak konstrukty psychologiczne), na przykład poprzez podobieństwo lub kontrast (analogia, zbieżność, rozbieżność).

1.3.3. Testy psychologiczne i inne narzędzia metodyczne

Trzecim elementem proponowanego schematu są testy, procedury i środki metodologiczne, za pomocą których zbierane są informacje o cechach osobowości. Drene i Sijtsma (1990, s. 31) definiują testy w następujący sposób: „Test psychologiczny uważa się za klasyfikację według pewnego systemu lub za procedurę pomiarową, która pozwala na dokonanie pewnego osądu na temat jednego lub większej liczby empirycznie izolowanych lub teoretycznie oparte na cechach konkretnego aspektu ludzkiego zachowania (w obrębie sytuacji testowej). W tym przypadku bada się reakcję respondentów na określoną liczbę starannie dobranych bodźców, a uzyskane odpowiedzi porównuje się z normami testowymi.”

Diagnostyka wymaga testów i technik zbierania wiarygodnych, dokładnych i ważnych informacji o funkcjach

i charakterystycznych cech osobowości, o ludzkim myśleniu, emocjach i zachowaniu. Oprócz opracowania procedur testowych, komponent ten obejmuje także następujące pytania: jak powstają testy, jak formułuje się i wybiera zadania, jak przebiega proces testowania, jakie są wymagania dotyczące warunków testowania, w jaki sposób uwzględniane są błędy pomiarowe , w jaki sposób obliczane i interpretowane są wyniki testów.

W procesie opracowywania testów rozróżnia się strategie racjonalne i empiryczne. Stosowanie racjonalnej strategii rozpoczyna się od zdefiniowania podstawowych pojęć (np. pojęcia inteligencji, ekstrawersji) i zgodnie z tymi pojęciami formułowane są zadania testowe. Przykładem takiej strategii jest koncepcja analizy aspektów (teoria aspektów) Guttmana (1957, 1968, 1978). W pierwszej kolejności określane są różne aspekty głównych konstruktów, następnie zadania i zadania dobierane są w taki sposób, aby każdy z tych aspektów został uwzględniony. Druga strategia polega na wyborze zadań na podstawie empirii. Na przykład, jeśli badacz próbowałby stworzyć test zainteresowań zawodowych, który odróżniałby lekarzy od inżynierów, byłaby to procedura. Obie grupy respondentów muszą odpowiedzieć na wszystkie pozycje testu, a te pozycje, w przypadku których stwierdzono istotne statystycznie różnice, są uwzględniane w teście końcowym. Jeżeli np. pomiędzy grupami występują różnice w odpowiedziach na stwierdzenie „Lubię łowić ryby”, to stwierdzenie to staje się elementem testu. Głównym założeniem tej książki jest to, że test jest powiązany z teorią pojęciową lub taksonomiczną, która definiuje te cechy.

Cel testu jest zwykle określony w instrukcji jego stosowania. Test musi być ujednolicony, aby mógł ocenić różnice między osobami, a nie między warunkami testowymi. Istnieją jednak odstępstwa od standaryzacji w procedurach zwanych „testowaniem granic” i „testami potencjału uczenia się”. W tych warunkach respondent otrzymuje pomoc w procesie


badania, a następnie ocenić wpływ takiej procedury na wynik. Punktacja za odpowiedzi na zadania ma charakter obiektywny, tj. przeprowadzane zgodnie ze standardową procedurą. Interpretacja uzyskanych wyników jest również ściśle określona i prowadzona w oparciu o standardy badawcze.

Trzeci składnik psychodiagnostyki – testy, narzędzia, procedury psychologiczne – zawiera pewne zadania, które są najmniejszymi jednostkami psychodiagnostyki i w tym sensie zadania te są podobne do fonemów języka. Liczba możliwych kombinacji fonemów jest ograniczona. Tylko określone struktury fonemiczne mogą tworzyć słowa i zdania, które zapewniają przekazanie informacji słuchaczowi. Również I zadania testowe: tylko w określonej kombinacji ze sobą mogą stać się skutecznym środkiem oceny odpowiedniego konstruktu.

Wybór redaktorów
Na oryginalny przepis na ciasteczka wpadła japońska szefowa kuchni Maa Tamagosan, która obecnie pracuje we Francji. Co więcej, to nie tylko...

Lekkie, smaczne sałatki z paluszkami krabowymi i jajkami można przygotować w pośpiechu. Lubię sałatki z paluszków krabowych, bo...

Spróbujmy wymienić główne dania z mięsa mielonego w piekarniku. Jest ich mnóstwo, wystarczy powiedzieć, że w zależności od tego z czego jest wykonany...

Nie ma nic smaczniejszego i prostszego niż sałatki z paluszkami krabowymi. Niezależnie od tego, którą opcję wybierzesz, każda doskonale łączy w sobie oryginalny, łatwy...
Spróbujmy wymienić główne dania z mięsa mielonego w piekarniku. Jest ich mnóstwo, wystarczy powiedzieć, że w zależności od tego z czego jest wykonany...
Pół kilograma mięsa mielonego równomiernie rozłożyć na blasze do pieczenia, piec w temperaturze 180 stopni; 1 kilogram mięsa mielonego - . Jak upiec mięso mielone...
Chcesz ugotować wspaniały obiad? Ale nie masz siły i czasu na gotowanie? Oferuję przepis krok po kroku ze zdjęciem porcji ziemniaków z mięsem mielonym...
Jak powiedział mój mąż, próbując powstałego drugiego dania, to prawdziwa i bardzo poprawna owsianka wojskowa. Zastanawiałem się nawet, gdzie w...
Zdrowy deser brzmi nudno, ale pieczone w piekarniku jabłka z twarogiem to rozkosz! Dzień dobry Wam drodzy goście! 5 zasad...