Wersja z 2022-06-02

Elementy statystyki

Strona główna witrynyKombinatoryka, rachunek prawdopodobieństwa, statystyka – strona główna

Spis treści

  1. Podstawowe pojęcia [+ rozwiń]
    1. przedmiot statystyki
    2. jednostka statystyczna, próba i populacja
    3. cecha statystyczna
    4. porządkowanie danych i rodzaje szeregów
    5. liczebność wartości, częstość wartości, rozkład częstości zmiennej
    6. średnia arytmetyczna
    7. wariancja i odchylenie standardowe
  2. Literatura

Podstawowe pojęcia

Przedmiot statystyki

Statystyka jest nauką o zjawiskach masowych, a więc takich, które mogą występować wiele razy, nawet nieskończoną ilość razy. Jej przedmiotem zainteresowania są między innymi pomiary, dokonywane na jednym obiekcie lub na wielu obiektach, a zadaniem jest wyciąganie wniosków z tych pomiarów. Jest silnie związana z rachunkiem prawdopodobieństwa (probabilistyką). Używa podobnych pojęć, często jednak noszą one inne nazwy w obu tych dziedzinach wiedzy. W podręcznikach statystyki zdarza się użycie pojęć typowo probabilistycznych i odwrotnie, w podręcznikach rachunku prawdopodobieństwa używa się pojęć statystycznych. Faktycznie są to więc synonimy.

Statystyka uważana jest za trudną dziedzinę wiedzy. Opinia ta wynika najprawdopodobniej z faktu, że mało jest (lub brak) przystępnych podręczników tego przedmiotu, a te które są dostępne, pisane są niepotrzebnie hermetycznym językiem. Ich autorzy pewnie uważają, że wykład musi spełniać surowe kryteria matematycznej ścisłości, tyle tylko, że tym sposobem znakomicie utrudniają jego zrozumienie. Takie podejście nie ma jednak nic wspólnego z dobrą dydaktyką, o czym chyba szanowni autorzy nie mają pojęcia. Swoje podręczniki piszą raczej dla swoich kolegów niż dla studentów czy uczniów. Jest to przykre, ale niestety bardzo prawdziwe.

Tymczasem zapoznawanie się ze statystyką, a zwłaszcza praktyczne korzystanie ze statystyki, wcale nie wymaga rozbudowanego aparatu matematycznego i stosowania symboliki kompletnie niezrozumiałej dla tych, którzy nie mają ochoty się w nią wgłębiać (i słusznie, bo w praktyce nie będzie im to do niczego potrzebne). Właśnie dlatego w tym artykule postaramy się wyjaśnić statystykę bez odwoływania się do rzeczy całkowicie zbytecznych. Musimy jednak wprowadzić wiele pojęć, tyle tylko, że będziemy je objaśniać w sposób przystępny, bez odwoływania się do niepotrzebnych zawiłości. Mało to, zastosowanie tych pojęć zostanie zilustrowane prostymi, konkretnymi przykładami. Przykładów takich często niestety też brakuje w podręcznikach, bo ich autorzy uważają, że lepiej (bardziej naukowo? poprawniej?) jest pisać językiem abstrakcyjnym, hermetycznym, z użyciem wielu symboli, których znaczenia należy się wcześniej nauczyć, żeby cokolwiek zrozumieć z wykładu. A to przecież w praktyce nie jest wcale potrzebne.

Jednostka statystyczna, próba i populacja

Jednostka statystyczna to przedmiot, istota żywa, często człowiek, którego dotyczy badanie statystyczne. Jednostki statystyczne są elementami pewnego zbioru. Np. badaniu poddajemy uczniów klasy 8c pewnej szkoły – wówczas każdy uczeń to jednostka statystyczna. Jednostki statystyczne odpowiadają w pewnych ujęciach zdarzeniom elementarnym w rachunku prawdopodobieństwa, choć pojęcia te są pozornie bardzo odległe.

Zbiór wszystkich możliwych do zbadania jednostek statystycznych (określonego rodzaju) to populacja statystyczna (populacja generalna, zbiorowość statystyczna). Np. jeśli jednostkami statystycznymi w pewnym badaniu są uczniowie klas licealnych, wówczas populacja statystyczna obejmuje wszystkich takich uczniów, którzy istnieją (a w niektórych badaniach także takich, którzy istnieli i którzy będą istnieć).

Bardzo często nie jest możliwe przebadanie całej populacji statystycznej. Dokonujemy wówczas losowego wyboru jednostek statystycznych i tylko te jednostki obejmujemy badaniem. Tak utworzony podzbiór populacji generalnej to próba statystyczna. Np. w badaniach preferencji wyborczych Polaków jednostką statystyczną jest każdy Polak mający prawo wyborcze, populację generalną tworzą wszyscy wyborcy, natomiast próbą statystyczną są ci nieliczni wybrani, których poddano badaniu.

Próba statystyczna ma zawsze ustaloną liczebność, którą oznacza się literą `n` (czasem `N`). W przykładzie z badaniem uczniów klasy 8c będzie to po prostu liczba przebadanych uczniów. W probabilistyce liczebności próby odpowiada moc przestrzeni zdarzeń elementarnych oznaczana `overset(=)(Omega)` lub `abs(Omega)`. W wielu badaniach porównujemy dwie lub więcej prób statystycznych. Ich liczebności oznaczamy wtedy przy pomocy indeksów: `n_1`, `n_2`, itd. Podobnie oznaczamy liczebność klas, o których niżej.

Tu drobna uwaga praktyczna. Otóż z kompletnie niezrozumiałych powodów utarło się, by nie używać terminu „ilość” w odniesieniu do liczb naturalnych. Tak wymyślili sobie bezpodstawnie językoznawcy, choć przecież pytamy „ilu uczniów” podobnie jak „ile wody”. Język polski nie zna gramatycznej kategorii policzalności, zatem w obu wypadkach powinno się używać terminu „ilość”. Niestety, statystycy uparli się, by przestrzegać odróżniania liczby od ilości, dlatego jeśli ktoś mówi o „ilości uczniów”, poprawiają to na „liczba uczniów”. Mimo że wymóg taki nie ma żadnego uzasadnienia, podporządkujemy mu się wyłącznie ze względów pragmatycznych (aby nie narażać Czytelnika na kłopoty).

Cecha statystyczna

Przedmiotem badania statystyki jest z reguły cecha statystyczna, określana też (w terminologii rachunku prawdopodobieństwa, ale często i statystyki) jako zmienna losowa. Cecha jest to własność czy właściwość jednostek statystycznych. Może przybierać różne wartości. Wartości odpowiadają zdarzeniom w rachunku prawdopodobieństwa. Wszystkie zebrane wartości zmiennej (lub zmiennych, bo czasem mierzymy od razu więcej cech) tworzą dane statystyczne. Czasami używa się w tym samym znaczeniu terminu obserwacje statystyczne. W rachunku prawdopodobieństwa odpowiada im przestrzeń zdarzeń elementarnych `Omega`.

Cecha statystyczna może być mierzalna lub niemierzalna. Np. cechą statystyczną może być wzrost lub kolor włosów. Wzrost można wyrazić przy pomocy liczb, jest więc cechą mierzalną. Kolor włosów można wyrazić jedynie opisowo, jest więc cechą niemierzalną. Teoretycznie różnym kolorom można przypisać pewne wartości liczbowe, ale będą one raczej czysto umowne, bo wartości te nie utworzą liniowo uporządkowanej skali. Nawet jeśli przypisać włosom białym np. liczbę `0`, czarnym np. liczbę `10`, a różnym odcieniom pośrednim liczby z przedziału od `0` do `10`, to co zrobić np. z włosami rudymi?

Poszczególne cechy statystyczne (zmienne losowe) oznaczamy dużymi literami `X`, `Y`, itd., czasem także z indeksami: `X_1`, `X_2`, itd. (co bywa mylące, dlatego trzeba bardzo uważać). Wartości cechy statystycznej oznaczamy natomiast odpowiednimi literami małymi, z indeksem oznaczającym numer jednostki statystycznej, u której dokonaliśmy pomiaru cechy. Zapis `x_13` może oznaczać wartość zmiennej `X_1` u jednostki statystycznej numer `3` i wówczas należy przeczytać „iks jeden trzy”. Taki sam zapis `x_13` może jednak oznaczać wartość zmiennej `X` u jednostki statystycznej numer `13`, i wówczas oznacza on „iks trzynaście”. Dlatego jeśli liczebność próby statystycznej przekracza `9`, lepiej nie stosować indeksów przy symbolach poszczególnych zmiennych losowych.

Np. w pewnym badaniu statystycznym mierzono długość i średnicę śrub produkowanych przez pewien automat. Zbadano przy tym 13 śrub. Każda ze zbadanych śrub była jednostką statystyczną, a razem tworzyły one próbę statystyczną. Pierwszą badaną cechą statystyczną była długość, i cechę tę oznaczono `X`. Drugą badaną cechą statystyczną była średnica, którą oznaczono `Y`. Pomiar pierwszej śruby dał wartości długości `x_1 = 31,2 ` mm oraz średnicy `y_1 = 5,4 ` mm. Pomiar drugiej śruby dał wartości badanych cech statystycznych `x_2 = 30,8 ` mm i `y_2 = 5,3 ` mm. W podobny sposób oznaczono wartości cech aż do `x_13 = 31,3 ` mm i `y_13 = 5,2 ` mm. Symbole `x_i` i `y_i` oznaczają więc wartości cech statystycznych właściwych dla `i`-tej jednostki statystycznej. Zauważmy, że nie mówimy o `n`-tej jednostce, ponieważ `n` to liczebność próby, zatem `x_n` i `y_n` to wartości odnoszące się do ostatniej badanej jednostki statystycznej.

Zamiast dwóch cech statystycznych rozpatrywana bywa zmienna losowa dwuwymiarowa. Różnica jest głównie nazewnicza. W każdym wypadku danej jednostce statystycznej przypisujemy bowiem dwie wartości, np. `x_i` i `y_i`. Podobnie można rozpatrywać zmienne losowe trójwymiarowe, czterowymiarowe itd. wówczas, gdy każdej jednostce statystycznej przypisujemy więcej wartości, odpowiednio trzy, cztery, itd.

Porządkowanie danych i rodzaje szeregów

Skupmy się teraz na zmiennych losowych jednowymiarowych. Niekiedy mogą one przybierać wyłącznie wartości całkowite dodatnie (np. gdy badamy liczbę liści różnych osobników danego gatunku rośliny albo też liczbę słów wypowiedzianych przez daną osobę w ciągu dnia), niekiedy także ujemne, ale wyłącznie całkowite, zdarzają się także cechy o wartościach ułamkowych, ale w każdym razie przeliczalnych. Takie cechy (lub zmienne losowe) nazywamy skokowymi lub dyskretnymi. Cechy niemierzalne też zwykle są dyskretne, ponieważ istnieje skończona i policzalna liczba opisów słownych, którymi określimy wartości, jakie taka cecha przybiera. Natomiast wszelkiego rodzaju pomiary (np. długości, masy, czasu, siły, napięcia itd.) dostarczają nam cech ciągłych. Mogą one bowiem przybierać teoretycznie dowolną wartość (choć często tylko w jakimś przedziale).

Sądzi się niekiedy, że analiza statystyczna cech ciągłych wymaga zastosowania rachunku całkowego i obliczania całek oznaczonych. Jednak w praktyce nie jest to do niczego potrzebne. Obliczenia, które się prowadzi, ograniczają się do podstawowych działań arytmetycznych, a wartości całek zebrane są w tabelach. Osoba przeprowadzająca analizę cechy ciągłej nawet nie musi wiedzieć, że ma do czynienia z całkami, które bardziej potrzebne są teoretykom zajmującym się rozwijaniem metod statystycznych niż korzystającym z tych metod.

Niezależnie od typu cechy, którą badamy, dane statystyczne powinny zostać uporządkowane. W przeciwnym wypadku ich analiza będzie bardzo utrudniona lub niemożliwa. Porządkowanie danych oznacza utworzenie szeregu (pojęcie to oznacza zupełnie coś innego niż szereg w matematyce). Istnieją szeregi kilku głównych typów.

Szereg szczegółowy jest najprostszym z możliwych, ale też badany jest rzadko. Jeśli badana cecha statystyczna jest dyskretna (czyli przybiera tylko skończoną liczbę różnych wartości pomiędzy najmniejszą a największą, albo też jest niemierzalna i do jej opisu możemy użyć skończonej liczby określeń), wówczas możemy badać bezpośrednio każdą z przybieranych przez tę cechę wartości. Jeśli przy tym próba statystyczna nie jest zbyt wielka, to w najprostszym wypadku możemy sporządzić listę kolejnych jednostek statystycznych (np. wykaz badanych osób) i każdej jednostce przypisać określoną wartość cechy statystycznej (np. listę hodowców bydła wraz z liczbą sztuk, które dany hodowca posiada). Tak skonstruowana lista to właśnie szereg szczegółowy. Zwykle przy tym listę jednostek sortuje się według wartości badanej cechy, najczęściej w porządku rosnącym (w podanym przykładzie najpierw wypisuje się nazwiska hodowców niemających ani jednej sztuki bydła, potem tych, którzy mają jedną sztukę, następnie tych z dwiema sztukami itd.). Dlatego zamiast mówić o szeregu szczegółowym, często mówi się o uporządkowanych danych.

Szereg punktowy (lub szereg rozdzielczy punktowy) powstaje, gdy zamiast listy przebadanych jednostek statystycznych podajemy tylko liczbę jednostek, które charakteryzuje dana wartość cechy. W niektórych opracowaniach (np. Cewe 2004: 128) to właśnie taki szereg nazywa się szeregiem szczegółowym. Np. badamy, ile książek przeczytali w ciągu roku uczniowie danej szkoły. Zamiast sporządzać imienny wykaz uczniów, możemy tylko odnotować, że np. 15 uczniów nie przeczytało żadnej książki (wartość badanej cechy wynosi `0`), 24 przeczytało jedną książkę (wartość cechy wynosi `1`), 30 uczniów przeczytało dwie książki itd. W ten sposób dzielimy próbę statystyczną na (ponumerowane) klasy tak, by każda klasa miała ściśle określoną wartość cechy statystycznej. Zwykle przy szeregu punktowym liczebność próby (liczbę wszystkich przebadanych jednostek) oznaczamy dużą literą `N`, natomiast liczebność poszczególnych klas oznaczamy małą literą z indeksem: `n_1`, `n_2`, itd. Zauważmy, że liczebność klasy to liczebność wartości zmiennej. Liczba ta oznacza bowiem, ile razy powtarza się dana wartość cechy statystycznej (zmiennej losowej).

Szereg rozdzielczy (lub szereg rozdzielczy przedziałowy) tworzony jest, gdy cecha jest ciągła lub kwaziciągła, tj. gdy przybiera zbyt dużo wartości dyskretnych, by możliwa była sensowna odrębna analiza statystyczna zgromadzonych danych. Aby otrzymać szereg rozdzielczy, próbę statystyczną dzielimy na (ponumerowane) klasy (zwane tu także przedziałami) w taki sposób, że wartość cechy statystycznej jednostek należących do danej klasy zawiera się w określonym przedziale. Np. aby zbadać zarobki dużej próby osób, nie będziemy każdej osobie przypisywać dokładnej wartości jej wynagrodzenia, ale podzielimy te osoby na klasy. Do pierwszej klasy zaliczymy np. osoby zarabiające mniej niż 500 zł, do drugiej te, które zarabiają 500 zł lub więcej, ale mniej niż 1000 zł, do trzeciej te, których zarobki wynoszą co najmniej 1000 zł, ale mniej niż 1500 zł, itd. Przy tworzeniu klas zwracamy uwagę, by były one jednostronnie domknięte (ew. z wyjątkiem klasy pierwszej lub ostatniej), przy czym domknięcie może być lewostronne (jak w podanym przykładzie) lub prawostronne (gdyby w podanym przykładzie podzielić badane osoby tak, aby do pierwszej klasy należały osoby zarabiające więcej niż 0 zł, ale co najwyżej 500 zł, do drugiej zarabiające więcej niż 500 zł, ale co najwyżej 1000 zł, itd.). Możemy także zaokrąglać wartości np. do liczb całkowitych, i wówczas klasy będą obustronnie domknięte (klasa pierwsza to osoby zarabiające w zaokrągleniu od 0 zł do 499 zł, klasa druga to zarabiający od 500 zł do 999 zł, itd.). Niezależnie od metody wyznaczenia granic klas, nie mogą się one nakładać, tj. każda możliwa wartość cechy musi bez żadnych wątpliwości kwalifikować badaną jednostkę statystyczną do tylko jednej, określonej klasy szeregu rozdzielczego.

Tworząc szereg rozdzielczy przedziałowy, do analizy statystycznej wprowadzamy wartości estymowane lub szacowane, oznaczane odpowiednim symbolem z daszkiem, np. `hat x_i`. Zamiast prawdziwych wartości badanej cechy statystycznej, do obliczeń bierzemy bowiem jedną wartość ustaloną dla wszystkich badanych jednostek z danej klasy. Np. w podanym wyżej przykładzie, zamiast przypisywać każdej badanej osobie dokładną wysokość jej miesięcznego wynagrodzenia, przyjmujemy (dla celów analizy statystycznej), że zarabia ona wartość stanowiącą środek przedziału. Np. jeśli w klasie szóstej umieściliśmy osoby zarabiające w zaokrągleniu od 2500 zł do 2999 zł, to za wartość szacowaną zarobku w tej klasie przyjąć możemy 2750 zł. Jest to w przybliżeniu środkowa wartość z tego przedziału. Dalszą analizę statystyczną prowadzimy zatem tak, jakby każda z osób należących do tej klasy zarabiała 2750 zł. Zwróćmy też uwagę, że w szeregach rozdzielczych, zarówno punktowych, jak i przedziałowych, indeks `i` może oznaczać numer klasy, a nie numer badanej jednostki statystycznej. Jeśli np. w badanej próbie 28 osób ma zarobki od 2500 zł do 2999 zł, to przyjmujemy `n_6 = 28`, `hat x_6 = 2750` (choć w szóstej klasie `2500 < x < 2999`).

Liczebność wartości, częstość wartości, rozkład częstości zmiennej

Niezależnie od tego, w postaci jakiego szeregu uporządkowano dane, przedmiotem analizy statystycznej bywa często to, ile razy powtórzy się dana wartość cechy, czyli liczebność wartości (w przypadku szeregów rozdzielczych przedziałowych liczebność estymowanej wartości). Odpowiada ona w rachunku prawdopodobieństwa liczbie przypadków sprzyjających, czyli mocy zbioru `A` (czy innego, zależnie jaką literą oznaczyliśmy zdarzenie), oznaczanej `overset(=)(A)` lub `abs(A)`.

Znając wartości `x_i` i ich liczebności `n_i`, możemy stworzyć funkcję `n(x)`, będącą w istocie zbiorem uporządkowanych par `(x_i, n_i)`. Funkcja ta to rozkład liczebności wartości zmiennej.

Zamiast liczebności i-tej wartości `n_i` możemy rozpatrywać częstość tej wartości czyli stosunek liczebności tej wartości do liczebności danych (równej liczebności próby statystycznej): `n_i/N`. Częstość to pojęcie statystyczne odpowiadające prawdopodobieństwu w probabilistyce. Zapewne z tego właśnie powodu oznacza się ją często symbolem `p_i`.

Znając wartości `x_i` i ich częstości `p_i`, możemy stworzyć funkcję `p(x)`, będącą w istocie zbiorem uporządkowanych par `(x_i, n_i/N)`. Funkcja taka to rozkład częstości zmiennej, rozkład częstości wartości cechy statystycznej lub krótko rozkład zmiennej losowej. Jej argumentem jest wartość cechy statystycznej, a wartością tej funkcji częstość wartości cechy statystycznej. Brzmi to nieco zawile, ale w gruncie rzeczy nie jest trudne do pojęcia. Szczegóły wyjaśnią przykłady przeanalizowane poniżej.

Graficzne przedstawienia, czy to rozkładu liczebności wartości zmiennej, czy też rozkładu częstości zmiennej (zazwyczaj wyrażonej w tym wypadku w procentach), określa się ogólnie jako graficzną prezentację danych. Różne rodzaje takiej prezentacji znane są doskonale z nauki szkolnej i to już na poziomie podstawowym. Mogą przyjąć postać diagramów słupkowych, prostokątnych, kołowych itd. Odpowiednio wyskalowany i opisany diagram słupkowy to histogram wartości, ewentualnie histogram częstości badanej cechy, w zależności od tego, co przedstawiono na osi pionowej.

Średnia arytmetyczna

Prawie zawsze w statystyce interesuje nas choćby w przybliżeniu zakres, w którym znajdują się wartości, na przykład dlatego, by móc później porównać badaną próbę z innymi. Np. jeśli w jednym przedsiębiorstwie pracownicy zarabiają między 2000 a 5000 zł, a w innym między 3000 a 6000 zł, to możemy chcieć zbadać, czy przyjmując się do pracy w tym drugim rzeczywiście możemy liczyć na lepszą pensję już na starcie. Często zwracamy przy tym uwagę na środek tego zakresu. Tak dzieje się choćby przy wykonywaniu pomiaru. Z różnych powodów nie możemy mierzyć niczego z matematyczną dokładnością, zawsze odczytujemy mierzoną wartość tylko z pewnym przybliżeniem. My jednak chcemy znać wartość „prawdziwą”. W tym celu obliczamy średnią z pomiarów.

Najczęstszym, choć nie jedynym rodzajem średniej stosowanej w statystyce jest średnia arytmetyczna, zwana często po prostu średnią (bez określenia). Średnią arytmetyczną wartości oznaczamy `mu` lub `bar x` (jeśli badamy tylko część populacji, stanowiącą próbę, wówczas `mu` to średnia z populacji, a `bar x` to średnia z próby, o czym dalej) i obliczamy, dzieląc sumę wszystkich wartości przez ich ilość:

`bar x = (sum x)/n`

Zapis `sum_(i=1)^n x_i` lub krótko `sum x` oznacza właśnie sumę wszystkich wartości:

`sum x = x_1 + x_2 + x_3 +… + x_n`

Bardzo zbliżonym pojęciem w rachunku prawdopodobieństwa jest wartość oczekiwana badanej zmiennej, oznaczana `EX`.

Wariancja i odchylenie standardowe

Sama średnia rzadko dostarcza nam wyczerpujących informacji o badanej próbie. Zazwyczaj interesuje nas też, czy wartości otrzymane w badaniu statystycznym są wszystkie bardzo bliskie średniej, czy też raczej rozrzucone. Dlatego możemy dla każdej wartości znaleźć jej odchylenie od średniej: `x_i - bar x`.

Literatura

  1. Cewe A., Nahorska H., Pancer I., Tablice matematyczne, wyd. 2, Wydawnictwo Podkowa, Gdańsk 2004.


Strona główna witrynyKombinatoryka, rachunek prawdopodobieństwa, statystyka – strona główna