1. Wprowadzenie

PC SSTAT jest oryginalnym i sprawdzonym oprogramowaniem do zautomatyzowanej analizy statystycznej na komputerze personalnym typu IBM PC.

Pakiet umożliwia rozwiązywanie różnorodnych problemów statystycznych, od statystyki opisowej (średnia, mediana, moda, odchylenie standardowe itp.), do wspomagania eksploracji danych (data mining) i tworzenia różnorodnych modeli matematycznych w oparciu o wyniki analiz wielowymiarowych.

Użytkownikami pakietu mogą być zarówno osoby zaawansowane w stosowaniu metod statystycznych, jak i te, które do tej pory nie stosowały takich metod z powodu braku przystępnego oprogramowania lub zbyt małej wiedzy z zakresu statystyki matematycznej i informatyki.

Pierwsze programy pakietu powstały dla komputera ODRA 1304 w roku 1980. Kolejne wersje pakietu były opracowywane od roku 1984 dla komputerów linii SM (PDP-11). Od roku 1986 pakiet jest rozwijany wyłącznie dla komputerów typu IBM PC, najpierw dla systemu operacyjnego DOS, a następnie dla systemu operacyjnego Windows. Pakiet PC SSTAT może być eksploatowany praktycznie przy użyciu każdego komputera personalnego.

Koncepcję pakietu opracowano ze szczególnym uwzględnieniem konieczności przestrzegania warunków stosowania poszczególnych metod, bowiem tylko przy ich spełnieniu otrzymywane wyniki analizy statystycznej są poprawne. W tym miejscu należy podkreślić, że inne pakiety nie wprowadzają takich ograniczeń, umożliwiając wybrania do obliczeń oprogramowanych metod, np. testów Studenta i współczynnika korelacji Pearsona, bez sprawdzania obowiązujących je założeń.

2. Stosowane mechanizmy automatyzacji

W czasie dotychczasowej eksploatacji pakiet okazał się efektywnym i chętnie stosowanym narzędziem w pracy naukowo-badawczej. Stan taki nie uległ zmianie mimo dostępności dla komputerów personalnych szeregu firmowych pakietów statystycznych. Spowodowane jest to m.in. wymienionymi poniżej rozwiązaniami, przyjętymi przy projektowaniu pakietu:

  • automatyzacją operacji na danych i automatyzacją określania zakresu analizy, zapewniającą radykalne ograniczenie pracochłonności i bardzo krótki czas wykonywania analiz;
  • automatycznym wyborem właściwych parametrów, współczynników i testów zwłaszcza podczas analizy dwuwymiarowej, gwarantującym prawidłowość wykonywanych analiz;
  • automatycznym obliczaniem poziomów istotności podczas wykonywania wszystkich analiz, ułatwiającym dokonanie precyzyjnej interpretacji wyników.

Istotę automatyzacji w zakresie analizy statystycznej przedstawia poniższy rysunek.

ilustracja

W strukturze pakietu występuje program sterujący oraz cztery klasy funkcji:

ilustracja

Poniżej opisano każdą z powyżej wymienionych klas funkcji, zwracając szczególną uwagę na ANALIZĘ STATYSTYCZNĄ.

3. Operacje na danych

Operacje na danych umożliwiają między innymi: wprowadzanie danych przy pomocy klawiatury, import danych ze zbioru tekstowego, łączenie danych, wydzielanie podzbiorów danych, przekształcanie danych oraz eksport danych do zbioru tekstowego.

4. Analiza statystyczna

Uwzględnione w pakiecie PC SSTAT metody statystyczne przedstawia poniższa tabela.

Liczba grup danych Liczba cech
1 2 3
1 ANALIZA JEDNOWYMIAROWA
Błędy grube
Centyle
Parametry rozkładu
Ocena normalności
Ocena losowości
ANALIZA DWYWYMIAROWA
Test niezależności
Współczynnik Pearsona
Współczynnik Spearmana
Współczynnik Cramera
ANALIZA WIELOWYMIAROWA
Regresja liniowa, wielomianowa i potęgowa
Analiza czynnikowa
Analiza skupień cech i obiektów
Korelacja kanoniczna
2 ANALIZA DWUWYMIAROWA
Testy Studenta
Test Cochrana-Coxa
Test rangowanych znaków
Test Wilcoxona
Test dokładny Fishera
Test McNemara
Test chi-kwadrat
ANALIZA WIELOWYMIAROWA
Wielowymiarowa analiza wariancji
i analiza dyskryminacji
23 ANALIZA WIELOWYMIAROWA
Analiza wariancji
Test qx
Test Kruskala-Wallisa
Test Friedmana
Test Góralskiego
Test Cochrana

W poniższej tabeli podano zastosowaną w pakiecie zasadę automatycznego wyboru testów w analizie dwuwymiarowej.

Poniżej krótko scharakteryzowano oprogramowane w pakiecie metody wielowymiarowe.

  • Analiza regresji wykorzystywana jest do szukania związku funkcyjnego pomiędzy tzw. zmienną zależną i określoną liczbą tzw. zmiennych niezależnych. Najczęściej przyjmuje się związek liniowy. W przypadku małej liczby zmiennych niezależnych szuka się też związku w postaci wielomianu, np. dla jednej zmiennej niezależnej - wielomian o podawanym stopniu lub dla dwóch zmiennych niezależnych kombinacja liniowa tych zmiennych, ich iloczynu oraz kwadratów. Możliwe jest ustalenie a priori zmiennych niezależnych, które ujmowane są w równaniu regresji lub też wstępne określenie tylko ich zbioru. W drugim z tych przypadków do równania wprowadzane są kolejno zmienne w zależności od wartości ich współczynnika korelacji cząstkowej ze zmienną zależną.
  • Analiza czynnikowa pozwala na podział analizowanych zmiennych na określoną liczbę grup, z których każda kształtowana jest samoistnie przez tzw. "praprzyczynę" zwaną czynnikiem. Liczba tych czynników jest wstępnie przyjmowana. Podstawowym ograniczeniem stosowania analizy czynnikowej jest występująca czasami trudność zinterpretowania czynników.
  • Analiza korelacji kanonicznej wykorzystywana jest do wyznaczania związku liniowego pomiędzy dwoma grupami zmiennych, metoda ta jest więc uogólnieniem analizy regresji.
  • Analiza skupień wykorzystywana jest do podziału zbioru określonych elementów na podzbiory, których elementy składowe są "podobne" do siebie. Przedmiotem podziału mogą być zarówno dowolne obiekty, opisane wybranymi cechami, np. osoby przy stosowaniu miary podobieństwa w postaci odległości euklidesowej, jak i cechy opisujące rozpatrywane obiekty.
  • Odrębna grupa metod wielowymiarowych umożliwia ocenę istotności różnic rozkładów określonej cechy dla więcej niż dwóch warunków. Jedną z nich jest analiza wariancji, stanowiąca rozszerzenie testu Studenta. W ramach tego rodzaju analizy stosowane są także testy: qx, Kruskala-Wallisa, Friedmana, Góralskiego i Cochrana. Testy te wybierane są automatycznie w zależności od powiązania prób, skali cechy oraz wyniku oceny normalności rozkładu i równości wariancji dla cechy w skali przedziałowej.
  • Wielowymiarowa analiza wariancji (MANOVA) wykorzystywana jest do weryfikacji hipotez o równości kilku wektorów wartości oczekiwanych. Jest ona rozszerzeniem analizy wariancji (ANOVA), bowiem rozpatruje ona powyższą hipotezę dla kilku wartości oczekiwanych. MANOVA stosowana jest w powiązaniu z analizą dyskryminacji, której ważnym krokiem jest zastąpienie wielu cech naturalnych małą liczbą zmiennych abstrakcyjnych bez zmniejszenia zróżnicowania grup. Możliwe jest też wybranie cech najbardziej różnicujących. W ramach tej analizy prowadzona jest klasyfikacja na podstawie cech abstrakcyjnych. Stopień jej zgodności z podziałem a priori świadczy poglądowo o występującym zróżnicowaniu grup.

W pakiecie zapewniono automatyczne eliminowanie elementów brakujących w trakcie analizy jednowymiarowej i dwuwymiarowej oraz kontrolę występowania takich elementów na początku każdej analizy wielowymiarowej, przy czym elementy brakujące można zastąpić wskazanym wskaźnikiem np. średnią lub medianą lub wybrać do analizy obserwacje bez elementów brakujących. Drukowanie lub zapamiętywanie generowanych na ekranie monitora kolorowych wykresów możliwe jest przy wykorzystaniu standardowych programów typu "screen capture" .

5. Operacje na plikach i funkcje dodatkowe

Operacje na plikach umożliwiają: edycję, kasowanie, kopiowanie i drukowanie zawartości tworzonych plików.

Funkcje dodatkowe obejmują testowe sprawdzania wiadomości z podstaw statystyki oraz monitorowanie wykorzystywania pakietu.

6. Dokumentacja pakietu

Dokumentację pakietu PC SSTAT tworzą dwa obszerne podręczniki:

  • Podręcznik użytkownika - opisano na 123 stronach szczegółowe zasady eksploatacji wszystkich modułów pakietu z wykorzystaniem 9 tabel, 62 rysunków i 32 przykładów.
  • Podstawy teoretyczne - opisano na 133 stronach wszystkie oprogramowane metody i testy statystyczne z wykorzystaniem 15 tabel, 12 rysunków i 35 przykładów.

7. Podsumowanie

Pakiet PC SSTAT został skonstruowany w oparciu o ponad 30 letnie doświadczenia dydaktyczne i naukowo-badawcze, zgromadzone podczas wykładów w kilku wyższych uczelniach oraz wykonywania analiz statystycznych wyników różnorodnych badań i eksperymentów. Pakiet ma także za sobą ponad 20 letnią eksploatację użytkową w rozwiązywaniu najrozmaitszych problemów. W pakiecie zastosowano wcześniej opisane mechanizmy automatyzacji. Korzystanie z pakietu nie wymaga szczegółowej wiedzy ze statystyki i informatyki.

Podane powyżej cechy pozwalają zarekomendować pakiet PC SSTAT jako sprawdzone, łatwe w użyciu i efektywne narzędzie w pracy naukowo-badawczej i dydaktycznej, umożliwiające rozwiązywanie większości problemów we wszystkich możliwych obszarach tych działalności.