TCalcStats 2.0PAVEL CÍŽEK
POŽADAVKY: TurboCalc 5.0 Ti, co sledují AMIGA Review pravidelně, si jistě vzpomenou na sérii
recenzí věnovaných tabulkovému kalkulátoru TurboCalc a i na moje stížnosti
ohledně nedostatečné nabídky statistických funkcí. Balík TCalcStats 2.0 se snaží
tento nedostatek napravit. TCalcStats 2.0 je volně šiřitelný balík ARexxových maker, s jejichž pomocí
lze do TurboCalcu integrovat celou řadu popisných statistik, i parametrických a
neparametrických metod. Požadavky na systém jsou jednoduché: musíte mít počítač,
na němž lze provozovat TurboCalc (cokoli od OS 2.0 s nějakou pamětí a trochou
místa na harddisku), a vlastnit TurboCalc. Dle autorů je TCalcStats určen pro
TurboCalc 5.0, ale z vlastní zkušenosti mohu říci, že bezproblémově pracuje i s
verzí 4.0 (možná, že tudíž funguje i s verzí 3.5, protože zmíněná ARexxová makra
žádné speciální vlastnosti nových verzí TurboCalcu nevyužívají). Dále
potřebujete mít spuštěný ARexx a k němu knihovny RexxReqTools.library a
Rexxmathlib.library (obojí lze nalézt na Aminetu). No a to je vše stačí jen
nainstalovat a jít. Použití
Instalace se provádí pomocí standardního instaleru a neměla by činit nikomu
obtíže - stačí jen určit, kde máte TurboCalc nainstalován a dojde k
nainstalování ARexxových maker, nápovědy a makrotabulky. Co musíte překousnout
je, že budete nuceni přidat do user-startup assign na adresář TurboCalcu, který
normálně není potřeba, ale TCalcStats bez něj nepracuje.
Podívejme se nejprve na nápovědu. Ta je k dispozici jak ve formátu HTML, tak v
AmigaGuide. Dle mého názoru je velice dobře zpracovaná, protože kromě popisu
základních věcí jako jsou systémové požadavky a popis jednotlivých nabízených
funkcí (velice podrobný, vše je i s ukázkovými příklady) zde najdete i obecný
úvod do statistické analýzy, základních principů a postupů v ní používaných a
samozřejmě i odkazy na další literaturu.
Tak, a jak se vlastně tato ARexxová makra používají? Není to tak složité. Kromě
toho, že musíte mít otevřenu tabulku s analyzovanými daty, je potřeba nějak
spustit příslušné ARexxové skripty. To můžete udělat buď z Shellu (což ale není
příliš pohodlné), nebo z TurboCalcu. Přímé použití z TurboCalcu vyžaduje, aby
uživatel nejprve otevřel dodávanou makrotabulku, v níž jsou nadefinovány
příslušné odkazy na ARexxová makra (tu pak můžete schovat, aby nepřekážela na
obrazovce). Pro stálé používání je asi nejjednodušší tuto makro-tabulku umístit
mezi soubory automaticky otevírané po spuštění programu. Jeli tak učiněno, lze
jednotlivá makra spouštět přes nabídku „Macro / Play...“ v níž po provedení
předchozích úkonů naleznete rozsáhlou nabídku popisných statistik a
parametrických i neparametrických procedur. Stačí si danou proceduru vybrat a
spustit. Po spuštění se makro pomocí requesterů postupně vyptá na potřebné
parametry, mezi nimiž jsou vždy rozsah oblasti s daty (zadává se horní levý roh
a dolní pravý roh výseku tabulky obsahujícího analyzovaná data) a oblast pro
výpis výsledků (horní levý roh). V závislosti na zvolené funkci mohou následovat
i další dotazy (např. která proměnná je závislá apod.). Výsledky jsou v závěru
vypsány do zadané oblasti tabulky. Pokud zadaná oblast s daty obsahovala v
prvním řádku názvy proměnných, budou tyto ve výstupu použity, pokud ne, pak
budou popisky obsahovat obecné názvy jako je „Sloupec 2“ apod. Nabízené statistiky
Přejděme ale k funkcím nabízeným balíkem TCalcStats 2.0. Nejprve se zaměříme
na popisné statistiky, pak na parametrické testy, dále neparametrické testy a
konečně další statistické funkce. Popisné statistiky
Sem spadá především popis vzorku dat a jeho charakteristik. Funkce
„Descriptive statistics“ spočítá pro libovolný počet proměnných následující
charakteristiky: počet pozorování, součet, průměr (aritmetický, geometrický,
harmonický,...), kvartily (dolní, horní a medián), maximum a minimum, standardní
chybu, šikmost a špičatost, odhad konfidenčních intervalů na 5% a 1% hladině
spolehlivosti atd. To by snad mohlo většině uživatelů postačit. Pro zadanou
proměnnou si dále můžete nechat spočítat „Frequency distribution histogram“
(histogram po jednotlivých třídách i kumulativní, v procentech i dle počtu
pozorování), a to buď dle uživatelem zadaných tříd nebo automaticky určených
programem. No a konečně můžete vytvořit pomocí „Relative rank and percentile
calculation“ percentily a tříděné (či pořádkové) proměnné pro daný vzorek (tj.
proměnné, které pro každou hodnotu původní proměnné obsahuje pořadí dané hodnoty
při sestupném či vzestupném uspořádání dat podle velikosti). Parametrické testy
I parametrických testů, tedy testů vycházejících z jistých předpokladů o
rozdělení (nejčastěji jeho normalitě) náhodných veličin, jejichž realizace
studujeme, nabízí TCalcStats poměrně dost. Z těch zcela základních zde najdete
t-testy pro test rovnosti průměrů dvou nezávislých vzorků (pro shodné i nestejné
rozptyly), párový t-test a F-test rovnosti rozptylů dvou vzorků. Myslím, že není
třeba zabíhat do podrobností, protože kdo chce tyto procedury používat, bude mít
snad nějaké tušení o jejich významu. Kromě této základní nabídky mají uživatelé
k dispozici také analýzu rozptylu, tj. metody pro testování shodnosti průměrů či
statistické rozdílnosti několika vzorků dat najednou. TCalcStats nabízí
jednocestnou i dvoucestnou ANOVU (analýzu rozptylu). Neparametrické testy
Zatímco parametrické testy předpokládají nějaký daný typ distribuční funkce
(i když při dostatečném množství dat to nemusí být nijak omezující díky
fungování centrální limitní věty), neparametrické testy žádné takové předpoklady
nepotřebují (stačí jim splnění poměrně obecných podmínek) a je tudíž možno je
použít i pro data z výrazně nenormálních datových souborů. Tyto testy zpravidla
vycházejí z tříděných ekvivalentů původních vzorků dat (viz popisné statistiky),
které jsou mimo jiné vypsány jako součást výsledků. TCalcStats mezi
neparametrickými metodami nabízí řadu ekvivalentů výše uvedených parametrických
testů - Mann-Whitneyův U-test (neparametrický ekvivalent parametrického t-testu
rovnosti průměrů dvou nezávislých vzorků), Wilcoxonůn párový test,
Kruskal-Wallisův H-test (odpovídá jednocestné analýze rozptylu) atd. Dále zde
naleznete chi-kvadrát testy dobré shody (například s normálním rozdělením) a
mnoho dalšího (korelační testy,...). Další statistické nástroje
Z dalších pomůcek nabízených v TCalcStats zmiňme například výpočty
kovariance a korelace dvou proměnných, které mají blíže k popisným statistikám.
Dále zde najdete lineární a nelineární regresi, které stejně jako v ostatních
výše zmíněných případech pracují dle očekávání. Plusem je to, že kromě řady
výsledných charakteristik popisujících odhady parametrů lineárního regresního
modelu (determinační koeficient, test významnosti regrese, apod.) jsou
generovány i všechny predikované hodnoty. Jedinou výtku bych měl vůči tomu, že
regrese je omezena jen na jednu vysvětlující proměnnou. Závěr
Je mimo možnosti krátké recenze seznámit čtenáře se všemi nabízenými
možnostmi, které tento balík maker má. Vzhledem k tomu, že je k dispozici
zdarma, není to ani tak podstatné. Podívejme se tedy spíše na jeho použitelnost
a případné nedostatky. Jedním „nedostatkem“ týkajícím se spolupráce s
TurboCalcem je to, že zpracování a předávání čísel ARexxu vyžaduje, aby tabulka
nepoužívala nějaký lokalizovaný formát dat - přesněji, je třeba, aby nebyla
použita desetinná čárka, ale tečka, a aby nebyly použity oddělovače tisíců a
miliónů. Druhým nedostatkem na kráse je vlastně využití ARexxu; to na jedné
straně umožňuje snadnou integraci funkcí do TurboCalcu, na straně druhé ovšem
způsobuje relativní „pomalost“ výpočtů (ARexx je interpretovaný jazyk).
Výsledkem je, že práce s daty o velikosti maximálně stovek pozorování je ještě
přijatelně rychlá, ale například lineární regrese s 3000 pozorování už je
záležitost na několik minut. Protože se ovšem dá předpokládat, že TCalcStats je
určen spíše domácím uživatelům, studentům, kteří je používají pro „školní“
účely, apod., neměla by být pomalost práce s většími soubory dat omezující.
Poslední drobností je, že pokud dojde k chybě během výpočtu (v 99% případů
způsobenou tím, že se nedodrží postup uvedený v nápovědě, nebo tím, že zadaná
oblast neobsahuje číselná data), uživatel se nic nedozví - pouze vidí, že se
výpočet nedokončil.
I přes zmíněné problémy může být TCalcStats velice užitečným pomocníkem,
obzvláště díky široké paletě nabízených funkcí.
Výrobce: R Kohut, N. Bergquist
Typ: freeware
Cena: - |
HODNOCENÍ:
Zajímavý balík nástrojů pro statistickou analýzu v prostředí TurboCalcu,
díky použití ARexxu trochu pomalý. |
Vytlačiť článok
Pozn.: články boli naskenované ako text a preto obsahujú aj zopár chýb. Taktiež neručíme za zdrojové kódy (Asm, C, Arexx, AmigaGuide, Html) a odkazy na web. Dúfame, že napriek tomu vám táto databáza dobre poslúži.
Žiadna časť nesmie byť reprodukovaná alebo inak šírená bez písomného povolenia vydavatela © ATLANTIDA Publishing
none
|