Kérdőívelemzés (SPSS,PSPP, R...)

Fórumok

Üdv!

Egy szakdolgozatban van egy kérdőív, aminek az eredményeit kellene elemezni.
Az SPSS szoftvert leheten erre használni (az illetőnek az SPSS szoftert javasolták), azt hiszem ez lenne az:
http://www-03.ibm.com/software/products/hu/spss-stats-standard/

A trial verzió elég ehhez, vagy mindenképp kell a fizetős? Aki már csinált ilyet v. hasonlót attól várnék egy kis iránymutatást.

Hozzászólások

Nem túlzás ez egy kicsit? :)

Nem tudom, milyen kérdőívről van szó, de legtöbbször az SPSS ágyúval verébre. Egy átlag szakdolgozatos kérdőív kielemzéséhez bőven elég egy Excel.

> Van bőven :)

+1

Az Excel egy nagyon sok funkciójú, általános valami, az SPSS-t viszont statisztikai elemzésekre hegyezték ki.

Itt két opció létezik:
a) statisztika mesterszakos az ismerősöd, és az egyetem biztosítja neki az SPSS licencet, ami a szakdolgozathoz kell
b) nem kell neki SPSS :)

Az SPSS-be pár éve valamilyen szinten integrálta az R-t az IBM. Bár sosem próbáltam, úgyis R-ezek, ahhoz meg minek SPSS.

Ellenben a társadalom és gazdaságtudományok terén az SPSS de facto standard. És egy átlagos pszichológust vagy közgazdászt nehezen beszélsz rá bármilyen programozásra. Ellenben az Excel bármilyen sokat is tud, azért a becslés, hipotézisvizsgálat, vagy regressziók komolyabb tesztelése, esetleg komolyabb idősoranalízis terén azért nem árt célszoftver. A kérdés így az, bármi van-e abban a szakdolgozatban, ami meghaladja az Excel képességeit. Illetve az SPSS ajánlás, vagy elvárás-e. (Sajnos találkoztam már olyannal, hogy szakdolgozatnál teljesen indokolatlanul kikötötték, hogy csak SPSS jó. Az egy más kérdés, hogy az outputjait meg nem fogadták el, mert azt meg szerkessze újra kézzel a jelölt. Röhej.)

+1 "ágyuval verébre";
- az excel is elég, gondolom 50db kérdőívnél nincs több, ha 10 000 lap van akkor nyert az SPSS;
- sok helyen az Excel statisztikáit nem fogadják el;
- ha több energiát szánsz rá akkor RStudio és R-nyelv vagy
- több szabadszoftvert találsz pl. itt: http://www.predictiveanalyticstoday.com/top-free-statistical-software/
amit ezekből régebben használtam: Vista, IDAMS az Unesco-tól.

Először tájékozódj, hogy a témában melyik az szakma/tanszék által elfogadott programcsomag
---------------------------------------------------------------------------
Környezetvédelmi nyilatkozat: Ez a hozzászólás kizárólag reciklált elektronok felhasználásával íródott.

> az excel is elég, gondolom 50db kérdőívnél nincs több, ha 10 000 lap van akkor nyert az SPSS

Szerintem nem darabszámtól függ, hanem rajtuk elvégzett műveleteken. Ha csak (tipikus szakdolgozatíró kérdőíve) átlagolni kell az 1-10-ig értékelős kérdésekre adott válaszokat, akkor az Excel ugyanolyan kompetens 50 válasznál, mint 10 000-nél. :)

> sok helyen az Excel statisztikáit nem fogadják el

Ilyet még sosem hallottam, persze extrém esetekben akár igaz is lehet. Másrészt, a papírra leírt következtetések alapján hogy derítik ki a bírálók, hogy Excellel számoltál, nem zsebszámológéppel? :)

Igazad van, én akkor szerettem meg az SPSS-t amikor 10 0000 beteg 250 változóját dolgoztuk fel.
A szakdolgozat mellé illik valami outputot mellékelni és megnevezni a használt alkalmazást, de az Excel mellőzését a statisztikában nem feltétlenül szakdolgozatra értettem, hanem egyes szakterületekre: pl:gyógyszerkutatás (SAS), általában ipari minőségbiztosítás(MINITAB).

Még egy jó programcsomag az szembe jutott: Epi Info http://wwwn.cdc.gov/epiinfo/
---------------------------------------------------------------------------
Környezetvédelmi nyilatkozat: Ez a hozzászólás kizárólag reciklált elektronok felhasználásával íródott.

"Ilyet még sosem hallottam"

Pedig ne tudd meg, mik vannak, egyes konzulensek olyan arrogánsak, hogy csak na. A múlkor egy szegedi adjunktus kijelentette az egyik szakdolgozójának, hogy az SPSS nem képes tudományos igényű ábrákat produkálni, csinálja meg az ábráit és a táblázatait újra Excel-ben. Azokat is, amiket az Excel nem is tud megcsinálni. Indoklás: az Excel ábrái képviselik a nemzetközi tudományos standard-et. Na, ezen sírjunk-e, vagy röhögjünk?

De hallottam már olyan kritikát is, hogy mellékelje a szakdolgozó az összes számítást kézzel megcsinálva papíron, mert csak úgy hihető, hogy pontos. És nem valami 90+ életkorú szenilis prof jött ezzel. És csak az tudta meggyőzni, mikor mintaképpen az első számítást beküldtük a többszázból, ami 2 oldal lett leírva.

A LibreOffice Calc is képes adatok elemzésére.
Én a munkámhoz a PSPP-t használom, ami az SPSS ingyenes alternatívája és működése szinte megegyezik vele. Érdemes azt is megnézni.

A trial teljes funkcionalitású, csak időkorlátos (14 nap, ha jól emlékszem).

Köszönöm az ötleteket, válaszokat!
Ha jól melékszem, akkor kb. 3 féle kérdőív volt és egyenként ~60db kitöltött.
Tehát első körben marad az Excel. :)

Sziasztok! A kérdéses feladat kialakult. Excel-el diagrammal szépen lehetett elemezni a kérdőívet.
Egy dolog maradt, ebben annyira nem vagyok jártas, mert már régen volt a matematikai statisztika tantárgy. :)

Szóval adott egy Likert skálás kérdőív és a válaszok eloszlása:
Válaszok-> 5, 4, 3, 2, 1 (egyetért ..... nem ért egyet)
Kérdés1: 10, 46, 20, 19, 5
Kérdés2: 12, 38, 38, 9, 7
Kérdés3: 12, 25, 26, 16, 2
...

A három kérdés egy adott téma köré épül. Van egy hipotézis és a kérdések erre vonatkoznak.
Pl. X gyerekek integrációja megvalósul-e adott iskolákban.
A kérdések a személyi, tárgyi ...stb. feltételekre vonatkoznak, amik lemérhetik ezt együttesen.

Ezt mivel lehetne matematikailag-statisztikailag "próbálni"? A Khi-négyzet próba megfelelő erre?
Ill. milyen szoftverrel érdemes ezt? SPSS, PSPP?
Az Excel ebben nem fog segíteni. :)

(A Khi-négyzet próba javaslatként merült fel.)

update:
Most nézem a LibreOffice-ban van khi-négyzet próba. :o
Gondolom akkor az excel-ben is van. Hogyan is kellene ezt használni a fenti példában?

A video alapján libreoffice-ban megpróbáltam (ez alapján R-ben is): link

Az R-programban:
----------------------------------------------------
> Table <- matrix(c(10,36,10,9,5,12,28,18,5,7,12,20,26,10,2), 3, 5, byrow=TRUE)
> rownames(Table) <- c('Kerdes #1', 'Kerdes #2','Kerdes #3')
> colnames(Table) <- c('V5', 'V4', 'V3', 'V2', 'V1')
> Table
V5 V4 V3 V2 V1
Kerdes #1 10 36 10 9 5
Kerdes #2 12 28 18 5 7
Kerdes #3 12 20 26 10 2
> Test <- chisq.test(Table, correct=FALSE)
Warning message:
In chisq.test(Table, correct = FALSE) :
Chi-squared approximation may be incorrect
> Test

Pearson's Chi-squared test

data: Table
X-squared = 16.382, df = 8, p-value = 0.03723

----------------------------------------------------

* Miért van különbség két eredmény között? (0.03723 vs. 0.03255)
A R progi figyelmeztet is, hogy hibás lehet. (Talán mert nem 2*2-es mátrixról van szó?)

* A "X-squared = 16.382" a határérték, amit össze kell vetni a p-value értékvel?

(Az adatokat hasraütés alapján írtam, mert nem emlékszem a pontos értékekre! Lehet ez a warning oka...)

Ez alapján próbáltam egy ilyet R-ben:

--------------------------------------------------------------------------------
> Table <- matrix(c(10,36,10,9,5,12,28,18,5,7,12,20,26,10,2), 3, 5, byrow=TRUE)
> rownames(Table) <- c('Kerdes #1', 'Kerdes #2','Kerdes #3')
> colnames(Table) <- c('V5', 'V4', 'V3', 'V2', 'V1')
> Table
V5 V4 V3 V2 V1
Kerdes #1 10 36 10 9 5
Kerdes #2 12 28 18 5 7
Kerdes #3 12 20 26 10 2
> Test <- chisq.test(Table, simulate.p.value = TRUE)
> Test

Pearson's Chi-squared test with simulated p-value (based on 2000
replicates)

data: Table
X-squared = 16.382, df = NA, p-value = 0.03698
--------------------------------------------------------------------------------

Melyik megoldást lehet elfogadni? Ezt v. az előzőt.
A LibreOffice KHI.PRÓBA fv-e mivel számolhatott?

Ha nincs semmilyen indokod szimulált p-értékek használatára (pl. azt sem tudod, miért kéne használni), akkor ne használd, jó lesz az előző.

Egyébként pontosan mi a hipotézis? Mert ha az, amit fentebb írsz (az integráció megvalósul-e az iskolában), akkor ne azt vizsgáld, hogy a kérdésekre eltérő válaszok születnek-e (mert amit itt csinálsz, az kb. azt vizsgálja). Persze leginkább nem tudom, mit akarsz vizsgálni, tehát lehet, hogy félreértelek.

Régen volt már a statisztika és nem sok mindenre emlékszem, mert nem használtam azóta. De érdekel a téma. :)
Szóval a korábban linkelt pdf-ben van két példa :
1./ Egy kutatás során az elsőéves egyetemi hallgatók lakáskörülményeit vizsgálták:
Az eredmény:
Koli Alberlet Csalad Egyeb
Fiu: 114 157 97 27
Lany:158 255 146 66

Pearson's Chi-squared test
data: Table
X-squared = 5.0583, df = 3, p-value = 0.1676

Következtetés: A p=0,1676-os szignifikancia szint azt jelzi, hogy a két nem képviselőinek lakóhely szerinti eloszlása
homogénnek tekinthető.
------------------------------

2./ A gyerek későbbi társadalmi státusza összefügghet-e az apa végzettségével?
A-változó: Apa végzettség: 1= alsó, 2=közép, 3=felső
B-változó: Gyerek státusz: 1= alsó, 2=közép, 3=felső

A futtatás eredménye:
B1 B2 B3
A1 30 50 30
A2 60 25 20
A3 55 45 90
Pearson's Chi-squared test
data: Table
X-squared = 48.8659, df = 4, p-value = 6.227e-10

Következtetés:
Az eredmény azt mutatja, hogy a gyerek későbbi társadalmi státusza és az apa végzettsége
összefügg: p=0,000, azonban a változók közötti kapcsolat irányáról nem kapunk információt.
------------------------------------

Miből vonta le a fenti két következtetés? A p értéke a 2. esetben nagyon kicsi volt (gyakorlatilag nulla), ezért ez azt mutatja, hogy A és B összefügg (van kapcsolat)? Az 1. esetben a p értéke nem nulla, tehát nincs kapcsolat? A X-squared érték mit mutat, ezt felhasználta a következtetéshez?

A statisztikához nem értek, de szeretném megérteni.

Itt mindkét példa esetén két minőségi ismérv (kategorliális változó, az első példában a nem és a lakóhely, a másodikban az apa végzettsége és a gyerek státusza) közötti kapcsolat meglétét vizsgáljuk. Erre van a khí-négyzet próba. Ekkor a nullhipotézis: a két ismérv független, nincs kapcsolat köztük. Az alternatív hipotézis: a két ismérv nem független, van köztük kapcsolat. A hipotézisvizsgálatokra a stat programok által közölt p-érték kicsi értékeinél (ha nincs mást használni okod, akkor 0,05 a határ) az elternatív hipotézist, nagy értékeinél a nullhipotézist fogadjuk el. Pontosan, ahogy írod. a khi-négyzet (X-squared) értéke az a próbastatisztika, ami jelen esetben khí-négyzet eloszlást követ, abból lehet megkapni a p-értéket.

Viszont szerintem amit most te vizsgálnál, az nagyon nem ilyen akar lenni, de ezért kéne pontosan, mi a hipotézis, amit vizsgálnál, mert így csak gondolom, hogy nem ezt kéne csinálnod.

Köszönöm az infót!

Bizonytalan voltam én is egy kicsit, amikor segítséget kértek tőlem.
Egyik konkrét kérdés pl. valami ilyesmi volt, hogy adott helyen X típusú tanulók integrációja megvalósult-e az iskolákban.
Erre vonatkozóan volt a kérdőívben pl. három kérdés: személyi, tárgyi feltételekre vonatkozóan... stb.
A tanárok, igazgatók válaszai voltak a kérdőívben és Likert skálán (1-5: nem ért egyet ... egyetért) jelölték a választ.
(nullhipotézis: a kérdőív válaszai alátámasztják az integráció megvalósulását.)

Az ilyen kérdőívekhez használható egyáltalán a Khi-négyzet próba? Nem vagyok biztos benne, de szerintem nem.

Van egy kérdéscsoport ami X gyerek integrációjára vonatkozik. Tanár és igazgató válaszolhatott úgy, hogy a 9 lehetőségből megjelölhetett, hogy melyik fontos szerinte.
Pl.:

       Válasz#1 Válasz#2 Válasz#3 Válasz#4 Válasz#5 Válasz#6 .. Válasz#9
tanár#1     X        X                X
tanár#2              X         X              X
... stb.

R-ben:
----------------------------------------------------------
> Table <- matrix(c(25,18,54,28,35,55,4,22,18,5,5,6,3,4,6,0,1,2), 2, 9, byrow=TRUE)
> rownames(Table) <- c('Tanár', 'Igazgató')
> colnames(Table) <- c('#1', '#2', '#3', '#4', '#5', '#6', '#7', '#8', '#9')
> Table
#1 #2 #3 #4 #5 #6 #7 #8 #9
Tanár 25 18 54 28 35 55 4 22 18
Igazgató 5 5 6 3 4 6 0 1 2

> Test <- chisq.test(Table, correct=FALSE)
Warning message:
In chisq.test(Table, correct = FALSE) :
Chi-squared approximation may be incorrect
> Test

Pearson's Chi-squared test

data: Table
X-squared = 5.4725, df = 8, p-value = 0.7061

----------------------------------------------------------
Nullhipotézis: a két ismérv független, nincs kapcsolat köztük
Alternatív hipotézis: a két ismérv nem független, van köztük kapcsolat

Tehát mivel a p értéke nagyobb 0.05-nél, ezért a nullhipotézist fogadjuk el. Azaz nincs kapcsolat a két ismérv között. Tehát a tanárok és az igazgatók hasonlóan vélekedtek (homogén?). Hasonló, mint a fiú-lány vizsgálat a lakáskörülményeik tekintetében (?).

Ez jó lehet így?

Én ugyan a ppt-ket futottam át, de a jegyzet sem nagyon más. Szerintem tök jó anyag, de továbbra is úgy gondolom, a kérdezőnek nemigen erre van/volt szüksége. Kezdőként nem tudja összevetni az ember a fenti problémát azzal, amit ott írnak a függetlenségvizsgálatról.

Köszönöm oszkar-nak a segítséget!!
Csak a későbbiek miatt írom:
A függetlenségvizsgálat esetén csak egy ember - egy válasz működik, úgy mint a példának felhozott fiú-lány lakóhelyvizsgálat és az apa-fia végzettség vizsgálat.
A fenti kérdés esetén nem igazán jó!

Mindenkinek köszi a segítséget!

igen, de az Rcommander nem IDE hanem egy GUI (egyszerű dolgokat könnyű vele elvégezni)

ez is jónak tűnik, de KDE a függősége

https://rkward.kde.org/

----
"Kb. egy hónapja elkezdtem írni egy Coelho-emulátort, ami kattintásra generál random Coelho-kompatibilis tartalmat."
Instant Coelho

Valóban. Én egészen idén nyárig maximum Emacs-ot használtam (az ESS add-onnal) R-es mubnkákhoz, de aztán kipróbáltam az RStudio-t, és nagyon bejött, elsősorban a GitHub integráció miatt. Vannak nyűgjei is, de alapvetően jól használható, pedig még csak tanulgatom a szolgáltatásait.
Régebben a hallgatóknak Rcommander-t ajánlottam ha kattingatós környezetből jött valaki.
Csaba

A lányom a Debreceni Egyetemen írt szakdolgozatában használt ilyet. De az egyetemnek volt licence és a hallgatók azt használhatták.
A szoftver letöltési linkjét is az egyetem adta.
Meg kellene kérdezni, hátha abban az iskolában is van ilyen?
--
Tertilla; Tisztelem a botladozó embert és nem rokonszenvezem a tökéletessel! Hagyd már abba!; DropBox