Šta su sekundarni podaci i sekundarna analiza podataka? 

Sekundarni podaci su oni podaci koje je prikupio i pripremio za dalju upotrebu neko drugi. Prema tome, sekundarna analiza podataka je analiza podataka prikupljenih od strane drugog lica. Korišćenje tih podataka omogućava istraživanje u situacijama kada je prikupljanje podataka skupo, teško ili čak nemoguće, kao npr. u slučaju globalnih administrativnih podataka, velikih istraživanja ili istorijskih podataka. 

Prednosti sekundarne analize podataka 

Sekundarna analiza podataka ima mnoge prednosti i koristi za istraživače, od kojih su glavne: 

  • Ušteda vremena i novca, zato što su troškovi pribavljanja tih podataka obično mnogo manji od troškova prikupljanja primarnih kolekcija podataka
  • Istraživači mogu da postavljaju nove hipoteze na osnovu istih skupova podataka i da donose nove zaključke
  • Postojeći skupovi podataka mogu biti korišćeni u svrhe popunjavanja praznina u kolekcijama ili analizi primarnih podataka
  • Sekundarni podaci su značajni za nastavnike i studente. Nastavnici mogu da koriste postojeće podatke za primere, studije slučaja i testove, dok studenti mogu da ih koriste za završne teze. 
  • U većini slučajeva, skupovi podataka prikupljeni u okviru velikih, javno finansiranih projekata imaju visok kvalitet

Izazovi sekundarne analize podataka 

Istraživači koji koriste sekundarne podatke za analizu moraju biti svesni određenih izazova: 

  • Postoji mogućnost da skupovi podataka nisu adekvatno dokumentovani (nedostatak upitnika, istraživanja, oznaka podataka, nepotpunih opisa studija itd) 
  • Podaci nisu u potpunosti kompatibilni sa potrebama istraživača. 
  • Jedinice (mere) u kolekcijama sekundarnih podataka nisu adekvatne za analizu 
  • Podaci mogu biti zastareli
  • Podaci mogu biti lošeg kvaliteta
  • Studenti se mogu suočiti sa manjkom neophodnog znanja iz oblasti statističkih istraživanja/metoda u procesu analize postojećih podataka. 

Evaluacija sekundarnih podataka 

U cilju utvrđivanja kvaliteta postojećih podataka istraživač treba da pristupi procesu evaluacije koja uključije: 

  • kontrolu dostupnosti (availability control) – istraživač mora da pronađe potrebni skup podataka, pri čemu pojedini skupovi mogu da se dobiju bez nadoknade (Open Access inicijativa), dok za pojedine istraživači moraju da plate provajderu
  • kontrolu relevantnosti – jedinice mere bi trebale da budu iste, koncept koji se koristi mora da bude isti, a podaci treba da budu aktuelni
  • kontrolu tačnosti – da bi utvrdili tačnost podataka istraživači moraju da provere specifikaciju i metodologiju koja je korišćena za prikupljanje podataka, marginalnu grešku i zavisnost od izvora  
  • kontrolu potpunosti – istraživači moraju da pronađu adekavntne i kompletne podatke. 

Kvalitativni sekundarni podaci 

Upotreba kvalitativnih sekundarnih podataka je uobičajena za društvene nauke. Ovi skupovi podataka sadrže fokus grupe, strukturirane, polu-strukturirane i nestrukturirane dubinske intervjue, fotografije, zvučne zapise i dr. Glavni načini ponovne upotrebe ovih podataka obuhvataju: deskripciju, komparativnu analizu, ponovnu analizu, dizajn istraživanja i napredak metodologije, kao i nastavu i učenje. 

Istraživači moraju da budu svesni određenih izazova koji se pojavljuju prilikom sekundarne analize kvalitativnih podataka. Prvo, postoji debata u vezi “konteksta” i da li podaci ikada mogu biti ponovo upotrebljeni na adekvatan način, ukoliko istraživač nema uvid u celinu originalnog projekta u okviru koga su prikupljeni. Drugo, postoji zakonska i etička dilema vezana za zaštitu privatnosti. Osim toga, javljaju se i etička pitanja vezana za formalni pristanak ispitanika za upotrebu njihovih stavova u istraživanjima onih koji nisu direktno učestvovali u originalnom ispitivanju. Konačno, postoje brojni izazovi i u praktičnom domenu upotrebe, a jedan od glavnih je problem uzorkovanja imajući u vidu velike količine kvalitativnih podataka koji su danas raspoloživi za ponovnu upotrebu. 

Etika u sekundarnoj analizi podataka 

Postoje dve dimenzije vezane za etiku u sekundarnoj analizi podataka. 

Prva dimenzija je potencijalna mogućnost da se ugrozi položaj individualnog ispitanika, odnosno pitanje privatnosti. Sekundarni podaci variraju prema tome koliko privatnih informacija u sebi sadrže. Valjano anonimizirani podaci ne sadrže informacije koje mogu ugroziti privatnosti ili su kodirani na takav način da istraživač nema pristup kodovima. 

Druga dimenzija je valjan način citiranja podataka, jer vlasništvo nad originalnim skupom podataka mora biti priznati na odgovarajući način. 

Dodatni resursi: 

UK Data Service 


MSG, Management Study Guide