Priprema podataka za arhiviranje je kompleksan posao koji zahteva potpuno poznavanje strukture podataka sa kojima se radi.

Prema listi specifičnih smernica za arhiviranje, skupovi podataka moraju biti očišćeni i razumljivi drugim istraživačima. Pojam “očišćeni” podrazumeva korigovane podatke, odnosno podatke očišćene od neispravnih, nepotpunih, nepravilno oblikovanih ili duplih zapisa. Osim toga, dopunska dokumentacija trebala bi da sadrži što je moguće više materijala, kako bi studija/istraživanje bilo prikladno za sekundarnu, dalju upotrebu. Dopunski materijali mogu biti metodološki izveštaji, popisi kodova (codebooks), upitnici, kodovna uputstva, uputstva anketarima, baze rečnika, bibliografije publikacija koje se odnose na podatke, kao i korišćeni linkovi i online alati. Osnovni skup podataka i dopunski materijali imaju za cilj da olakšaju istraživačima upoznavanje sa podacima i njihovom osnovnom svrhom.
  

Uputstva 

Priprema podataka i dokumentacije: 

  • Koristite dosledne nazive koji će odražavati sadržaj datoteka, uvrstite godinu(e) na koju se odnose podaci. Izbegavajte razmake i posebne znakove; 
  • Ako su podaci osetljivi ili ograničeni, naznačite to u nazivu datoteke; 
  • Uklonite sve direktne identifikatore iz vašeg skupa podataka (imena, adrese, telefonske brojeve i sve druge varijable koje bi omogućile identifikaciju pojedinaca); 
  • Imenujte varijable jasno i logično, ukratko objasnite njihovo značenje i povežite ih s odgovarajućim pitanjima i upitnicima, kratko objasnite i koje su opcije odgovaranja bile dostupne; 
  • Osigurajte da se varijable ne ponavljaju, pri tom posebno obratite pažnju na izvedene varijable; 
  • Zamenite vrednosti koje nedostaju sa izričitim kodom (npr. kod 88- ‘nije poznato’), vrednosti koje nedostaju ne bi trebalo da se pojavljuju kao prazan zapis ili kao standardno nepoznata vrednost u statističkom programu koji koristite; 
  • Proverite frekvencije i ukoliko ustanovite nedoslednost ili abnormalnosti u vašim podacima, ispravite ih ili uklonite tu varijablu; 
  • Pripremite instrumente (upitnike, uputstva anketarima i sl.) koji su korišćeni prilikom prikupljanja podataka (koje želite sačuvati) u posebne datoteke, kao i sve materijale unapred poslate ispitanicima (npr. pozivna pisme), sve materijale prezentovane ispitanicima za vreme intervjua (npr. showcards…) i sva uputstva ili materijale koje su koristiti ispitivači (npr. objašnjenja pitanja, često postavljana pitanja i sl.); 
  • Pripremite odgovarajuću dokumentaciju koja bi trebala da sadrži sledeće informacije: kontekst podataka (istoriju projekta, ciljeve, istraživački dizajn, ciljanu grupu, uzrokovanje i veličinu jedinice uzorka u analizi načina prikupljanja podataka (CATI, CAPI, mail, web, itd.)), stopu odziva i vremensku i prostornu strukturu datoteka, slučajeve, veze između fajlova (ako je primenjivo), provera valjanosti, dokazivanje, čišćenje i drugi kvalitetni postupci koji osiguravaju poverljivost informacija i podataka, pristup i upotreba zahtevima težinskog faktora snimljenog i izvedenih varijabli nastalih nakon procesa sakupljanja, kodom, algoritmom ili naredbom fajla koji je korišćen prilikom njihovog kreiranja. 

Što se tiče formata fajlova u kojima se nalaze podaci i dokumentacija (Deponovani informacioni paket – SIP), preferiraju se formati koji će najverovatnije biti dostupni i u budućnosti. Drugim rečima, nevlasnički formati, otvoreno dokumentovani, nekriptovani i nekompresovani, tj. oni koji se uobičajeno koriste u istraživačkoj zajednici. 
  

Formati podataka 

Stoga se sledeći podaci smatraju pogodne kao SIP: 

  • Tabelarni podaci: SPSS portable format (.por), SPSS (.sav), Stata (.dta), Excel ili drugi spreadsheet formati fajlova, koji mogu biti konvertovani u tab- ili comma-delimited tekst, R (.txt); 
  • Tekst: Adobe Portable Document Format (PDF/A, PDF) (.pdf), plain text data, ASCII (.txt); 
  • Audio: Waveform Audio Format (WAV) (.wav) from Microsoft, Audio Interchange File Format (AIFF) (.aif) from Apple, FLAC (.flac) 
  • Slike: TIFF (.tif) idealna verzija 6 nekompresovana, JPEG (.jpeg, .jpg) samo kada je kreirana u ovom formatu, Adobe Portable Document Format (PDF/A, PDF) (.pdf), RAW image format (.raw), Photoshop files (.psd); 
  • Video: MPEG-4 (.mpg4), motion JPEG 2000 (.mj2) 
  • Kompresovani fajlovi:: biće prihvatani sve dok budu mogli da se dekompresuju uz upotrebu softvera koji je otvoren i slobodan za upotrebu, poput 7-Zip or Winzip.