Bibliotekarer skal være dataanalytikere. Det er i hvert fald trenden, og det er sikkert også en god ide. Der er naturlige grænser for hvor gode vi bliver til det. Der er i hvert fald grænser for hvor god jeg bliver til det.
Hvad er det så vi skal kunne?
Vi skal kunne komme gennem disse fem trin:
- Høstning af data.
- Manipulation af data til de er teknisk korrekte
- Manipulation af data til de er konsistente
- Analyse af data
- Præsentation af data
I punkt 1 skal vi kunne finde ud af at indsamle data. Både fra hjemmesider, databaser og virkeligheden.
Punkt 2. handler om at de data vi får ind, ofte ikke er teknisk korrekte. Det handler langt hen ad vejen om at vi skal kunne finde ud af at sørge for, at de data vi har samlet ind, ligger i de rigtige datatyper. Ligger tallet “123” som et tekstfelt i et regneark, kan vi ikke gange det med 10. Hvis det ligger som et tal, kan vi. Hvis køn i dele af materialet er kodet som M/K, og i andre dele af datamaterialet som M/F, eller male/female, skal det også rettes til.
Punkt 3 kan beskrives som at data skal være korrekte, og konsistente. Vi skal kunne finde, og håndtere manglende data. Vi skal kunne finde og håndtere specielle værdier. “Uendelig” er et eksempel. Der kan også være outliers i data. Og der kan være data der er inkonsistent. I samfundsvidenskaberne kan det være spørgeskemaer, hvor respondenten har svaret at han er 40 år gammel, og været gift i 45 år. Det hænger ikke sammen, det skal vi kunne fange.
I punkt 4 skal vi kunne analysere data. Vi skal ikke være statistiske eksperter. Vi skal ikke have styr på alverdens statistiske metoder. Men vi skal kunne et minimum. En simpel korrellation skal vi kunne håndtere.
Og så skal vi endelig kunne præsentere data. Det skal ikke være en uoverstigelig udfordring for os at lave en simpel graf af noget data. Vi behøver ikke kunne kaste os ud i netværksanalyser og gode måder at plotte fem-dimensionelle data. Men et lagkagediagram må ikke være os fremmed.
Hvordan når vi derhen.
Det ved jeg ikke. Men der er tre grundlæggende kompetencer der skal være på plads:
- Et minimum af forståelse for programmering. Datatyper, datastrukturer, logiske strukturer i programmer.
- Et minimum af forståelse for datamanipulation. Vi taler om at man skal kunne en smule mere end sit fadervor i Excel.
- Seriøse evner i Google, og gå-på-mod. Man skal være parat til at finde løsninger på egen hånd, og man må ikke være bange for at prøve.
Så inden vi går igang: Se at komme igennem et Excel-kursus. Tyg dig gennem et af de aldeles udemærkede, og gratis, online kurser i programmering. Jeg vil anbefale Python, der åbenbart er stort blandt dataanalytikere. Og stil dig foran et spejl og gentag disse tre mantraer, til du tror på dem:
“Hvis jeg har et problem, kan jeg finde en løsning på nettet.”
“Det gør ikke noget at jeg prøver om det virker, jeg kan altid se om jeg kan finde en anden løsning i stedet”
“Jeg kan ikke ødelægge computeren af at prøve”
De holder ikke 100% i virkeligheden. Men du kommer meget langt hvis du prøver.