Officielle dokumenter blev i gamle dage skrevet i hånden af præster, notarer og andre. Senere blev skrivemaskinen i stor stil taget i anvendelse, men det var først op i 80’erne, at formelle dokumenter blev digitale.
Udfordringen med håndskrevne og skrivemaskineskrevne dokumenter har hidtil været, at man ikke digitalt har kunnet behandle dokumenternes indhold. Det har derfor været meget dyrt i mandskabstimer at behandle store mængder af data fra disse typer dokumenter.
Med den nye teknologi åbnes for et væld af informationer, der reelt ikke tidligere har været muligt at systematisere. Det bliver nu muligt hurtigt at søge og udtrække viden fra bigdata, der strækker sig flere hundrede år tilbage i vores historie.
Videreudvikling af teknologi
Professor Christian Møller Dahl har ledet et hold forskere på SDU, som har udviklet den nye teknologi. Den baserer sig i nogen grad på de algoritmer, som henholdsvis Google og Facebook anvender til at identificere objekter som eksempelvis kæledyr i billeder på internettet. Ved at kombinere de to techgiganters metoder havde man grundlaget bag den nye scanningsteknologi, skriver SDU’s site Ny Viden.
”Det tager måske 5-10 sekunder for en veltrænet maskine at læse og afkode et dokument som f.eks. en sygejournal, og det har vist sig, at den kan gøre det med rigtig stor præcision,” siger Christian Møller Dahl.
Fantastiske perspektiver
I Danmark findes data på individniveau fra de seneste 200 år. Noget af det ældste er blandt andet kirkebøgerne og folketællingerne, som er blevet afholdt flere gange med mellemrum siden 1769. Fra de seneste generationer har vi journaler fra sundhedsvæsnet, og optegnelser fra andre offentlige instanser. Siden ca. 1980 har den offentlige forvaltning benyttet elektronisk registerdata.
”Ideen er, at hvis vi kan høste disse data og koble dem sammen med de eksisterende registerdata, så vil det være en enorm rig datakilde på tværs af generationer,” siger Christian Møller Dahl til Ny Viden.
Et konkret eksempel handler om børnedødeligheden, der var for høj i 1950’erne. Derfor sendte man uddannede sundhedsplejersker ud i de danske hjem for at følge de nyfødte børn efter fødslen og det første leveår. Der blev skrevet journaler med oplysninger om hvorvidt barnets mor arbejdede, om barnet blev ammet eller ej, og hvor mange timer barnet sov. Nogle af disse journaler er blevet digitaliseret med den nye teknologi.
”Der ligger en guldgrube af viden som denne, som vil kræve rigtig mange ressourcer at indtaste manuelt, for det drejer sig måske om 200.000 dokumenter eller flere. Målet er, at maskinen skal gøre hele arbejdet,” siger Christian Møller Dahl.