Det første kravet er det viktigste, og avvik fra kravet om kildetrohet må bare gjøres ifølge eksplisitte instrukser. Den maskinlesbare kopien av kilda skal i så stor grad som mulig gi brukeren et fullstendig og riktig bilde av innholdet i originalen. Idealet er at det er sluttbrukeren, ikke registratoren, som skal tolke innholdet i kilda. Det er nødvendig for at tolkinga skal kunne ta utgangspunkt i forskerens problemstillinger. Registratoren skal verken trekke noe fra eller legge noe til. Man bør derfor ikke utelate noe av den informasjonen som finnes i de kildene man registrerer fra. Ofte viser det seg at man av uforutsette grunner får bruk for disse tilleggsopplysningene selv, og enda mer sannsynlig er det at andre brukere vil utnytte hele datasettet. Ett eksempel er at man har utelatt gårdsnavnene ved registrering fra norske kirkebøker. Det reduserer mulighetene for å gjenfinne personer i betydelig grad, samtidig som materialet blir langt mindre brukbart for en gårds- og slektshistoriker. Man kan selvsagt gå tilbake og legge inn flere opplysninger i en ny registreringsomgang, men i praksis viser dette seg tungvint og lite realistisk. Kildene må skaffes til veie på nytt, man må kontrollere at nye data er lagt inn på riktig sted, og - ikke minst vi har en evig kø av andre kilder som venter på å bli registrert. Dette fører over til vårt andre hovedkrav: effektivitet i registreringsarbeidet. Mengden av kildemateriale som det kan være interessant å registrere, er nærmest uendelig. Riksarkivet og statsarkivene i Norge inneholder snart 120 kilometer med arkivsaker. Selv om bare en del av dette er håndskrevne personopplysninger, snakker vi om svært store datamengder. Dessuten sitter offentlig forvaltning på store mengder materiale som skal avleveres til Arkivverket, i tillegg til at privatarkiver også inneholder relevante kilder. Mengden materiale som det kunne være ønskelig å registrere, øker dermed hurtigere enn vi i dag har kapasitet til å databehandle det. På denne bakgrunnen må kravet om effektivitet i noen grad moderere kravet om å være tro mot kildene. Det er sannsynlig at også en femte og sjette omgang med korrektur kan avsløre uoverensstemmelser mellom kilde og edb-utskrift - det er verre med de feilene som finnes i originalen. At folk kan føre lange diskusjoner om hvorvidt en prikk i kilda skal tolkes som punktum eller fluelort, er ett eksempel (fra utlandet) jeg dessverre ikke har funnet på for anledningen. Selv om avskrifta skal være rett, får det være grenser for alt. De aller fleste brukere har mer nytte av at kirkebøkene for to sogn er skrevet av med 99 % nøyaktighet, enn at materialet for ett sogn er 100 % riktig. Arbeidsinnsatsen kan være den samme. Man kan for eksempel kutte ut faddere i en dåpsliste hvis det gjør registreringsarbeidet mer gjennomførbart og man er sikker på at det ikke er bruk for data om dem. Et bedre eksempel er skiftene. Å skrive av alle gjenstander og personer som er involvert i arveoppgjørene i en skifteprotokoll, er en kjempejobb. Å lage et register til skiftene med navn på gårdene, avdøde og noen viktige referanser, er derimot gjort på en brøkdel av tida og letter framfinning i materialet i vesentlig grad. Det tredje hovedkravet ved registrering er at materialet skal legges til rette for rasjonell utnyttelse hos brukene. Det har liten hensikt å databehandle historiske kilder dersom vi ikke kan utstyre forskere med gode avskrifter, registre som det er lett å finne fram i, og gode rutiner for produksjon av statistikk. Registrerte data bør med andre ord ha god brukskvalitet, og det oppnår vi ved å følge de instruksene om formater og standardisering som vi kommer tilbake til nedenfor. Kravet om brukskvalitet er underordnet prinsippet om kildetrohet, men er like viktig som kravet om effektivitet. I utgangspunktet oppstår det lett konflikter mellom de tre prinsippene for registreringsarbeid: Alle de ulike stavemåtene av navn gjør det tungt å finne fram i registrene (f eks <<Kristian>> med <<Ch>> eller <<K>>?). Ulike kildetro betegnelser på samme yrke lager unødig mange kategorier i statistikken. En tabell som skiller mellom <<snekker>> og <<snedker>>, blir meningsløs. I praksis kan disse konfliktene som regel løses ved å databehandle edb-kopien etter registrering. Det finnes programvare for standardisering av navn og koding av yrker, fødesteder, o.a. Elektronisk, datastyrt standardisering vil også være mer effektiv og mer konsekvent enn manuelle rutiner i forbindelse med selve registreringsarbeidet. Når enkeltstående endringer krever menneskelig vurderingsevne, må vi likevel gjøre noen unntak fra regelen om kildetrohet for å øke utnyttelsen av persondataene. Det etter hvert klassiske eksemplet i så måte er registrering av personenes navn, hvor for- og etternavn alltid er ført i samme rubrikk i originalen. Ved registrering plasserer vi konsekvent fornavn og ettemavn i to atskilte felt, for ellers blir det umulig å sortere personene på etternavn. Legg forresten merke til at jeg bruker begrepet <<rubrikk>> om inndelinga i kildene, men <<felt>> om inndelinga i datamaskinen. Spesiell bruk av kildene kan stille strengere eller andre krav til
registreringsarbeidet. Dersom det databehandlede materialet bare skal utnyttes til
statistiske formål, kunne vi til og med lempe noe på prinsippet om kildetrohet. En liten
feilprosent vil ikke virke inn på de slutningene vi trekker ut fra statistikken -
forutsatt at feilene er tilfeldige og ikke systematiske. Er formålet derimot
slektsgransking eller medisinsk forskning omkring arvelige egenskaper, må vi forsterke
kravet om kildetrohet. Da kan en eneste feil opplysning føre til at vi kopler sammen
personopplysninger som ikke har noe med hverandre a gjøre. Dersom edb-avskriftene skal
brukes til alle de formålene jeg har nevnt, må det sistnevnte kravet til nøyaktighet
gjelde. I denne sammenheng er det skremmende at originalkildene påviselig inneholder en
rekke feil (jf. De kildekritiske avsnittene i kapitlene 3-7). Vi kan derfor omformulere
kravene til nøyaktighet slik: Registreringa bør ikke øke det antall feil som finnes i
originalen i nevneverdig grad. Det endelige mål med arbeidet er å lage et historisk
befolkningsregister med informasjon fra en rekke ulike kildetyper. Bare ved å jamføre
opplysninger fra mange kilder kan vi bedømme hvilke data som er feil og hvilke vi kan
stole på.
Det første kravet er det viktigste, og avvik fra kravet om kildetrohet må bare
gjøres ifølge eksplisitte instrukser. Den maskinlesbare kopien av kilda skal i så stor
grad som mulig gi brukeren et fullstendig og riktig bilde av innholdet i originalen.
Idealet er at det er sluttbrukeren, ikke registratoren, som skal tolke innholdet i kilda.
Det er nødvendig for at tolkinga skal kunne ta utgangspunkt i forskerens
problemstillinger. Registratoren skal verken trekke noe fra eller legge noe til. Man bør derfor ikke
utelate noe av den informasjonen som finnes i de kildene man registrerer fra. Ofte viser
det seg at man av uforutsette grunner får bruk for disse tilleggsopplysningene selv, og
enda mer sannsynlig er det at andre brukere vil utnytte hele datasettet. Ett eksempel er
at man har utelatt gårdsnavnene ved registrering fra norske kirkebøker. Det reduserer
mulighetene for å gjenfinne personer i betydelig grad, samtidig som materialet blir langt
mindre brukbart for en gårds- og slektshistoriker. Man kan selvsagt gå tilbake og legge
inn flere opplysninger i en ny registreringsomgang, men i praksis viser dette seg tungvint
og lite realistisk. Kildene må skaffes til veie på nytt, man må kontrollere at nye data er lagt inn på
riktig sted, og - ikke minst vi har en evig kø av andre kilder som venter på å bli
registrert. Dette fører over til vårt andre hovedkrav: effektivitet i registreringsarbeidet.
Mengden av kildemateriale som det kan være interessant å registrere, er nærmest
uendelig. Riksarkivet og statsarkivene i Norge inneholder snart 120 kilometer med
arkivsaker. Selv om bare en del av dette er håndskrevne personopplysninger, snakker vi om
svært store datamengder. Dessuten sitter offentlig forvaltning på store mengder materiale som skal avleveres
til Arkivverket, i tillegg til at privatarkiver også inneholder relevante kilder. Mengden
materiale som det kunne være ønskelig å registrere, øker dermed hurtigere enn vi i dag
har kapasitet til å databehandle det. På denne bakgrunnen må kravet om effektivitet i
noen grad moderere kravet om å være tro mot kildene. Det er sannsynlig at også en femte
og sjette omgang med korrektur kan avsløre uoverensstemmelser mellom kilde og
edb-utskrift - det er verre med de feilene som finnes i originalen. At folk kan føre
lange diskusjoner om hvorvidt en prikk i kilda skal tolkes som punktum eller fluelort, er
ett eksempel (fra utlandet) jeg dessverre ikke har funnet på for anledningen. Selv om
avskrifta skal være rett, får det være grenser for alt. De aller fleste brukere har mer
nytte av at kirkebøkene for to sogn er skrevet av med 99 % nøyaktighet, enn at
materialet for ett sogn er 100 % riktig. Arbeidsinnsatsen kan være den samme. Man kan for
eksempel kutte ut faddere i en dåpsliste hvis det gjør registreringsarbeidet mer
gjennomførbart og man er sikker på at det ikke er bruk for data om dem. Et bedre
eksempel er skiftene. Å skrive av alle gjenstander og personer som er involvert i
arveoppgjørene i en skifteprotokoll, er en kjempejobb. Å lage et register til skiftene
med navn på gårdene, avdøde og noen viktige referanser, er derimot gjort på en
brøkdel av tida og letter framfinning i materialet i vesentlig grad. Det tredje hovedkravet ved registrering er at materialet skal legges til rette for
rasjonell utnyttelse hos brukene. Det har liten hensikt å databehandle historiske kilder
dersom vi ikke kan utstyre forskere med gode avskrifter, registre som det er lett å finne
fram i, og gode rutiner for produksjon av statistikk. Registrerte data bør med andre ord
ha god brukskvalitet, og det oppnår vi ved å følge de instruksene om formater og
standardisering som vi kommer tilbake til nedenfor. Kravet om brukskvalitet er underordnet
prinsippet om kildetrohet, men er like viktig som kravet om effektivitet. I utgangspunktet oppstår det lett konflikter mellom de tre prinsippene for
registreringsarbeid: Alle de ulike stavemåtene av navn gjør det tungt å finne fram i
registrene (f eks <<Kristian>> med <<Ch>> eller
<<K>>?). Ulike kildetro betegnelser på samme yrke lager unødig mange kategorier i
statistikken. En tabell som skiller mellom <<snekker>> og
<<snedker>>, blir meningsløs. I praksis kan disse konfliktene som regel
løses ved å databehandle edb-kopien etter registrering. Det finnes programvare
for standardisering av navn og koding av yrker, fødesteder, o.a. Elektronisk, datastyrt
standardisering vil også være mer effektiv og mer konsekvent enn manuelle rutiner i
forbindelse med selve registreringsarbeidet. Når enkeltstående endringer krever
menneskelig vurderingsevne, må vi likevel gjøre noen unntak fra regelen om kildetrohet
for å øke utnyttelsen av persondataene. Det etter hvert klassiske eksemplet i så måte
er registrering av personenes navn, hvor for- og etternavn alltid er ført i samme rubrikk
i originalen. Ved registrering plasserer vi konsekvent fornavn og ettemavn i to atskilte
felt, for ellers blir det umulig å sortere personene på etternavn. Legg forresten merke
til at jeg bruker begrepet <<rubrikk>> om inndelinga i kildene, men
<<felt>> om inndelinga i datamaskinen. Spesiell bruk av kildene kan stille strengere eller andre krav til
registreringsarbeidet. Dersom det databehandlede materialet bare skal utnyttes til
statistiske formål, kunne vi til og med lempe noe på prinsippet om
kildetrohet. En liten
feilprosent vil ikke virke inn på de slutningene vi trekker ut fra statistikken -
forutsatt at feilene er tilfeldige og ikke systematiske. Er formålet derimot
slektsgransking eller medisinsk forskning omkring arvelige egenskaper, må vi forsterke
kravet om kildetrohet. Da kan en eneste feil opplysning føre til at vi kopler sammen
personopplysninger som ikke har noe med hverandre a gjøre. Dersom edb-avskriftene skal
brukes til alle de formålene jeg har nevnt, må det sistnevnte kravet til nøyaktighet
gjelde. I denne sammenheng er det skremmende at originalkildene påviselig inneholder en
rekke feil (jf. De kildekritiske avsnittene i kapitlene 3-7). Vi kan derfor omformulere
kravene til nøyaktighet slik: Registreringa bør ikke øke det antall feil som finnes i
originalen i nevneverdig grad. Det endelige mål med arbeidet er å lage et historisk
befolkningsregister med informasjon fra en rekke ulike kildetyper. Bare ved å jamføre
opplysninger fra mange kilder kan vi bedømme hvilke data som er feil og hvilke vi kan
stole på. |
|
Tilbake til KROA Back to KROA |
Rev. 03
desember. 2005
|
Hvis du vil
være med på å registrere primærkilder, eller bistå med annet arbeide kontakt: |