• 8 Tre krav til registreringsarbeidet

Ved registrering av historiske persondata følger vi tre ledestjerner:

I Registreringa skal være kildetro.

2 Arbeidet skal utføres effektivt.

3 Data skal legges til rette for videre bearbeiding.

Det første kravet er det viktigste, og avvik fra kravet om kildetrohet må bare gjøres ifølge eksplisitte instrukser. Den maskinlesbare kopien av kilda skal i så stor grad som mulig gi brukeren et fullstendig og riktig bilde av innholdet i originalen. Idealet er at det er sluttbrukeren, ikke registratoren, som skal tolke innholdet i kilda. Det er nødvendig for at tolkinga skal kunne ta utgangspunkt i forskerens problemstillinger.

Registratoren skal verken trekke noe fra eller legge noe til. Man bør derfor ikke utelate noe av den informasjonen som finnes i de kildene man registrerer fra. Ofte viser det seg at man av uforutsette grunner får bruk for disse tilleggsopplysningene selv, og enda mer sannsynlig er det at andre brukere vil utnytte hele datasettet. Ett eksempel er at man har utelatt gårdsnavnene ved registrering fra norske kirkebøker. Det reduserer mulighetene for å gjenfinne personer i betydelig grad, samtidig som materialet blir langt mindre brukbart for en gårds- og slektshistoriker. Man kan selvsagt gå tilbake og legge inn flere opplysninger i en ny registreringsomgang, men i praksis viser dette seg tungvint og lite realistisk.

Kildene må skaffes til veie på nytt, man må kontrollere at nye data er lagt inn på riktig sted, og - ikke minst vi har en evig kø av andre kilder som venter på å bli registrert.

Dette fører over til vårt andre hovedkrav: effektivitet i registreringsarbeidet. Mengden av kildemateriale som det kan være interessant å registrere, er nærmest uendelig. Riksarkivet og statsarkivene i Norge inneholder snart 120 kilometer med arkivsaker. Selv om bare en del av dette er håndskrevne personopplysninger, snakker vi om svært store datamengder.

Dessuten sitter offentlig forvaltning på store mengder materiale som skal avleveres til Arkivverket, i tillegg til at privatarkiver også inneholder relevante kilder. Mengden materiale som det kunne være ønskelig å registrere, øker dermed hurtigere enn vi i dag har kapasitet til å databehandle det. På denne bakgrunnen må kravet om effektivitet i noen grad moderere kravet om å være tro mot kildene. Det er sannsynlig at også en femte og sjette omgang med korrektur kan avsløre uoverensstemmelser mellom kilde og edb-utskrift - det er verre med de feilene som finnes i originalen. At folk kan føre lange diskusjoner om hvorvidt en prikk i kilda skal tolkes som punktum eller fluelort, er ett eksempel (fra utlandet) jeg dessverre ikke har funnet på for anledningen. Selv om avskrifta skal være rett, får det være grenser for alt. De aller fleste brukere har mer nytte av at kirkebøkene for to sogn er skrevet av med 99 % nøyaktighet, enn at materialet for ett sogn er 100 % riktig. Arbeidsinnsatsen kan være den samme. Man kan for eksempel kutte ut faddere i en dåpsliste hvis det gjør registreringsarbeidet mer gjennomførbart og man er sikker på at det ikke er bruk for data om dem. Et bedre eksempel er skiftene. Å skrive av alle gjenstander og personer som er involvert i arveoppgjørene i en skifteprotokoll, er en kjempejobb. Å lage et register til skiftene med navn på gårdene, avdøde og noen viktige referanser, er derimot gjort på en brøkdel av tida og letter framfinning i materialet i vesentlig grad.

Det tredje hovedkravet ved registrering er at materialet skal legges til rette for rasjonell utnyttelse hos brukene. Det har liten hensikt å databehandle historiske kilder dersom vi ikke kan utstyre forskere med gode avskrifter, registre som det er lett å finne fram i, og gode rutiner for produksjon av statistikk. Registrerte data bør med andre ord ha god brukskvalitet, og det oppnår vi ved å følge de instruksene om formater og standardisering som vi kommer tilbake til nedenfor. Kravet om brukskvalitet er underordnet prinsippet om kildetrohet, men er like viktig som kravet om effektivitet.

I utgangspunktet oppstår det lett konflikter mellom de tre prinsippene for registreringsarbeid: Alle de ulike stavemåtene av navn gjør det tungt å finne fram i registrene (f eks <<Kristian>> med <<Ch>> eller <<K>>?).

Ulike kildetro betegnelser på samme yrke lager unødig mange kategorier i statistikken. En tabell som skiller mellom <<snekker>> og <<snedker>>, blir meningsløs. I praksis kan disse konfliktene som regel løses ved å databehandle edb-kopien etter registrering. Det finnes programvare for standardisering av navn og koding av yrker, fødesteder, o.a. Elektronisk, datastyrt standardisering vil også være mer effektiv og mer konsekvent enn manuelle rutiner i forbindelse med selve registreringsarbeidet. Når enkeltstående endringer krever menneskelig vurderingsevne, må vi likevel gjøre noen unntak fra regelen om kildetrohet for å øke utnyttelsen av persondataene. Det etter hvert klassiske eksemplet i så måte er registrering av personenes navn, hvor for- og etternavn alltid er ført i samme rubrikk i originalen. Ved registrering plasserer vi konsekvent fornavn og ettemavn i to atskilte felt, for ellers blir det umulig å sortere personene på etternavn. Legg forresten merke til at jeg bruker begrepet <<rubrikk>> om inndelinga i kildene, men <<felt>> om inndelinga i datamaskinen.

Spesiell bruk av kildene kan stille strengere eller andre krav til registreringsarbeidet. Dersom det databehandlede materialet bare skal utnyttes til statistiske formål, kunne vi til og med lempe noe på prinsippet om kildetrohet. En liten feilprosent vil ikke virke inn på de slutningene vi trekker ut fra statistikken - forutsatt at feilene er tilfeldige og ikke systematiske. Er formålet derimot slektsgransking eller medisinsk forskning omkring arvelige egenskaper, må vi forsterke kravet om kildetrohet. Da kan en eneste feil opplysning føre til at vi kopler sammen personopplysninger som ikke har noe med hverandre a gjøre. Dersom edb-avskriftene skal brukes til alle de formålene jeg har nevnt, må det sistnevnte kravet til nøyaktighet gjelde. I denne sammenheng er det skremmende at originalkildene påviselig inneholder en rekke feil (jf. De kildekritiske avsnittene i kapitlene 3-7). Vi kan derfor omformulere kravene til nøyaktighet slik: Registreringa bør ikke øke det antall feil som finnes i originalen i nevneverdig grad. Det endelige mål med arbeidet er å lage et historisk befolkningsregister med informasjon fra en rekke ulike kildetyper. Bare ved å jamføre opplysninger fra mange kilder kan vi bedømme hvilke data som er feil og hvilke vi kan stole på.

Det første kravet er det viktigste, og avvik fra kravet om kildetrohet må bare gjøres ifølge eksplisitte instrukser. Den maskinlesbare kopien av kilda skal i så stor grad som mulig gi brukeren et fullstendig og riktig bilde av innholdet i originalen. Idealet er at det er sluttbrukeren, ikke registratoren, som skal tolke innholdet i kilda. Det er nødvendig for at tolkinga skal kunne ta utgangspunkt i forskerens problemstillinger.

Registratoren skal verken trekke noe fra eller legge noe til. Man bør derfor ikke utelate noe av den informasjonen som finnes i de kildene man registrerer fra. Ofte viser det seg at man av uforutsette grunner får bruk for disse tilleggsopplysningene selv, og enda mer sannsynlig er det at andre brukere vil utnytte hele datasettet. Ett eksempel er at man har utelatt gårdsnavnene ved registrering fra norske kirkebøker. Det reduserer mulighetene for å gjenfinne personer i betydelig grad, samtidig som materialet blir langt mindre brukbart for en gårds- og slektshistoriker. Man kan selvsagt gå tilbake og legge inn flere opplysninger i en ny registreringsomgang, men i praksis viser dette seg tungvint og lite realistisk.

Kildene må skaffes til veie på nytt, man må kontrollere at nye data er lagt inn på riktig sted, og - ikke minst vi har en evig kø av andre kilder som venter på å bli registrert.

Dette fører over til vårt andre hovedkrav: effektivitet i registreringsarbeidet. Mengden av kildemateriale som det kan være interessant å registrere, er nærmest uendelig. Riksarkivet og statsarkivene i Norge inneholder snart 120 kilometer med arkivsaker. Selv om bare en del av dette er håndskrevne personopplysninger, snakker vi om svært store datamengder.

Dessuten sitter offentlig forvaltning på store mengder materiale som skal avleveres til Arkivverket, i tillegg til at privatarkiver også inneholder relevante kilder. Mengden materiale som det kunne være ønskelig å registrere, øker dermed hurtigere enn vi i dag har kapasitet til å databehandle det. På denne bakgrunnen må kravet om effektivitet i noen grad moderere kravet om å være tro mot kildene. Det er sannsynlig at også en femte og sjette omgang med korrektur kan avsløre uoverensstemmelser mellom kilde og edb-utskrift - det er verre med de feilene som finnes i originalen. At folk kan føre lange diskusjoner om hvorvidt en prikk i kilda skal tolkes som punktum eller fluelort, er ett eksempel (fra utlandet) jeg dessverre ikke har funnet på for anledningen. Selv om avskrifta skal være rett, får det være grenser for alt. De aller fleste brukere har mer nytte av at kirkebøkene for to sogn er skrevet av med 99 % nøyaktighet, enn at materialet for ett sogn er 100 % riktig. Arbeidsinnsatsen kan være den samme. Man kan for eksempel kutte ut faddere i en dåpsliste hvis det gjør registreringsarbeidet mer gjennomførbart og man er sikker på at det ikke er bruk for data om dem. Et bedre eksempel er skiftene. Å skrive av alle gjenstander og personer som er involvert i arveoppgjørene i en skifteprotokoll, er en kjempejobb. Å lage et register til skiftene med navn på gårdene, avdøde og noen viktige referanser, er derimot gjort på en brøkdel av tida og letter framfinning i materialet i vesentlig grad.

Det tredje hovedkravet ved registrering er at materialet skal legges til rette for rasjonell utnyttelse hos brukene. Det har liten hensikt å databehandle historiske kilder dersom vi ikke kan utstyre forskere med gode avskrifter, registre som det er lett å finne fram i, og gode rutiner for produksjon av statistikk. Registrerte data bør med andre ord ha god brukskvalitet, og det oppnår vi ved å følge de instruksene om formater og standardisering som vi kommer tilbake til nedenfor. Kravet om brukskvalitet er underordnet prinsippet om kildetrohet, men er like viktig som kravet om effektivitet.

I utgangspunktet oppstår det lett konflikter mellom de tre prinsippene for registreringsarbeid: Alle de ulike stavemåtene av navn gjør det tungt å finne fram i registrene (f eks <<Kristian>> med <<Ch>> eller <<K>>?).

Ulike kildetro betegnelser på samme yrke lager unødig mange kategorier i statistikken. En tabell som skiller mellom <<snekker>> og <<snedker>>, blir meningsløs. I praksis kan disse konfliktene som regel løses ved å databehandle edb-kopien etter registrering. Det finnes programvare for standardisering av navn og koding av yrker, fødesteder, o.a. Elektronisk, datastyrt standardisering vil også være mer effektiv og mer konsekvent enn manuelle rutiner i forbindelse med selve registreringsarbeidet. Når enkeltstående endringer krever menneskelig vurderingsevne, må vi likevel gjøre noen unntak fra regelen om kildetrohet for å øke utnyttelsen av persondataene. Det etter hvert klassiske eksemplet i så måte er registrering av personenes navn, hvor for- og etternavn alltid er ført i samme rubrikk i originalen. Ved registrering plasserer vi konsekvent fornavn og ettemavn i to atskilte felt, for ellers blir det umulig å sortere personene på etternavn. Legg forresten merke til at jeg bruker begrepet <<rubrikk>> om inndelinga i kildene, men <<felt>> om inndelinga i datamaskinen.

Spesiell bruk av kildene kan stille strengere eller andre krav til registreringsarbeidet. Dersom det databehandlede materialet bare skal utnyttes til statistiske formål, kunne vi til og med lempe noe på prinsippet om kildetrohet. En liten feilprosent vil ikke virke inn på de slutningene vi trekker ut fra statistikken - forutsatt at feilene er tilfeldige og ikke systematiske. Er formålet derimot slektsgransking eller medisinsk forskning omkring arvelige egenskaper, må vi forsterke kravet om kildetrohet. Da kan en eneste feil opplysning føre til at vi kopler sammen personopplysninger som ikke har noe med hverandre a gjøre. Dersom edb-avskriftene skal brukes til alle de formålene jeg har nevnt, må det sistnevnte kravet til nøyaktighet gjelde. I denne sammenheng er det skremmende at originalkildene påviselig inneholder en rekke feil (jf. De kildekritiske avsnittene i kapitlene 3-7). Vi kan derfor omformulere kravene til nøyaktighet slik: Registreringa bør ikke øke det antall feil som finnes i originalen i nevneverdig grad. Det endelige mål med arbeidet er å lage et historisk befolkningsregister med informasjon fra en rekke ulike kildetyper. Bare ved å jamføre opplysninger fra mange kilder kan vi bedømme hvilke data som er feil og hvilke vi kan stole på.

 

 

Besøk siste nytt

KROA Arkivet

Tilbake til KROA
hovedside

Back to KROA
mainpage

Rev. 03 desember. 2005
Copyright KROA DIS - Oslo/Akershus

 

Hvis du vil være med på å registrere primærkilder, eller bistå med annet arbeide kontakt:
Dis Oslo/Akershus
 
ATT.  KROA
Ullevålsvn. 1
0165
Oslo
kroa@oa.disnorge.no
Mobil til Laila
922 16 121
Mobil til Vidar 922 00 402

Bruk helst epost
eller til nød SMS.