Databaseredaktionen: Sådan hentede vi 26 millioner datarækker fra tinglysningen

DR’s Undersøgende Databaseredaktion har indsamlet alle offentligt tilgængelige oplysninger om ejendomme og grunde i Tinglysningen. Oplysningerne er indhentet i perioden 30. august 2016 – 20. oktober 2016.

48 virtuelle servere i skyen blev brugt til at suge data om alle ejendomme i Danmark ned i en database i DR. (Foto: © Grafik Mads Rafte Hein)

Målet med at indsamle data om samtlige ejendomme i Danmark er at give redaktionen mulighed for at analysere og forstå værdien af ejendomme, ejerforhold og belåning med henblik på at videreformidle ny viden til danskerne.

Alle oplysninger kan allerede i dag ses på tinglysning.dk ved at søge på en adresse eller en matrikel.

Det nye er, at DR’s Undersøgende Databaseredaktion har samlet oplysningerne i en form, der gør det muligt for redaktionen at analysere ejendomsoplysninger på tværs af datasættet frem for alene at foretage enkeltopslag.

At få adgang

For at få adgang til dette omfattende datamateriale spurgte DR’s Undersøgende Databaseredaktion Domsstolsstyrelsen og deres IT-leverandør, CSC, om de ville udlevere data som en samlet fil til DR.

Efter dialog med begge parter viste det sig hurtigt, at den nemmeste og billigste måde at skaffe data på, var at spørge deres online database maskinelt. Mange gange. Faktisk fem millioner gange, for at være præcis.

Mødte benspænd

Der er flere benspænd i processen. Det største benspænd er, at der er sat en grænse på antal forespørgsler, der kan laves per ip-adresse (unik adresse på internettet) per dag. De andre benspænd var lange svartider, nedbrud på bestemte forespørgsler og kapacitet på Tinglysningens servere.

For at minimere risikoen for overbelastning af Tinglysningens servere valgte vi at køre to servere af gangen per time.

Uden ip-begrænsningen ville én server være rigeligt. Men her oprettede vi 48 virtuelle servere hos en cloud-udbyder – samt en no-sql-database og en key-value-store.

Adresserne var nøglen

Databasen blev konfigureret og en komplet liste med alle adresser i Danmark blev lagt ind. Adressedata hentes på aws.dk, der indeholder alle adresser i Danmark. Data vedligeholdes af Danmarks Adresse Register (DAR) under Styrelsen for Dataforsyning og Effektivisering.

Et til lejligheden udviklet program blev kørt på alle 48 servere, hvor Tinglysningen bliver spurgt en gang per adresse. Forespørgslen per adresse giver et antal opslag i enten tingbog eller andelsbog. Hvert af disse hentes og gemmes.

Igangsætningen blev kommunikeret til Tinglysningens IT-leverandør. Ligeledes var der for en god ordens skyld kontaktinformationer i de opslag, vi foretog.

Hentet ned på lokal, krypteret server

To måneder senere var listen med adresser kørt og data opsamlet.

Data blev hentet ned i DR Byen, hvor den blev lagt ind i en relationel database for at kunne sammenkøre data og skabe overblik. Poster med forkerte værdier, f.eks. en rente på 450.000 procent, blev sorteret ud af den endelige analyse.

Databasen er krypteret, så kun redaktionens programmør har adgang til oplysningerne. Al håndtering af datasættet sker med hensyn til behandling af personfølsomme oplysninger.

Og her er resultatet

Kopien af Tinglysningen fylder 26 millioner rækker i en krypteret database. Databasen indeholder oplysninger om 3,5 millioner ejerforhold, 4,7 millioner kreditorer og 3,5 millioner matrikler samt 7,9 millioner servitutter.

Oplysningerne er indhentet i perioden 30. august 2016 – 20. oktober 2016. Oplysningerne er ikke opdateret efter denne dato, hvorfor alle låneomlægninger og salg indgået efter denne periode ikke er omfattet af det datamateriale, DR analyserer.

Værdier og vurderinger i Tinglysning

Skat har til opgave at vurderer alle ejendomme i Danmark med henblik på at sikre korrekt skatteopkrævningsgrundlag for ejendomsskatter til den danske statskasse.

Skat har hidtil vurderet ejendomme med to års mellemrum således, at private ejendomme vurderes i ulige år, mens erhvervsejendomme vurderes i lige år.

Af de oprindelige regler for ejendomsvurderinger fremgår ifølge Rigsrevisionen at vurderingerne skal ligge ”i underkanten af”, hvad ejendommene ville kunne sælges for. Vurderingerne må altså ikke overstige den pris, som en ejendom kan sælges for, men heller ikke sættes for lavt.

I 2013 offentliggjorde Rigsrevisionen en stærk kritik af Skats måde at foretage vurderingerne på. En stikprøve af de parcelhuse, der blev handlet i andet halvår af 2011 viste, at 41 procent var vurderet for højt og 34 procent var vurderet for lavt.

Kritikken fik den daværende regeringen til at beslutte, at der skulle laves et nyt system for ejendomsvurderinger, og mens man undersøgte mulighederne for et nyt system, fastfrøs man 2011-vurderingerne for private ejendomme og 2012-vurderingerne for erhvervsejendomme, dog med en rabat i forhold til de oprindelige vurderinger.

På trods af fejl er data brugbare

Det er disse vurderinger som optræder i tinglysningsdatabasen, og som danner grundlag for vores beregninger på vurderingerne. Dermed må det også antages, at der er fejl i datamaterialet, som danner grundlag for vores historier.

På trods af de ofte meget skæve vurderinger af de enkelte ejendomme, er den gennemsnitlige vurdering af alle ejendomme langt tættere på de reelle salgspriser. Ser man på statistikken over de faktiske salgspriser på villaer, lejligheder og sommerhuse i 2011, lå de ifølge Rigsrevisionen i gennemsnit 5-9 procent over den gennemsnitlige vurdering. Erhvervsejendomme lå 13-16 procent over vurderingen.

Når man vil sammenligne alle ejendomme – både privat ejede, erhvervsejendomme og offentligt ejede – i hele Danmark er vurderingerne, der er foretaget inden for samme tidsperiode (2011), imidlertid bedst sammenlignelige data om ejendomsværdi. Den handlede værdi ville ikke give et sammenligneligt billede idet, at især offentlige ejendomme yderst sjældent handles.

Det er ofte sådan med meget store datamaterialer, at der er risiko for fejl, men at det stadig udgør det bedste bud på virkeligheden. Sådan er det også i dette tilfælde, og derfor har DR valgt at bringe historier på baggrund af ejendomsvurderingerne, dog med det tydelige forbehold, som er angivet ovenfor og i de enkelte historier.

Du kan læse mere om Skats ejendomsvurderinger på Skats egen hjemmesiden her og her.

Og på Skatteministeriets hjemmeside her.

I den kommende tid vil DR’s Undersøgende Databaseredaktion analysere datamaterialet og publicere artikler og grafikker på baggrund af materialet.

Følg med på dr.dk.