Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Only the text and not the numerical code gets parsed with the FV19TOTA table (and maybe others, too) #24

Open
emilBeBri opened this issue Apr 22, 2020 · 0 comments

Comments

@emilBeBri
Copy link

Hi - looking at the two other bug reports, no one seems to be maintaining the package anymore, but anyway, might be helpful for others so here goes:

there is an issue with unique identifiers on for example the 'FV19TOTA' table. like so:

# libs
library(dkstat)
library(data.table)


# table
f1 <- setDT(dst_get_data(table = 'FV19TOTA', VALRES='*', OMRÅDE='*', Tid='*', lang='da', format='CSV'))

# not unique
uniqueN(f1) == nrow(f1)
nrow(f1) - uniqueN(f1) # 24.707 ikke-unikke rækker... ret mange

f1_dups <- f1[duplicated(f1)]

I wrote to DST, thinking it was a problem with the data. They wrote to me, in Danish:

Hej Emil

Dubletterne skyldes at data hentes ud uden ”koder”, som der altid er til de teksterne (for fx områderne), og der er flere valgsteder med samme navn, så hvis man kun ser på tekster, så vil der være dubletter. Der er fx flere ”Assens” og flere ”Bedsted” osv. men hvis man tager data ud med ”Kode og tekst”, så vil det være forskellige rækker.

unnamed

Dette svarer måske også dels på dit spørgsmål vedr. ”niveauer” for område (valgsteder), da koden indikerer niveauet. Det kan være det er dokumenteret yderligere i den tilhørende ”Statistikdokumentation” (jeg har dog ikke tjekket det).

Danmarks Statistik er ikke involveret i R-pakken du bruger, så vi kan ikke umiddelbart være behjælpelige med denne, men måske er der en parameter ang. ”Koder/tekster”?

So the problem seems to be that the only the text, but not the numbercode for the rows are getting parsed at the lowest level. They do at the higher levels though.

This also happens with the statsDK-package, link here

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant