Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Behövs en mer förfinad terminologi för kategorisera datamängder #23

Open
matthiaspalmer opened this issue Sep 12, 2019 · 8 comments

Comments

@matthiaspalmer
Copy link
Collaborator

I Danmark har man Forms online, i Norge LOS och i Finland har man finnto som kan användas för bland annat kategorisera datamängder.

Vad finns i Sverige, behövs detta eller räcker de 13 teman från Publication office som DCAT-AP indikerar?

Man kan också använda en hela eller delar av EuroVoc för detta syfte.

@thomaskvist
Copy link

För kommunerna vore det utmärkt om de definitioner som används av SCB i "Räkenskaps analyser för kommuner" för att beskriva verksamheten https://www.scb.se/contentassets/46e2a41c63fb4833894f2f52069c9109/definitioner.pdf kunde användas även för att kategorisera datamängder.

@matthiaspalmer
Copy link
Collaborator Author

Den vokabulär du pekar på är tämligen specifik för kommuner och räkenskaper (dessutom i huvudsak inom utbildningsområdet vad jag kan se). Så denna vokabulär skulle kunna vara en del av en lösning men inte hela lösningen.

Antar att det finns (minst) två strategier här:

  1. Tillåt en mängd olika vokabulärer / terminologier / begreppslistor för att täcka de behov som uppstår
  2. Föreslå en någorlunda heltäckande men då av nödvändighet mer grov indelning

@thomaskvist
Copy link

Visst bör man tillåta flera vokabulärer men att börja med de att tillåta de som SCB använder vore en god start.

När det gäller Räkenskapsanalys för kommuner finns det flera definitioner som används och de definierar nästan all kommunal verksamhet på en nivå för vilken man samlar ekonomisk statistik, någon slags medelgrov nivå. Löser inte allt men bara att kunna märka upp att ett objekt ska kopplas till t ex äldreomsorg på ett sätt som inte kan misstolkas och som gör det möjligt att kombinera data från olika källor med minskad risk för att man blandar äpplen och päron vore värdefullt.

Tror att strategi 1 skulle ge mest nytta för kommuner. Grova men heltäckande vokabulärer är väl mest till nytta för aktörer på nationell eller europeisk nivå. Om kommunerna ska införa sådana drabbas de av arbete och kostnader men drar själva ingen större nytta av sin insats. Detta lär inte gynna motivationen.

@bjornhagstrom
Copy link

Spontant känner jag att Klassa 2 kanske är en bättre struktur för kommunala data?
http://www.samradsgruppen.se/web/index.php/klassificeringsstruktur-projekt-klassa

Den bör vara så gott som heltäckande.

Frågan är om man vill ha något kommunspecifikt eller om man vill ha en lösning för alla? Om jag inte misstar mig är listan från DCAT-AP mer eller mindre värdelös för klassificering som ger värde för användarna?

@thomaskvist
Copy link

thomaskvist commented Sep 16, 2019

Klassa och SCB-s indelningar borde ju i rimlighetens namn vara samma men så länge de inte är det så måste ju kommunerna jobba med SCB:s klassificeringar i sina ekonomisystem för att kunna rapportera in kostnader fördelade på verksamheter. En uppmärkning skulle m a o ge verksamhetsnytta direkt då SCB-rapporterna blir enklare att ta fram. Vet inte om Klassa används praktiskt idag. Har bara hört talas om Klassa i Enterprise Architecture-sammanhang men det kan mycket väl vara fel.

Har också förstått det så att DCAT AP handlar om datamängden som helhet, vem som publicerat den etc och inte betydelsen av enskilda datafält. Men man kan ju tänka sig en något mer exakt definition via en vokabulär av vilken verksamhet datat avser och inte bara ett organisationsnummer eller liknande. Vore bra att veta att datat beskriver Umeå kommuns äldreomsorg utifrån en nationell definition av äldreomsorg. Även om man skulle önska sig mer skulle det kanske vara ett steg på vägen mot mer heltäckande metadata.

@salgo60
Copy link

salgo60 commented May 7, 2020

Ny i denna världen men ser strings där jag vill ha things

Borde man inte ha en metadata katalog där man förklarar att detta begrepp bör användas för att identifiera en post för att slippa strings och ha things och även ange alternativ

Exempel från Wikidata

Fler saker jag saknar för att komma igång snabbare

  • länkar Jupiter notebook där man kan se hur datasetet används
  • GITHUB taggar så man enkelt kan söka fram dom som använder datasetet
  • diskussionssidor och var man fel anmäler saker och får ett helpdeskid (borde kunna gå att använda GITHUB)

@matthiaspalmer
Copy link
Collaborator Author

Vi följer DCAT2 och DCAT-AP2 och har stöd för dcterms:source, dcterms:isVersionOf, dcterms:hasVersion, dcterms:isReferencedBy, dcterms:relation som direkta relationer till things.
Utöver det är konstruktionen dcat:qualifiedRelation tänkt för att användas i alla övriga fall när man vill peka på ting där man uttrycker relationstypen via rollen dcat:hadRole.

Så sammantaget finns det mycket större möjligheter i den nya versionen än tidigare för att referera till things istf. strings.

@salgo60
Copy link

salgo60 commented May 15, 2020

Tackar då gäller det att dom som levererar data vet om detta och helst gör på samma sätt så att inte hjulet behöver uppfinnas varje gång

Min tro är att skall Öppen Data ta fart så måste vi komma bort från massa SILOS och göra det enklare att förstå datakällor och hur olika datakällor kombineras är mycket viktigt... på dom datakällor jag ser är det inte ofta svenska fält dvs. man tar inte höjd för att leverera sitt data så det skall enkelt gå för en öppen data utvecklare i Zurich att skala upp sin lösning med svenskt data....

På Hack4Sweden gjorde jag en ovetenskaplig test att försöka förstå vad som fanns om grundvatten och hur dessa källor skulle kunna samverka... det tar inte många sekunder innan man inser att man inte har domänkunskap etc... det som var fantastiskt bra på Hack4Sweden var att massa områdes experter fanns samlade dock inte hur man skulle koppla samman massa SILOS av data...

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants