Praktikum 8 Avaandmed ja repositooriumid

8.1 Mis on avaandmed?

Avaandmed (Open Data) on vabalt ja avalikult kättesaadavad andmed. Avaandmeid võib ilma piiranguteta alla laadida, kasutada ja levitada, juhul kui autorile viidatakse ning andmeid kasutatakse vastavalt litsentsitingimustele. Avaandmete mõiste on selgelt defineerituna kasutusel olnud kümmekond aastat ning on eriti viimastel aastatel tihedalt seotud survega avalikule sektorile teha oma andmed või osa nendest juurdepääsupiiranguta kättesaadavaks.

Avaandmete liike ([Open Knowledge Foundation](https://blog.okfn.org/2013/10/03/defining-open-data/))

Joonis 8.1: Avaandmete liike (Open Knowledge Foundation)

Eesti avaliku sektori avaandmed on tehtud kättesaadavaks Eesti Avaandmete Portaalis.

Avaandmetele lähedane mõiste, mis on eeskätt kasutuses teadusandmete kontekstis, on FAIR-andmed ehk andmed, mis on leitavad (findable), kättesaadavad (accessible), ristkasutatavad (interoperable) ja taaskasutatavad (reusable). FAIR-andmed ei ole tingimata kättesaadavad kõikidele ja mis tahes tingimustel, ent järgivad andmete kvaliteedi tagamise põhimõtteid, on paremini dokumenteeritud ning hõlpsamini taaskasutatavad.

FAIR põhimõtted

Joonis 8.2: FAIR põhimõtted

  • Andmete leitavusele aitab näiteks kaasa see, kui andmed on masinloetaval kujul, nad on kirjeldatud metainfo kaudu, varustatud märksõnadega ja neil on püsiidentifikaator DOI (Digital Object Identifier).
  • Kui andmeid (või osa nendest) hoitakse mingis avalikus repositooriumis ehk elektroonilises andmehoidlas, kust neid on võimalik alla laadida, on need hästi kättesaadavad.
  • Kui andmete vorming vastab mingitele kokkulepitud standarditele või andmeid hoitakse lihtsalt laialt kasutusel olevas, platvormist sõltumatus vormingus (nt CSV, XML), on need ka hõlpsasti ristkasutatavad.
  • Kui andmete kogumise ja töötlemise protsess on põhjalikult dokumenteeritud ning andmed on varustatud litsentsiga, on need ka taaskasutatavad.

Suuremad rahvusvahelised teadusandmete repositooriumid on näiteks Zenodo, Harvard Dataverse (vaata ka teisi Dataverse’i projekte), OSF ja Figshare. Repositooriume võib omakorda otsida erinevatest registritest, nagu Re3data.org või OpenAIRE.

Tartu Ülikool pakub TÜ Raamatukogu kaudu võimalust säilitada oma teadusandmeid DataDOI repositooriumis. Seal saavad andmed endale digitaalobjekti identifikaatori ehk DOI ning need registreeritakse koos metaandmetega rahvusvahelises DataCite registris. DataCite Eesti koondab ka teisi Eesti teadusega seotud repositooriume, nt Eesti geokogude portaal. Raamatukogul on ka ülevaade enimlevinud avatud juurdepääsuga andmebaasidest ja teaduse avaandmete repositooriumidest ja registritest.

Vaata lähemalt ka https://sisu.ut.ee/teadusandmed/.

Kui tahta oma andmeid avalikustada, tuleks nendele lisada litsents, mis määrab ära intellektuaalse omandi kasutusõiguse. Tüüpilised avaandmete litsentsid on:

Litsents Valdkond Tuleb viidata Tohib levitada ainult sarnase litsentsiga
CC0 Sisu, andmed Ei Ei
PDDL Andmed Ei Ei
CC-BY Sisu, andmed Jah Ei
ODC-BY Andmed Jah Ei
CC-BY-SA Sisu, andmed Jah Jah
ODbL Andmed Jah Jah

8.2 Eesti ruumiandmed

8.2.1 Maa-ameti Geoportaal

Eesti ruumiandmete peamine haldaja ja levitaja on Maa-amet. Alates 2018. a suvest on sisuliselt kõik Maa-ameti andmed avalikud ning ka allalaetavad lehelt https://geoportaal.maaamet.ee/. Nende kasutamist käsitleb Maa-ameti avatud ruumiandmete litsents.

Peamised punktid:

  • Õigus kasutada andmeid tasuta, kasutaja valitud kõlbelisel eesmärgil, kooskõlas seaduste ja heade tavadega.
  • Andmete publitseerimisel ja levitamisel peab viitama nende päritolule.
  • Maa-amet ei vastuta otsese ega kaudse kahju eest, mis võib tekkida andmete kasutamisest tulenevalt.

Maa-ameti kaudu on vabalt kasutatavad ka ajalooliste haldusjaotuste andmed, sh mõisate, kihelkondade, valdade, rajoonide kohta. Andmete kasutamisel tutvu kindlasti ka viitamistingimustega.

8.2.1.1 Harjutus 1

Kus asuvad Tartus suuremate kortermajadega piirkonnad? Vaatame faili tartuaadressid.csv (Moodle’is), mis on alamosa Maa-ameti jõusolevate aadressiobjektide andmestikust (seisuga 18.10.2023). Kuna Tartu aadresside algfail on üpris suur, siis meie kasutatav fail sisaldab ainult elukondlike hoonete ja eluruumide aadresse, millel on olemas ka koordinaadid.

Laadime andmestiku QGISi ning vaatame, kas meil õnnestub aadressipunkti suurust ja läbipaistvust muutes tuvastada näiteks suurte kortermajadega piirkonnad Tartu linnas.

  • Valime aluskaardiks kaardi Maa-ameti WMS-aadressilt https://kaart.maaamet.ee/wms/kaart?:
    • Layer → Add Layer → Add WMS/WMTS Layer → New (lisa nimi ja aadress) → OK → Connect → valime kogu komplekti (0 - haldus- ja asustusjaotus, baaskaardi maakatte kihid, ETAK) → Add → Close.
  • Lisame aadressiandmed:
    • Layer → Add Layer → Add Delimited Text Layer → Add → Close.
    • Jälgime, et kodeering (Encoding) oleks “UTF-8”.
    • File Format: väljade eraldaja (delimiter) on tabulaator (Custom delimiters → Tab).
    • Record and Fields Options: teeme linnukesed kastidesse First record has field names ja Detect field types.
    • Geometry Definition: valime punktide koordinaatideks (Point coordinates) vastavalt tulbad VIITEPUNKT_X ja VIITEPUNKT_Y ning määrame koordinaatide referentssüsteemiks EPSG:3301.
    • Kui all Sample Data eelvaates tunudub, et kõik on hästi ja tabel näeb välja selline nagu peab, siis vajutame nupul Add.
  • Teeme aluskaardi mustvalgeks ja heledamaks:
    • paremklikk aluskaardi kihil → Properties → Symbology → Layer Rendering → Grayscale (= By average), Brightness (= 10) → OK.
  • Määrame aadressiobjektide punktide suuruseks 1 mm, eemaldame neilt välimise ringjoone (Stroke) ning määrame nende väljapaistvusprotsendiks (Opacity) 5%:
    • paremklikk aadressiobjektide kihil → Properties → Symbology → Simple marker → Size (= 1) ja Stroke style (= No Pen); Marker → Opacity (= 5%).
    • Suumime kaardilt välja nii, et mõõtkava oleks vähemalt 1 : 50 000.
  • Jätame alles ainult eluruumide (ehk korterite) info:
    • paremklikk aadressiobjektide kihil → Filter → Provide Specific Filter Expression → “ADOB_LIIK” = ‘ER’ → OK.
Suuremad kortermajad Tartus

Joonis 8.3: Suuremad kortermajad Tartus

8.2.1.2 Harjutus 2

Salvesta loodud kaart pildifailina. Lisa juurde mõõtkava, kaardi pealkiri ning viide kasutatud andmetele.

8.2.2 Statistikaamet

Statistikaamet pakub avalikke andmeid sageli seotult mingite haldusüksuste andmetega (nt maakonnapõhiselt). Varasemalt pakkus statistikaamet ka kaardirakendust, mis võimaldas teha nende andmebaasi põhjal teemakaarte ja ka vastavaid andmeid ruumiandmetena alla laadida. 2023. aasta suvel aga rakendus suleti, kuna selle aluseks olev tehnoloogia oli vananenud.

Murdekõnelejad statistikaameti kaardirakenduse teemakaardil (2022)

Joonis 8.4: Murdekõnelejad statistikaameti kaardirakenduse teemakaardil (2022)

8.2.2.1 Harjutus 3

Uurime, kuidas on maakondades 2021. aasta rahvaloenduse põhjal rahvaarv 2011. aasta andmetega võrreldes protsentuaalselt kõige rohkem muutunud. Selleks

  • laadi QGISi Maa-ameti maakonnapiiride vektorkiht ja Moodle’is olev CSV-andmestik Statistikaameti andmetega (NB! Statistikaameti andmetes ei ole koordinaate -> No geometry);
  • lisa Statistikaameti andmestikku uus tulp nimega Muutus, kus kajastad 2021. aasta ja 2011. aasta vahet (kui rahvaarv kasvas, siis on väärtus positiivne, kui kahanes, siis negatiivne). Uue tulba lisamiseks ava CSV-kihi atribuuttabel (kiirklahv F6 või paremklikk -> Open Attribute Table) ning võta lahti tööriist Field Calculator ;
Tunnuste lisamine Statistikaameti tabelisse

Joonis 8.5: Tunnuste lisamine Statistikaameti tabelisse

  • lisa samal moel andmestikku teine tulp nimega MuutusProp, kus kajastad muutust protsentuaalselt ehk jagad tulba (Field) Muutus väärtused läbi 2011. aasta rahvaarvuga (Field 2011 Vanuserühmad kokku) ja korrutad saadud tulemuse 100-ga;
Tunnuste lisamine Statistikaameti tabelisse (2)

Joonis 8.6: Tunnuste lisamine Statistikaameti tabelisse (2)

  • ühenda maakondade vektorkihiga Statistikaameti rahvaloenduse andmed (ühine tulp on mõlemas andmestikus see, kus on maakondade nimed, vt ka 6. praktikumi materjale);
  • värvi maakonnad vastavalt protsentuaalse muutuse suunale ja suurusele. Üks klass võiks võimalusel väljendada kuni 0-5 protsendipunkti muutust (pretty breaks). Vali selline värviskaala (nt PRGn või RdBu), mis väljendaks skaala kumbagi äärmist otsa (suuri kasvuprotsente ja suuri kahanemisprotsente) eri värvidega;
  • salvesta kaart pildifailina. Lisa kaardile ka pealkiri, legend ja viide kasutatud andmetele.

8.2.3 Digitaalsed kaardikollektsioonid

Eesti digiteeritud kaartide kollektsioon on Rahvusarhiivi kaartide infosüsteem http://www.ra.ee/kaardid/, mis sisaldab Rahvusarhiivis ja Tallinna Linnaarhiivis hoitavate kaartide kirjeldusi ja digikujutisi. Infosüsteem võimaldab kaarte otsida ka kaardil piirkonda märkides (ehkki selleks tuleb end virtuaalse uurimissaali VAU kaudu tuvastada), kui kaardil klikkida ning tekkinud ruudukesest venitada sobiva suurusega kast ümber huvipakkuva ala.

8.2.3.1 Harjutus 4

Otsime kaartide infosüsteemist vanima kaardi, kus on kujutatud meie kodukoht. Soovitatav on otsida maal asuva kodu, vanavanemate kodu, suvila või mõne muu maal asuva huvipakkuva koha kaarti, kuna linnad on väga palju muutunud ning sealt võib olla raske konkreetset kohta leida. Otsingut võib lihtsustada see, kui teate, millise mõisa alla otsitav koht kuulus. Selleks võib vaadata kaardirakenduses Ajaloolised kaardid ajaloolist haldusjaotust (tehke vasakul paneelis linnuke vastava kihi ette). Mõisa nime saab RA kaartide infosüsteemis sisestada täpsemas otsingus väljale Koht -> Vali hierarhiast. Kuna 19. saj lõpust pärinev üheverstane kaart on georefereeritult samuti rakendusest näha, siis võib koha lokaliseerimisel sellest abi olla.

Kärdla kaart aastast 1830. EAA.46.2.366 leht 9

Joonis 8.7: Kärdla kaart aastast 1830. EAA.46.2.366 leht 9

8.2.4 Muu

8.3 Muude riikide ruumiandmed

Juurdepääsupiiranguta ruumiandmeid leiab internetist otsides hulganisti. Täpsed ruumiandmed on leitavad sageli huvipakkuva riigi enda avaandmete portaalidest. Siin on toodud vaid mõned üksikud näited üldisematest andmebaasidest ja repositooriumidest:

Geoinfoga varustatud andmeid leiab ka mitmesugustelt üldistelt lehekülgedelt ja platvormidelt, nt Twitterist/X-ist või Flickrist, mis võimaldavad andmeid koguda oma API (Application Programming Interface) abil.

Näide Flickrist kogutud andmete visualiseerimisest ([Postimees, 25. september 2021](https://arvamus.postimees.ee/7345222/viguriga-kaardid-kus-pildistatakse-enim?fbclid=IwAR2N2c1YQcE1EOzY7u_UC5wNClvhl0JZEpmBbpA2NY9UrKobrNwsW8D0zBY))

Joonis 8.8: Näide Flickrist kogutud andmete visualiseerimisest (Postimees, 25. september 2021)

8.4 Järgmisel korral

Esmaspäeval tegeleme georefereerimisega ehk seome digiteeritud kaarte geograafiliste koordinaatidega.