Vikipedjos duomenų palyginimas

Prieš porą metų buvo rašyta apie Lietuvoje naudojamą sistemą išorinių šaltinių ir OSM duomenų lyginimui (I dalis, II dalis). Sistema randa neatitikimus, o mums tada lieka arba taisyti trūkumus OSM, arba pranešti problemą išorinio šaltinio savininkams.

Tai šį kartą parašysiu apie konkretų pavyzdį – Vikipedijos (Wikipedia) informacijos naudojimą kaip išorinį šaltinį, ir kaip Jūs galėtumėte prisidėti.

Lyginimas su Vikipedija

Jau keli metai, kaip Vikipedijos straipsniuose galima pridėti ir geografinę informaciją (koordinates). Todėl galima pradėti daryti „surišimą“ tarp OSM ir Vikipedijos duomenų. T.y. galima pažiūrėti:

  1. ar visi objektai, kurie OSM turi „wikipedia“ žymą, Vikipedijoje turi nurodytas koordinates (na ir ar apskritai toks straipsnis yra Vikipedijoje
  2. ar yra OSM visi objektai, kurie turi savo aprašymus Vikipedijoje su koordinatėmis (išskyrus kai kuriuos objektus, kuriems OSM ne vieta, pavyzdžiui įvykių vietos)

Palyginimo rezultatą galite rasti čia: http://patrulis.openmap.lt/wikipedia.html:

Kokios gali būti situacijos

Pagrindinis dalykas, kurį reikia žinoti, tai kad nei vienas duomenų rinkinys (nei Vikipedija, nei OSM) nėra 100% teisingas. Būtent todėl ir reikia, kad žmogus patikrintų rezultatus.

Dažniausia situacija bus tokia, kad ir objektas yra OSM’e, ir straipsnis Vikipedijoje turi nurodytas koordinates, ir koordinatės sutampa su OSM (su šiokia tokia paklaida). Tokie objektai sąraše apskritai nebus rodomi (todėl ir eilės numeriai eina ne iš eilės), nes su jais nieko ir daryti nebereikia.

„NĖRA“

Gali būti, kad objektas su koordinatėmis yra Vikipedijoje, bet jo nėra OSM’e. Tokiu atveju sąraše bus rodoma rausva eilutė su tekstu „NĖRA“. Reiškia reikia atsidaryti OSM žemėlapį pagal Vikipedijos nurodytas koordinates ir pažiūrėti, kokius duomenis turime OSM’e. Spaudžiame ant „NĖRA“ ir gauname detalesnę konkretaus objekto informaciją:

Čia turime nuorodą „Atidaryti vietą“ (viena skirta JOSM redaktoriui, kita – iD redaktoriui). Spaudžiame nuorodą, jūsų redaktoriuje turėtų atsidaryti atitinkama vieta.

Jei randame straipsnį atitinkantį objektą ir jis neturi žymos „wikipedia“ – tiesiog pridedame žymą „wikipedia“ su reikšme, kuri nurodyta eilutėje „Straipsnis“, konkrečios iliustracijos atveju – „lt:Respublikinė Panevėžio ligoninė“ – atkreipkite dėmesį į „lt:“ priekyje – tai būtina dalis, nes rodome į lietuvišką Vikipedijos straipsnį.

Turėkite omenyje, kad Vikipedijoje koordinatės tiesiog įrašomos kaip skaičiukai. T.y. įvedimo metu nesimato, į kokią vietą pasaulyje tos koordinatės rodo, kokie šalia yra objektai ir pan. Taigi gali būti, kad koordinatės nurodytos netiksliai. Kartais netikslumas bus keli metrai, kartais kilometrai, kai kuriais išimtiniais atvejais galima rasti koordinačių Afrikoje 🙂 (čia rimtai)

Tai jūsų tikslas, žinoma, identifikuoti teisingą objektą teisingoje vietoje. T.y. nereikia OSM esamo objekto traukti į Vikipedijos koordinates, jei jums pagal ortofoto ar kitus šaltinius (svetaines internete, savo vietines žinias ar pan.) matosi, kad OSM koordinatės yra teisingos.

Jei objekto OSM nėra, reikia jį sukurti teisingoje vietoje ir vėlgi pridėti „wikipedia“ žymą.

Jei nesate tikri, ortofoto aiškiai nesimato, internete nieko doro rasti nepavyksta – geriau nieko nedarykite – palikite kaip yra. Gal kas nors kada nors nuvažiuos ir vietoje paieškos trūkstamo objekto.

Atkreiptinas dėmesys, kad Vikipedijoje gali pasitaikyti objektai, kurie realiai ir neturi atsidurti OSM žemėlapyje. Pavyzdžiui mūšių vietos (kai toje vietoje šiandien fiziškai nėra tarkim paminklo). Tada geriau klausti sąrašyne (talk-lt) ar IRC.

„YRA“

Jei objektas yra, bet Vikipedijos ir OSM koordinatės nesutampa daugiau nei paklaida, tai įrašas sąraše vis tiek bus, bet jis bus žalias, o po įrašu bus pilka eilutė, kur bus nurodyta, kur toks objektas yra OSM’e ir koks yra pozicijų neatitikimas. Tada galima bandyti patikrinti, kurios koordinatės yra neteisingos. Jei neteisingos OSM’e – reikia pataisyti (perkelti objektą).

Tai tiek variantų taisant OSM duomenis.

Netikslūs Vikipedijos duomenys

Jei matote, kad Vikipedijoje netikslūs duomenys – palikite (šiame įraše nedetalizuosiu, kaip taisyti Vikipediją). Žinoma, jei žinote kaip – galite pataisyti ir Vikipedijoje.

Sąrašo antroje dalyje būtent ir bus surašyti objektai OSM’e, kurie turi „wikipedia“ žymas, bet nurodytas Vikipedijos straipsnis arba neegzistuoja, arba neturi koordinačių. Šį kartą nenagrinėsime, ką su tokiais įrašais daryti, nes čia jau ne OSM, o Vikipedijos redagavimas (ir yra žmonių, kurie Vikipediją tvarko pagal OSM duomenis, na bent aš žinau du).

Tikrinimo principinės klaidos

Nors ši sistema naudojama jau ne pirmus metus, duomenys, algoritmai ir pan. pastoviai keičiasi, taigi gali būti klaidų pačiame tikrinime. Tada geriausia būtų parašyti į talk-lt (ar man asmeniškai), žiūrėsime, ką galima padaryti.

Palyginimo sąrašas atnaujinamas neperiodiškai. Jei bus daug tvarkančių – galima atnaujinti kad ir kasdien (Vikipedijos duomenys atsinaujina tik kas ~mėnesį).

Tai tiek. Pabandykite, pažiūrėkite, ir būtinai klauskite, jei kas neaišku. Kuo daugiau sutvarkysite tokių paprastų palyginimų, tuo daugiau laiko seniau palyginimu užsiimantiems žmonėms liks sudėtingų lyginimų tvarkymui (kelių geometrijai, upių intakams ir pan.)

Share

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *