MENIKÖ OIKEIN? 
TALLENNETTAVAN TIEDON TARKISTAMISESTA
Asiakirjoista löydetty tieto on hyödytöntä jos se ei ole oikein, joten se tulee tarkistaa mikäli mahdollista.

Asiakirjan sisältö muutetaan merkintunnistuksen (”OCR”, optical character recognition) avulla tekstitiedostoksi. Tiedoston sisältöä analysoidaan kehittyneillä algoritmeilla jotka hakevat sisällöstä haluttuja tallennettavia tietoja.

Analysoinnissa käytetään hyväksi kertynyttä tietoa mahdollisista merkintunnistuksen virheistä. Tällaisia ovat esim. numerosarjaa luettaessa esiintyvä g, joka muunnetaan olemaan 9, tai o (tai O) joka muunnetaan olemaan 0, ja päinvastoin jos haetaan jotain kirjaimista muodostuvaa merkkijonoa.

Näin voidaan, jos haetaan henkilötunnusta, ensin hakea merkkejä + tai – tai A (henkilötunnuksen välimerkki on ”+” jos henkilö on syntynyt 1800 – luvulla, ”-” jos henkilö on syntynyt 1900 – luvulla, ja ”A” jos henkilö on syntynyt 2000 – luvulla), ja sitten otetaan välimerkkiä seuraavat neljä (tunnusosa, järjestysnumero + tarkiste) ja välimerkkiä edeltävät 6 merkkiä (syntymäaika) ja muodostetaan näistä merkkijono johon sovelletaan tunnettujen merkintunnistuksen mahdollisia virhetunnistuksia, muutetaan soveltuvat kirjaimet numeroiksi, tarkistetaan että synnytetty syntymäaika on mahdollinen vuosisata huomioiden, muutetaan tunnusosan 3 ensimmäisen merkin kohdalla kirjaimet numeroiksi, lasketaan tarkiste ja verrataan näin saatua tarkistetta luettuun tarkisteeseen. Jos se täsmää on kyseessä mitä todennäköisimmin oikea henkilötunnus, joka tallennetaan.

Tai, jos haetaan jotain tietyn muotoista merkkijonoa, kuten jotain sarjanumeroa jonka tiedetään olevan muotoa 999-AA-99999 jossa ”9” on jokin numero 0-9 ja ”A” on jokin kirjain välillä A-Z, haetaan tekstistä ”-” merkkiä ja kun sellainen löytyy luetaan sitä edeltävät kaksi ja sitä seuraavat 8 merkkiä, katsotaan josko numerot, kirjaimet ja muut ”-” - merkit ovat siellä missä niiden pitäisi olla jos kyseessä on halutunlainen sarjanumero, ja tallennetaan löydetty tieto odottamaan tarkistusta.

Vastaavalla tavalla voidaan analysoitavasta tekstistä hakea pankkiviitettä, RF-viitettä, IBAN – tilinumeroa, y-tunnusta, ALV-numeroa, mitä tahansa jossa on mukana tarkiste (ja tarkisteen laskentamenetelmä on tiedossa) ja tuloksena on vähintään teknisesti oikea arvo tiedolle.

Jos tarkistetta ei ole, kuten esim. yllä kuvatun sarjanumeron tapauksessa, ei tulos ole heti yhtä luotettava, ja erityisesti tällaisissa tapauksissa tulee tieto tarkistaa erillisen selainkäyttöisen tarkistuskäyttöliittymän avulla.

Tietoja joille löytyy ohjelmallinen tarkistus löytyy vakiona ovat IBAN – tilinumero, suomalainen henkilötunnus, suomalainen pankkiviite, suomalainen RF-pankkiviite, suomalainen y-tunnus, suomalainen ALV-numero sekä päivämäärien tarkistamiseen.

YourKnowledge Oy
Jannunkuja 2 / 28
21250 Masku
Y-tunnus 2264714-7
infoourknowledge.fi

Sivustolla kävijöiden ip - osoite ja käyntihetki tallennetaan tilastointia varten, tietoja ei luovuteta edelleen. Evästeitä ei käytetä.
© YourKnowledge Oy 2009 - 2024 Last: 2024-04-16