Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében
Pataki, Máté and Tóth, Zoltán (2007) Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében. In: Networkshop 2007.
|
Image (cover image)
cover.jpg - Cover Image Download (6kB) | Preview |
|
|
Text
200704_Networkshop_OCR.pdf - Published Version Download (377kB) | Preview |
Abstract
A Meta-Contentum GVOP pályázat keretében az MTA SZTAKI Elosztott Rendszerek osztálya azt is vizsgálta, hogy magyar nyelvű szkennelt szövegekben milyen hibák keletkeznek az eredeti dokumentumhoz képest, és ezek a hibák mire vezethetőek vissza, ennek a vizsgálatnak az eredményét ismertetjük előadásunk során. A kutatás nagy mennyiségű, valós, digitális szövegként is rendelkezésre álló dokumentumon folyt. A doc, rtf és txt formátumú dokumentumok kinyomtatott és mesterséges hibával is ellátott, majd beszkennelt változatai kerültek összehasonlításra az eredeti szövegekkel, annak érdekében, hogy algoritmikusan is ellenőrizni lehessen a korábban kézi javítás során szerzett tapasztalatokat. A végleges tesztadatbázis 1 gigabájtnyi szövegből állt, ezen futottak le az összehasonlító algoritmusok, melyek a kétszer 5500 tesztdokumentumból az eredetit és a hozzá tartozó szkennelt változatot összehasonlították, és kigyűjtötték a hibákat, statisztikákat, szavakat. A szógyűjtemények további elemzéseket tettek lehetővé, mint például az ismeretlen szavak hányada az adatbázisban, egy szótőhöz tartozó ragozott alakok átlagos száma, ritkán előforduló szavak, szóalakok.
Item Type: | Conference or Workshop Item (Paper) |
---|---|
Uncontrolled Keywords: | OCR, error, character recognition |
Subjects: | Q Science > QA Mathematics and Computer Science > QA75 Electronic computers. Computer science / számítástechnika, számítógéptudomány |
Divisions: | Department of Distributed Systems |
Depositing User: | Máté Pataki |
Date Deposited: | 11 Dec 2012 15:26 |
Last Modified: | 11 Dec 2012 15:26 |
URI: | https://eprints.sztaki.hu/id/eprint/4409 |
Update Item |