Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében

Pataki, Máté and Tóth, Zoltán (2007) Szkennelt szövegek digitalizálása során keletkező hibák elemzése magyar szövegek esetében. In: Networkshop 2007.

[img]
Preview
Image (cover image)
cover.jpg - Cover Image

Download (6kB) | Preview
[img]
Preview
Text
200704_Networkshop_OCR.pdf - Published Version

Download (377kB) | Preview

Abstract

A Meta-Contentum GVOP pályázat keretében az MTA SZTAKI Elosztott Rendszerek osztálya azt is vizsgálta, hogy magyar nyelvű szkennelt szövegekben milyen hibák keletkeznek az eredeti dokumentumhoz képest, és ezek a hibák mire vezethetőek vissza, ennek a vizsgálatnak az eredményét ismertetjük előadásunk során. A kutatás nagy mennyiségű, valós, digitális szövegként is rendelkezésre álló dokumentumon folyt. A doc, rtf és txt formátumú dokumentumok kinyomtatott és mesterséges hibával is ellátott, majd beszkennelt változatai kerültek összehasonlításra az eredeti szövegekkel, annak érdekében, hogy algoritmikusan is ellenőrizni lehessen a korábban kézi javítás során szerzett tapasztalatokat. A végleges tesztadatbázis 1 gigabájtnyi szövegből állt, ezen futottak le az összehasonlító algoritmusok, melyek a kétszer 5500 tesztdokumentumból az eredetit és a hozzá tartozó szkennelt változatot összehasonlították, és kigyűjtötték a hibákat, statisztikákat, szavakat. A szógyűjtemények további elemzéseket tettek lehetővé, mint például az ismeretlen szavak hányada az adatbázisban, egy szótőhöz tartozó ragozott alakok átlagos száma, ritkán előforduló szavak, szóalakok.

Item Type: Conference or Workshop Item (Paper)
Uncontrolled Keywords: OCR, error, character recognition
Subjects: Q Science > QA Mathematics and Computer Science > QA75 Electronic computers. Computer science / számítástechnika, számítógéptudomány
Divisions: Department of Distributed Systems
Depositing User: Máté Pataki
Date Deposited: 11 Dec 2012 15:26
Last Modified: 11 Dec 2012 15:26
URI: https://eprints.sztaki.hu/id/eprint/4409

Update Item Update Item