Teks
Rancang bangun aplikasi ekstraksi data dokumen C1 menggunakan Tesseract-OCR Engine
Indonesia
Proses pemilu tahun 2019 menggunakan Sistem Informasi Penghitungan Suara (Situng) sebagai bentuk transparansi proses rekapitulasi hasil pemilu. Data yang ditampilkan dalam Situng merepresentasikan data dari dokumen C1 masing-masing TPS dengan jumlah TPS yang ada di Indonesia sebanyak 813.336 TPS. Data dokumen C1 dientri dan diunggah ke dalam Situng oleh petugas di KPU tingkat kabupaten/kota. Kegiatan entri data yang dilakukan oleh manusia bukan tidak mungkin terhindar dari kesalahan. Ditemukan 269 kesalahan entri data pada proses rekapitulasi hasil pemilu 2019 dan proses entri data juga tidak berjalan sesuai target yang ditentukan sehingga mengalami keterlambatan. Selain itu ditemukan juga kasus modifikasi dokumen C1 sehingga keaslian data diragukan.
Entri data otomatis dapat diterapkan untuk menghindari adanya human error dan meningkatkan kecepatan entri data. Data yang dientri merupakan data teks dalam dokumen gambar dengan format template yang sama sehingga optical character recognition (OCR) dapat diterapkan untuk membaca teks beserta dengan peningkatan kualitas dan penyelarasan gambar agar area baca OCR lebih akurat. Tesseract-OCR menyediakan library untuk mengimplementasikan OCR. Dengan menggunakan metode ini, akurasi yang didapatkan masih belum optimal sebagai pengganti petugas entri data Situng. Sedangkan penerapan digital signature dengan algoritma RSA-2048 dapat menjaga integritas dokumen C1.
English
DESIGN AND DEVELOPMENT OF THE C1 DOCUMENT DATA EXTRACTION APPLICATIONS USING TESSERACT-OCR ENGINE
The 2019 national election process used the Vote Counting Information System (Situng) as a form of transparency in the recapitulation process for election results. The data displayed in Situng represents data from the C1 document of each voting place with a total of 813,336 voting places in Indonesia. C1 document data is entered and uploaded into Situng by officials at the regency level KPU. Data entry activities carried out by humans is not impossible to avoid mistakes. There were 269 data entry errors found in the recapitulation process of the 2019 national election results and the data entry process also did not run according to the specified target so that it was delayed. In addition, there was also a case of a modification of document C1 so that the authenticity of the data was doubtful.
Automatic data entry can be implemented to avoid human errors and increase data entry speed. The data entered was the text data in the image document with the same template format so that optical character recognition (OCR) can be applied to read the text along with improving the quality and alignment of the images so that the OCR reading area is more accurate. Tesseract-OCR provides a library for implementing OCR. By using this method, the accuracy obtained is still not optimal as a substitute for the Situng data entry officer. While the application of digital signatures with the RSA-2048 algorithm can maintain the integrity of the C1 documents.
No copy data
No other version available