Tesseract.js Membawa Gambar Terjemahan OCR ke Browser

Terjemahan OCR masih belum sempurna tetapi telah meningkat secara dramatis selama beberapa tahun terakhir. Yang memimpin adalah Tesseract mesin terjemahan saat ini open source C++.

Meskipun ini adalah perpustakaan yang luar biasa, namun terbatas pada perangkat lunak. Untungnya seseorang membuat port Tesseract menjadi JavaScript yang disebut Tesseract.js. Saya t mendukung hingga 60 bahasa dan sementara itu tentu saja tidak sempurna, ia melakukan pekerjaan dengan baik.

Instalasi dan pengaturan sangat mudah di mana Anda bisa menargetkan elemen gambar apa pun pada halaman dan jalankan Tesseract.recognize () fungsi. Ini dapat mengambil semua jenis gambar dan itu akan secara otomatis kompres & terjemahkan tepat di browser.

Anda bisa menjadi jauh lebih rumit tetapi keindahannya bagaimana Anda dapat menjalankan OCR dengan satu baris kode.

Periksa halaman pendaratan Tesseract.js jika Anda ingin melihat demo langsung. Ini berfungsi tepat di browser tempat Anda bisa seret & letakkan gambar teks yang dipindai untuk mendapatkan terjemahan OCR otomatis.

Anda juga dapat mengunduh contoh ini secara lokal melalui halaman GitHub atau Anda dapat membuat aplikasi sendiri dengan memasukkan skrip Tesseract.js langsung dari CDN.

Contoh kode paling sederhana terlihat seperti berikut ini di mana myImage adalah referensi langsung ke elemen gambar HTML:

 Tesseract.recognize (myImage) .then (fungsi (hasil) console.log (hasil));

Either way perpustakaan ini sangat membantu untuk bergerak dengan OCR di web. Jauh dari sempurna tetapi juga sumber daya terbaik untuk pengembang web yang menginginkan fungsionalitas OCR dalam-halaman yang dinamis.

Untuk mempelajari lebih lanjut, kunjungi halaman GitHub Tesseract.js di mana Anda dapat melihat demo langsung dan menelusuri dokumentasi online.