Cara Mengonversi File PDF ke Teks yang Dapat Diedit Menggunakan Baris Perintah di Linux
Ada berbagai alasan mengapa Anda mungkin ingin mengonversi file PDF ke teks yang dapat diedit. Mungkin Anda perlu merevisi dokumen lama dan yang Anda miliki hanyalah versi PDFnya. Mengonversi file PDF di Windows itu mudah, tetapi bagaimana jika Anda menggunakan Linux?
Jangan khawatir. Kami akan menunjukkan kepada Anda cara mudah mengkonversi file PDF ke teks yang dapat diedit menggunakan alat baris perintah yang disebut pdftotext, yang merupakan bagian dari paket "poppler-utils". Alat ini mungkin sudah diinstal. Untuk memeriksa apakah pdftotext diinstal pada sistem Anda, tekan "Ctrl + Alt + T" untuk membuka jendela terminal. Ketik perintah berikut di prompt dan tekan "Enter".
dpkg -s poppler-utils
CATATAN: Ketika kami mengatakan untuk mengetikkan sesuatu di artikel ini dan ada tanda kutip di sekitar teks, JANGAN ketikkan tanda kutip, kecuali kami menentukan sebaliknya.
Jika pdftotext tidak diinstal, ketikkan perintah berikut pada prompt dan tekan "Enter".
sudo apt-get install poppler-utils
Ketikkan kata sandi Anda saat diminta dan tekan "Enter".
Ada beberapa alat yang tersedia dalam paket poppler-utils untuk mengonversi PDF ke berbagai format, memanipulasi file PDF, dan mengekstraksi informasi dari file.
Berikut ini adalah perintah dasar untuk mengonversi file PDF ke file teks yang dapat diedit. Tekan "Ctrl + Alt + T" untuk membuka jendela Terminal, ketik perintah pada prompt, dan tekan "Enter".
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Ubah path ke setiap file agar sesuai dengan lokasi dan nama file PDF asli Anda dan tempat Anda ingin menyimpan file teks yang dihasilkan. Juga, ubah nama file agar sesuai dengan nama file Anda.
File teks dibuat dan dapat dibuka sama seperti Anda akan membuka file teks lainnya di Linux.
Teks yang dikonversi mungkin memiliki jeda baris di tempat yang tidak Anda inginkan. Jeda baris dimasukkan setelah setiap baris teks dalam file PDF.
Anda dapat mempertahankan tata letak dokumen Anda (header, footer, paging, dll.) Dari file PDF asli dalam file teks yang dikonversi menggunakan flag "-layout".
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Jika Anda hanya ingin mengonversi rentang halaman dalam file PDF, gunakan bendera “-f” dan “-l” (huruf kecil “L”) untuk menentukan halaman pertama dan terakhir dalam rentang yang ingin Anda konversi.
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Untuk mengonversi file PDF yang dilindungi dan dienkripsi dengan kata sandi pemilik, gunakan bendera “-opw” (karakter pertama dalam bendera adalah huruf kecil “O”, bukan nol).
pdftotext -opw 'kata sandi' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Ubah "kata sandi" menjadi yang digunakan untuk melindungi file PDF asli yang sedang dikonversi. Pastikan ada tanda kutip tunggal, bukan ganda, di sekitar "kata sandi".
Jika file PDF dilindungi dan dienkripsi dengan kata sandi pengguna, gunakan flag "-upw" alih-alih flag "-opw". Perintah lainnya sama.
Anda juga dapat menentukan tipe karakter end-of-line yang diterapkan pada teks yang dikonversi. Ini sangat berguna jika Anda berencana untuk mengakses file pada sistem operasi yang berbeda seperti Windows atau Mac. Untuk melakukan ini, gunakan bendera "-eol" (karakter tengah dalam bendera adalah huruf kecil "O", bukan nol) diikuti oleh spasi dan jenis karakter end-of-line yang ingin Anda gunakan (" unix "," dos ", atau" mac ").
CATATAN: Jika Anda tidak menentukan nama file untuk file teks, pdftotext secara otomatis menggunakan basis nama file PDF dan menambahkan ekstensi ".txt". Misalnya, "file.pdf" akan dikonversi menjadi "file.txt". Jika file teks ditentukan sebagai "-", teks yang dikonversi dikirim ke stdout, yang berarti teks ditampilkan di jendela Terminal dan tidak disimpan ke file.
Untuk menutup jendela Terminal, klik tombol "X" di sudut kiri atas.
Untuk informasi lebih lanjut tentang perintah pdftotext, ketikkan “man page pdftotext” pada prompt di jendela Terminal.