Ako nekog interesuje, komanda za izvlacenje teksta iz PDF dokumenta (u kome je moguca selekcija teksta misem, ne oni dokumenti koji moraju da se obradjuju preko OCR), se vrsi ovako:
pdftotext -layout -enc UTF-8 pdf_koji_konvertujemo.pdf fajl_koji_dobijamo.txt
-layout - pasusi, stubci i sve ostalo ostaje kao kod orginalnog pdf-a
-enc UTF-8 - enkoder za prepoznavanje karaktera
napomena: izlazni fajl, .txt, njegovo ime mora da se navede
pdftotext je sastavni deo poppler-data paketa (na nekim distribucijama, paket je poppler)
Pozdrav i svako dobro