如何在linux shell脚本中searchpdf文件的内容?

假设我已经给了一些pdf格式的期刊论文。 我想找出论文的标题和作者列表。 我怎么能在shell脚本中做到这一点?

Solutions Collecting From Web of "如何在linux shell脚本中searchpdf文件的内容?"

我不知道这是否适合您的日记,它适用于一些PDF文件:

strings "myjournal.pdf" | egrep "/Author|/Title" | tr '/' '\n' | egrep "Author|Title" 

我参与了一个项目,我们必须在PDF文件的内容中进行搜索。 我们决定使用的过程如下:

首先,我们将使用以下命令将PDF文件转换为图像:

 convert -density 500 "pdf_path.pdf" -depth 8 "image_output.png" 

在创建文件之后,我们使用下面的命令创建一个带有pdf内容的txt文件。

 tesseract "image_output.png" "out_put_txt_file_name" -l por 

你可能不得不改变-l por参数,因为我们用这个来做葡萄牙文的。