pdf解析可以用來讀取PDF文件中字符串文本,圖片數據。Apache PDFbox是一個開源的、基于Java的、支持PDF文檔生成的工具庫,它可以用于創(chuàng)建新的PDF文檔,修改現有的PDF文檔,還可以從PDF文檔中提取所需的內容。Apache PDFBox還包含了數個命令行工具。
Apache PDFBox主要有以下特征:
PDF讀取、創(chuàng)建、打印、轉換、驗證、合并分割等特征。
(1) 讀取文本數據
讀取文本并沒有特別需要說明的地方,就是獲取PDF文本起始頁,結束頁,通過getText函數直接獲取PDF的所有文本。
(2) 獲取PDF的中圖片
將獲取的PDF中圖片對象保存到另一個PDF中
此方法可以取出源PDF中圖片對象PDImageXObject,然后可以對該對象進行相關處理,本代碼實現了將提取出來的每一個圖片對象,插入到一個空白的PDF文檔中。
-
數據
+關注
關注
8文章
7249瀏覽量
91406 -
字符串
+關注
關注
1文章
589瀏覽量
21187 -
PDF
+關注
關注
1文章
172瀏覽量
34385
原文標題:PDF解析思路
文章出處:【微信號:gh_757915171cb5,微信公眾號:FPGA自學筆記】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
怎么把圖片jpg轉換成pdf文件呢
strtok拆分字符串

評論