PDF 文件是一种非常常用的文件格式,在企业信息系统存储和交换信息中普遍使用。然而从 PDF 文档中获取表格段落等文档内容却是一件非常麻烦的事情,这是因为pdf的设计初衷是基于文档显示的,为了能保证在不同平台中完全一致的视觉效果,文档以页为单位存储的是一系列包含线条、字符、图片等基本元素的绘图指令。基于这个原因,pdf文档不能像word文档一样直接获取表格和段落,如要获取结构化的文档内容,需要在获取字符、线条等图形及坐标基础上按阅读顺序把含线条、字符、图片等基本元素拼接成文档,过程十分复杂,而且需要不断优化才能达到满意的效果。
10年积累的成都网站设计、成都做网站经验,可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你,你也不认识我。但先网站设计后付款的网站建设流程,更有七星关区免费网站建设让你可以放心的选择与我们合作。PDFBox是apache基金会旗下的一个为java开发人员读取和创建PDF文档而准备的纯Java开源类库。通过PDFBox可以轻松解析PDF文档并逐页获取图形元素及坐标。
pdftranspro是基于PDFBox的一款专业 pdf 文本内容提取软件,支持windows和linux平台,经过数年的持续改进其内容提取能力已经达到令人惊艳的地步,不仅能对跨页、跨栏的段落或表格进行合并处理,精确还原整篇文档内的段落和表格,而且可以同时输出html、xml、json、txt 等 4 种格式,方便用户高效获取 pdf 文档内的精确信息或数据。其个人版提供操作界面,可以一键处理单个pdf文档,个人用户免费使用。SSDK版通过Java调用SDK方式集成pdf文档转换功能,也提供 pdf文档截取合并等实用的 pdf 编辑功能。控制台版需取得licence文件才能使用,用户可免费试用。
接口说明 1.单文档转换转换单个 PDF 文档至 html、xml、json、txt 等格式。
处理函数1:public void transone_pdf(String infile,String outpath,boolean out_style,boolean html,boolean xml, boolean json,boolean txt)
其中参数infile为源文件位置,outpath为文件输出路径, out_style 为转换样式参数,true 为"标记页码",false 为"跨页合并"。html、xml、json、txt等参数表示是否生成该格式文件,可同时转换生成多种格式文件。
处理函数2:public void transone_pdf(String infile,String outpath,boolean out_style,boolean html,boolean xml, boolean json,boolean txt,int pagestart,int pageend)
其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码。
处理函数3:public String getpdftext(String infile,boolean out_style,String out_type)
该函数返回指定格式文本,其中参数 out_style 为转换样式参数,true 为"标记页码",false 为"跨页合并",out_type 为文本格式,只能是”html”,”xml”,”json”或”txt”。
处理函数4:public String getpdftext(String infile,boolean out_style,String out_type,int pagestart,int pageend)
其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码。
示例:import org.pdf.parser.Pdfutil;
public class Test_util
{
public static void main(String[] args)
{
Pdfutil test = new Pdfutil();
test.transone_pdf("infiles/abc.pdf","outfiles",true,true,false,false,false); //将表示将文件 infiles/abc.pdf 转成 html 格式,转换样式为"标记页码",文件生成在 outfiles 下。
test.transone_pdf("infiles/abc.pdf","outfiles",false,true,true, true,true,10,20);//表示将文件 infiles/abc.pdf 转成 html、xml、json、txt四种格式,转换样式为"跨页合并",页码范围为 10 至 20 页,文件生成在 outfiles 下。
System.out.println(test.getpdftext("infiles/abc.pdf",false,"xml"));//表示将文件 infiles/abc.pdf 转成 xml 格式,转换样式为跨页合并,返回生成的 xml 文本。
System.out.println(test.getpdftext("infiles/abc.pdf",true,"html",10,20));//表示将文件 infiles/abc.pdf 转成 html 格式,转换样式为标记页码,页码范围为 10 至 20 页,返回生成的 html 文本。
}
}
2.批量文档转换批量转换 PDF 文档至 html、xml、json、txt 等格式。
处理函数1:public void transall_pdf(String inpath,String outpath,boolean txt,boolean html,boolean xml, boolean json,boolean out_style)
其中参数infile为源文件路径,outpath为文件输出路径, out_style 为转换样式参数,true 为"标记页码",false 为"跨页合并"。html、xml、json、txt等参数表示是否生成该格式文件,可同时转换生成多种格式文件。
处理函数2:public void transall_pdf(String inpath,String outpath,boolean txt,boolean html,boolean xml, boolean json,boolean out_style,int pagestart,int pageend,int num_bfs)
其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码,num_bfs 为并发任务数,系统默认为 5,有效设置范围为 1 至 10。
示例:import org.pdf.parser.Pdfutil;
public class Test_util
{
public static void main(String[] args)
{
Pdfutil test = new Pdfutil();
test.transall_pdf("infiles","outfiles",true,true,false,false,false);//将表示将文件夹 infiles 下所有 pdf 文件转成 html 格式,转换样式为标记页码,文件生成在 outfiles 下。
test.transall_pdf("infiles","outfiles",false,true,true, true,true,10,20);//表示将文件夹infiles下所有pdf文件转成html、xml、json、txt 四种格式,转换样式为跨页合并,页码范围为 10 至 20 页,文件生成在 outfiles 下。
}
}
3.文档截取用于截取 pdf 文档,生成一份新的指定页码范围的 pdf 文档。
处理函数:public void splitpdf(String filePath, String outPath,int startpageNum,int endpageNum)
其中参数filePath为源文件位置,outpath为文件输出路径, startpageNumh 和 endpageNum 分别代表起始页码和截止页码。截取后的文件名为源文件加前缀”split_”。
示例:import org.pdf.parser.Pdfutil;
public class Test_util
{
public static void main(String[] args)
{
Pdfutil test = new Pdfutil();
test.splitpdf("infiles/abc.pdf","outfiles",1,10);// 表 示 截 取 文 件 infiles/abc.pdf 第 1 至 10 页 , 生 成 在 outfiles 下,文件名为”split_abc.pdf”。
}
}
4.文档合并用于合并两份 pdf 文档为一份 pdf 文档。
处理函数:public void mergepdf(String filename1,String filename2,String outpath)
其中参数filename1为源文件1位置,filename2为源文件2位置,outpath为文件输出路径。合并后的文件名为filename1 加前缀”merg_”。
示例:import org.pdf.parser.Pdfutil;
public class Test_util
{
public static void main(String[] args)
{
Pdfutil test = new Pdfutil();
test.mergepdf("infiles/abc1.pdf","infiles/abc2.pdf","outfiles");// 表 示 合 并 文 件 infiles/abc1.pdf 和 infiles/abc2.pdf 生成在 outfiles 下,文件名为”merg_abc1.pdf”。
}
}
本文完。
你是否还在寻找稳定的海外服务器提供商?创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源,准确流量调度确保服务器高可用性,企业级服务器适合批量采购,新人活动首月15元起,快前往官网查看详情吧
网页名称:java调用SDK版pdftranspro接口详解-创新互联
网页路径:http://lswzjz.com/article/eddgc.html