首页 技术 正文
技术 2022年11月16日
0 收藏 710 点赞 3,746 浏览 906 个字

用Nuget抓取类库,FreeSpire.PDF就可以

代码如下 , 亲测可以抓取PNG图形,即使原图是JPG,也会存成PNG格式输出:

//加载PDF文档
PdfDocument doc = new PdfDocument();
doc.LoadFromFile(file); List<Image> listImages = new List<Image>(); for (int i = 0; i < doc.Pages.Count; i++)
{
// 实例化一个Spire.Pdf.PdfPageBase对象
PdfPageBase page = doc.Pages[i]; // 获取所有pages里面的图片
Image[] images = page.ExtractImages();
if (images != null && images.Length > 0)
{
listImages.AddRange(images);
} } // 将提取到的图片保存到本地路径
if (listImages.Count > 0)
{
for (int i = 0; i < listImages.Count; i++)
{
Image image = listImages[i];
image.Save("image" + (i + 1).ToString() + ".png", System.Drawing.Imaging.ImageFormat.Png);
} }

  顺便贴下读取文本的代码:

 //实例化一个PdfDocument对象
PdfDocument doc = new PdfDocument(); //加载PDF文档
doc.LoadFromFile(file); //实例化一个StringBuilder 对象
StringBuilder content = new StringBuilder(); //提取PDF所有页面的文本
foreach (PdfPageBase page in doc.Pages)
{
content.Append(page.ExtractText());
} //将提取到的文本写为.txt格式并保存到本地路径
String fileName = "获取文本.txt";
File.WriteAllText(fileName, content.ToString());

  

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,020
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,513
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,359
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,142
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,772
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,850