Java poi 将 word 转成 html,ppt 转成图片

本贴最后更新于 2368 天前,其中的信息可能已经时过境迁

Java 容易被忽视的 poi 包

Poi 提取技术是 java 中一大亮点。前几日在做项目时需要将 ppt 转化为图片,将 word 文档输出的功能。在百度搜了些资料,整理了一下,借用前辈们的经验整合了这两个小小的类

文章原出两处:http://vtrtbb.iteye.com/blog/601267

          http://pengenjing.iteye.com/blog/1901225

来看下面的吧 word 文档转化为 html 格式的代码先:

package com.hsp.util;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.OutputStream;

import java.io.OutputStreamWriter;

import java.util.List;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.parsers.ParserConfigurationException;

import javax.xml.transform.OutputKeys;

import javax.xml.transform.Transformer;

import javax.xml.transform.TransformerException;

import javax.xml.transform.TransformerFactory;

import javax.xml.transform.dom.DOMSource;

import javax.xml.transform.stream.StreamResult;

import org.apache.commons.io.output.ByteArrayOutputStream;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.converter.PicturesManager;

import org.apache.poi.hwpf.converter.WordToHtmlConverter;

import org.apache.poi.hwpf.model.PicturesTable;

import org.apache.poi.hwpf.usermodel.CharacterRun;

import org.apache.poi.hwpf.usermodel.Paragraph;

import org.apache.poi.hwpf.usermodel.Picture;

import org.apache.poi.hwpf.usermodel.PictureType;

import org.apache.poi.hwpf.usermodel.Range;

import org.apache.poi.hwpf.usermodel.Table;

import org.apache.poi.hwpf.usermodel.TableCell;

import org.apache.poi.hwpf.usermodel.TableIterator;

import org.apache.poi.hwpf.usermodel.TableRow;

import org.w3c.dom.Document;

public class Word2Html {

/*newrealpath是指word文档的原路径,realpath是指word文档的新路径,newsid是指该word文档存储在数据库中的唯一id值,用户没上传一个word文档,后台会根据生成的唯一id值创建一个.html文件,就是newsid.html*/

public static boolean changeWord2html(String newrealpath,String realpath,int newsid) {  

    boolean b=true; 

 try {  

        convert2Html(newrealpath,realpath+"//"+newsid+".html");  

    } catch (Exception e) {  

        e.printStackTrace();

        b=false;

    }  

    return b;

}  

//该方法是将文本写入路径之中

public static void writeFile(String content, String path) {  

    FileOutputStream fos = null;  

    BufferedWriter bw = null;  

    try {  

        File file = new File(path);  

        fos = new FileOutputStream(file);  

        bw = new BufferedWriter(new OutputStreamWriter(fos,"GB2312"));  

        bw.write(content);  

    } catch (FileNotFoundException fnfe) {  

        fnfe.printStackTrace();  

    } catch (IOException ioe) {  

        ioe.printStackTrace();  

    } finally {  

        try {  

            if (bw != null)  

                bw.close();  

            if (fos != null)  

                fos.close();  

        } catch (IOException ie) {  

        }  

    }  

}  

public static void convert2Html(String fileName, String outPutFile)  

        throws TransformerException, IOException,  

        ParserConfigurationException {  

    HWPFDocument wordDocument = new HWPFDocument(new FileInputStream(fileName));//创建一个文档  

    WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(  

            DocumentBuilderFactory.newInstance().newDocumentBuilder()  

                    .newDocument());//对普通文本的操作

     wordToHtmlConverter.setPicturesManager( new PicturesManager()  

     {  

         public String savePicture( byte[] content,  

                 PictureType pictureType, String suggestedName,  

                 float widthInches, float heightInches )  

         {  

             return "test/"+suggestedName;  

         }  

     } );//对图片的操作

    wordToHtmlConverter.processDocument(wordDocument);  

    //保存图片  

    List pics=wordDocument.getPicturesTable().getAllPictures();  

    if(pics!=null){  

        for(int i=0;i下面都是转换

    TransformerFactory tf = TransformerFactory.newInstance();  

    Transformer serializer = tf.newTransformer();  

    serializer.setOutputProperty(OutputKeys.ENCODING, "GB2312");  

    serializer.setOutputProperty(OutputKeys.INDENT, "yes");  

    serializer.setOutputProperty(OutputKeys.METHOD, "html");  

    serializer.transform(domSource, streamResult);  

    out.close();  

    writeFile(new String(out.toByteArray()), outPutFile); //调用writeFile类 

}  

}

下面的我们来看看 ppt 转化为图片格式的代码:

package com.hsp.util;

import java.awt.Dimension;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.awt.Color;

import java.awt.Dimension;

import java.awt.Graphics2D;

import java.awt.geom.Rectangle2D;

import java.awt.image.BufferedImage;

import org.apache.poi.hslf.model.TextRun;

import org.apache.poi.hslf.record.Slide;

import org.apache.poi.hslf.usermodel.RichTextRun;

import org.apache.poi.hslf.usermodel.SlideShow;

public class PPTtoImage {

/pptload 是指 ppt 的原路径,newfullnewpath 是指 ppt 的新路径,newsid 是指该 ppt 存储在数据库中的唯一 id 值,用户没上传一个 ppt,后台会根据生成的唯一 id 值创建一个唯一的文件夹,该文件夹内存放该 ppt 转化的图片/

public static List changppttoimage(String pptload,String newfullnewpath,int newsid){

// 读入 PPT 文件

File file = new File(pptload);

return doPPTtoImage(file,newfullnewpath,newsid);

}

public static List doPPTtoImage(File file,String newfullnewpath,int newsid){

/*boolean isppt = checkFile(file);

if (!isppt) {

System.out.println("你指定的文件不是 ppt 文档!");

return false;

}*/

List al=new ArrayList();

try {

FileInputStream is = new FileInputStream(file);

SlideShow ppt = new SlideShow(is);

is.close();

Dimension pgsize = ppt.getPageSize();

org.apache.poi.hslf.model.Slide[] slide = ppt.getSlides();

for (int i = 0; i < slide.length; i++) {

//System.out.print("第" + i + "页。");

if(slide[i].getNotesSheet()!=null&&slide[i].getNotesSheet().getTextRuns()!=null){

 //获取第一个备注

 //System.out.println("备注:" + slide[i].getNotesSheet().getTextRuns()[0].getText());

}

TextRun[] truns = slide[i].getTextRuns();

for (int k = 0; k < truns.length; k++) {

 RichTextRun[] rtruns = truns[k].getRichTextRuns();

 for (int l = 0; l < rtruns.length; l++) {

  rtruns[l].setFontIndex(1);

  rtruns[l].setFontName("宋体");

  // 获取文本列表

  //System.out.println(rtruns[l].getText());   

 }

}

BufferedImage img = new BufferedImage(pgsize.width,

  pgsize.height, BufferedImage.TYPE_INT_RGB);

Graphics2D graphics = img.createGraphics();

graphics.setPaint(Color.white);

graphics.fill(new Rectangle2D.Float(0, 0, pgsize.width,

  pgsize.height));

slide[i].draw(graphics);

// 这里设置图片的存放路径和图片的格式(jpeg,png,bmp等等),注意生成文件路径

File f=new File(newfullnewpath);

//判断该文件夹是否存在,如果不存在,这创建一个新的文件夹

if(!f.isDirectory())

{

f.mkdirs();

}

FileOutputStream out = new FileOutputStream(newfullnewpath+"pict_"+(i + 1) + ".jpeg");

javax.imageio.ImageIO.write(img, "jpeg", out);

al.add("pict_"+(i + 1) + ".jpeg");

out.close();

}

/*System.out.println("ok");

return true;*/

} catch (FileNotFoundException e) {

System.out.println(e);

} catch (IOException e) {

e.printStackTrace();

}

return al;

}

// function 检查文件是否为 PPT

public static boolean checkFile(File file) {

boolean isppt = false;

String filename = file.getName();

String suffixname = null;

if (filename != null && filename.indexOf(".") != -1) {

suffixname = filename.substring(filename.indexOf("."));

if (suffixname.equals(".ppt")) {

isppt = true;

}

return isppt;

} else {

return isppt;

}

}

}

经测试是可行的,在小编这里是可以运行成功的,不过,上面只是简单的两个类而已,在项目中,还要用 struts2 去限定转化文件的大小等等。

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3190 引用 • 8214 回帖 • 1 关注
  • POI
    23 引用 • 21 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • scmod

    我记得是不是只支持 doc 文件来着,docx 好像要用别的,ppt 不清楚..excel 好像也是这样

推荐标签 标签

  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    12 引用 • 54 回帖 • 49 关注
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 75 关注
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 27 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖 • 1 关注
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 76 关注
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    107 引用 • 153 回帖
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    545 引用 • 672 回帖
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 612 关注
  • 反馈

    Communication channel for makers and users.

    123 引用 • 913 回帖 • 250 关注
  • 支付宝

    支付宝是全球领先的独立第三方支付平台,致力于为广大用户提供安全快速的电子支付/网上支付/安全支付/手机支付体验,及转账收款/水电煤缴费/信用卡还款/AA 收款等生活服务应用。

    29 引用 • 347 回帖 • 5 关注
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    135 引用 • 190 回帖
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 394 关注
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    23 引用 • 32 回帖 • 1 关注
  • V2Ray
    1 引用 • 15 回帖 • 1 关注
  • 小说

    小说是以刻画人物形象为中心,通过完整的故事情节和环境描写来反映社会生活的文学体裁。

    28 引用 • 108 回帖
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 653 关注
  • sts
    2 引用 • 2 回帖 • 197 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 483 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 172 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 779 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    181 引用 • 400 回帖
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    98 引用 • 344 回帖
  • abitmean

    有点意思就行了

    27 关注
  • 智能合约

    智能合约(Smart contract)是一种旨在以信息化方式传播、验证或执行合同的计算机协议。智能合约允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转。智能合约概念于 1994 年由 Nick Szabo 首次提出。

    1 引用 • 11 回帖 • 2 关注
  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    86 引用 • 122 回帖 • 626 关注