Java poi 将 word 转成 html,ppt 转成图片

本贴最后更新于 2321 天前,其中的信息可能已经时过境迁

Java 容易被忽视的 poi 包

Poi 提取技术是 java 中一大亮点。前几日在做项目时需要将 ppt 转化为图片,将 word 文档输出的功能。在百度搜了些资料,整理了一下,借用前辈们的经验整合了这两个小小的类

文章原出两处:http://vtrtbb.iteye.com/blog/601267

          http://pengenjing.iteye.com/blog/1901225

来看下面的吧 word 文档转化为 html 格式的代码先:

package com.hsp.util;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.OutputStream;

import java.io.OutputStreamWriter;

import java.util.List;

import javax.xml.parsers.DocumentBuilderFactory;

import javax.xml.parsers.ParserConfigurationException;

import javax.xml.transform.OutputKeys;

import javax.xml.transform.Transformer;

import javax.xml.transform.TransformerException;

import javax.xml.transform.TransformerFactory;

import javax.xml.transform.dom.DOMSource;

import javax.xml.transform.stream.StreamResult;

import org.apache.commons.io.output.ByteArrayOutputStream;

import org.apache.poi.hwpf.HWPFDocument;

import org.apache.poi.hwpf.converter.PicturesManager;

import org.apache.poi.hwpf.converter.WordToHtmlConverter;

import org.apache.poi.hwpf.model.PicturesTable;

import org.apache.poi.hwpf.usermodel.CharacterRun;

import org.apache.poi.hwpf.usermodel.Paragraph;

import org.apache.poi.hwpf.usermodel.Picture;

import org.apache.poi.hwpf.usermodel.PictureType;

import org.apache.poi.hwpf.usermodel.Range;

import org.apache.poi.hwpf.usermodel.Table;

import org.apache.poi.hwpf.usermodel.TableCell;

import org.apache.poi.hwpf.usermodel.TableIterator;

import org.apache.poi.hwpf.usermodel.TableRow;

import org.w3c.dom.Document;

public class Word2Html {

/*newrealpath是指word文档的原路径,realpath是指word文档的新路径,newsid是指该word文档存储在数据库中的唯一id值,用户没上传一个word文档,后台会根据生成的唯一id值创建一个.html文件,就是newsid.html*/

public static boolean changeWord2html(String newrealpath,String realpath,int newsid) {  

    boolean b=true; 

 try {  

        convert2Html(newrealpath,realpath+"//"+newsid+".html");  

    } catch (Exception e) {  

        e.printStackTrace();

        b=false;

    }  

    return b;

}  

//该方法是将文本写入路径之中

public static void writeFile(String content, String path) {  

    FileOutputStream fos = null;  

    BufferedWriter bw = null;  

    try {  

        File file = new File(path);  

        fos = new FileOutputStream(file);  

        bw = new BufferedWriter(new OutputStreamWriter(fos,"GB2312"));  

        bw.write(content);  

    } catch (FileNotFoundException fnfe) {  

        fnfe.printStackTrace();  

    } catch (IOException ioe) {  

        ioe.printStackTrace();  

    } finally {  

        try {  

            if (bw != null)  

                bw.close();  

            if (fos != null)  

                fos.close();  

        } catch (IOException ie) {  

        }  

    }  

}  

public static void convert2Html(String fileName, String outPutFile)  

        throws TransformerException, IOException,  

        ParserConfigurationException {  

    HWPFDocument wordDocument = new HWPFDocument(new FileInputStream(fileName));//创建一个文档  

    WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(  

            DocumentBuilderFactory.newInstance().newDocumentBuilder()  

                    .newDocument());//对普通文本的操作

     wordToHtmlConverter.setPicturesManager( new PicturesManager()  

     {  

         public String savePicture( byte[] content,  

                 PictureType pictureType, String suggestedName,  

                 float widthInches, float heightInches )  

         {  

             return "test/"+suggestedName;  

         }  

     } );//对图片的操作

    wordToHtmlConverter.processDocument(wordDocument);  

    //保存图片  

    List pics=wordDocument.getPicturesTable().getAllPictures();  

    if(pics!=null){  

        for(int i=0;i下面都是转换

    TransformerFactory tf = TransformerFactory.newInstance();  

    Transformer serializer = tf.newTransformer();  

    serializer.setOutputProperty(OutputKeys.ENCODING, "GB2312");  

    serializer.setOutputProperty(OutputKeys.INDENT, "yes");  

    serializer.setOutputProperty(OutputKeys.METHOD, "html");  

    serializer.transform(domSource, streamResult);  

    out.close();  

    writeFile(new String(out.toByteArray()), outPutFile); //调用writeFile类 

}  

}

下面的我们来看看 ppt 转化为图片格式的代码:

package com.hsp.util;

import java.awt.Dimension;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.FileOutputStream;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.awt.Color;

import java.awt.Dimension;

import java.awt.Graphics2D;

import java.awt.geom.Rectangle2D;

import java.awt.image.BufferedImage;

import org.apache.poi.hslf.model.TextRun;

import org.apache.poi.hslf.record.Slide;

import org.apache.poi.hslf.usermodel.RichTextRun;

import org.apache.poi.hslf.usermodel.SlideShow;

public class PPTtoImage {

/pptload 是指 ppt 的原路径,newfullnewpath 是指 ppt 的新路径,newsid 是指该 ppt 存储在数据库中的唯一 id 值,用户没上传一个 ppt,后台会根据生成的唯一 id 值创建一个唯一的文件夹,该文件夹内存放该 ppt 转化的图片/

public static List changppttoimage(String pptload,String newfullnewpath,int newsid){

// 读入 PPT 文件

File file = new File(pptload);

return doPPTtoImage(file,newfullnewpath,newsid);

}

public static List doPPTtoImage(File file,String newfullnewpath,int newsid){

/*boolean isppt = checkFile(file);

if (!isppt) {

System.out.println("你指定的文件不是 ppt 文档!");

return false;

}*/

List al=new ArrayList();

try {

FileInputStream is = new FileInputStream(file);

SlideShow ppt = new SlideShow(is);

is.close();

Dimension pgsize = ppt.getPageSize();

org.apache.poi.hslf.model.Slide[] slide = ppt.getSlides();

for (int i = 0; i < slide.length; i++) {

//System.out.print("第" + i + "页。");

if(slide[i].getNotesSheet()!=null&&slide[i].getNotesSheet().getTextRuns()!=null){

 //获取第一个备注

 //System.out.println("备注:" + slide[i].getNotesSheet().getTextRuns()[0].getText());

}

TextRun[] truns = slide[i].getTextRuns();

for (int k = 0; k < truns.length; k++) {

 RichTextRun[] rtruns = truns[k].getRichTextRuns();

 for (int l = 0; l < rtruns.length; l++) {

  rtruns[l].setFontIndex(1);

  rtruns[l].setFontName("宋体");

  // 获取文本列表

  //System.out.println(rtruns[l].getText());   

 }

}

BufferedImage img = new BufferedImage(pgsize.width,

  pgsize.height, BufferedImage.TYPE_INT_RGB);

Graphics2D graphics = img.createGraphics();

graphics.setPaint(Color.white);

graphics.fill(new Rectangle2D.Float(0, 0, pgsize.width,

  pgsize.height));

slide[i].draw(graphics);

// 这里设置图片的存放路径和图片的格式(jpeg,png,bmp等等),注意生成文件路径

File f=new File(newfullnewpath);

//判断该文件夹是否存在,如果不存在,这创建一个新的文件夹

if(!f.isDirectory())

{

f.mkdirs();

}

FileOutputStream out = new FileOutputStream(newfullnewpath+"pict_"+(i + 1) + ".jpeg");

javax.imageio.ImageIO.write(img, "jpeg", out);

al.add("pict_"+(i + 1) + ".jpeg");

out.close();

}

/*System.out.println("ok");

return true;*/

} catch (FileNotFoundException e) {

System.out.println(e);

} catch (IOException e) {

e.printStackTrace();

}

return al;

}

// function 检查文件是否为 PPT

public static boolean checkFile(File file) {

boolean isppt = false;

String filename = file.getName();

String suffixname = null;

if (filename != null && filename.indexOf(".") != -1) {

suffixname = filename.substring(filename.indexOf("."));

if (suffixname.equals(".ppt")) {

isppt = true;

}

return isppt;

} else {

return isppt;

}

}

}

经测试是可行的,在小编这里是可以运行成功的,不过,上面只是简单的两个类而已,在项目中,还要用 struts2 去限定转化文件的大小等等。

  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3186 引用 • 8212 回帖 • 1 关注
  • POI
    23 引用 • 21 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • scmod

    我记得是不是只支持 doc 文件来着,docx 好像要用别的,ppt 不清楚..excel 好像也是这样

推荐标签 标签

  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 4 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 383 关注
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    209 引用 • 358 回帖
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    8 引用 • 26 回帖
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    53 引用 • 37 回帖
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    338 引用 • 705 回帖
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 53 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    70 引用 • 533 回帖 • 778 关注
  • Ant-Design

    Ant Design 是服务于企业级产品的设计体系,基于确定和自然的设计价值观上的模块化解决方案,让设计者和开发者专注于更好的用户体验。

    17 引用 • 23 回帖
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    565 引用 • 3532 回帖
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 741 关注
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    6 引用 • 15 回帖 • 127 关注
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 733 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 2 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 659 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    8 引用 • 30 回帖 • 407 关注
  • 996
    13 引用 • 200 回帖 • 2 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 123 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 3 关注
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖 • 1 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 623 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 127 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    124 引用 • 169 回帖
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 4 关注