添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

工作上遇到如何读取Word文档中的表格内容,表格是有业务数据意义的,而且有一定规则的,因此不能直接读取表格文本,而是遍历表格单元格进行一行一列读取。

表格规则:

(1)表格可以有表头,表头也有业务意思

(2)一行为一个业务数据,可能会跨行

(3)列可能会有跨列、跨行

(4)单元格中图片、数学公式、嵌套表格、文件等

比如,以下表格

具体代码: https://github.com/suncht/wordtable-read

目前功能如下:

  1. 目前只支持读取2007以上Word文档表格单元格的文本,支持读取图片、数学公式。
  2. 支持一般性的有规则的复杂表格。
  3. 暂不支持2007以下的Doc类型文档,因为POI中暂未找到关于表格单元格定位的API。
  4. 为了兼容2007以下的Doc类型文档,利用jodconverter3.0 + LibreOffice 5.3,“先将Doc类型文档转换为Docx类型文档,再进行读取表格内容”。 注意:LibreOffice直接支持Docx类型文档,而OpenOffice不能直接支持Docx类型文档,需要AccessODF插件
Java 读取 Word文档 中指定位置(可以自己自定义位置)的 表格 数据或文本 内容 * @param filePath 文档路径 * @param start 指定位置开始 读取 表格 数据的该位置上的字符串 * @param end 指定位置开始结束 读取 表格 数据的该位置上的字符串 Android实战开发篇 读取 Word文档 的 doc 与 docx 格式文本 内容 二、文档 读取 工具 - 转换格式 html import android.graphics.Bitmap; import android.graphics.BitmapFactory; import android.text.TextUtils; import android.util.Log; import android.util.Xml; import org.apache.poi.hssf.userm 使用poi 读取 word 2007(.docx)中的 复杂 表格 最近工作需要做一个 读取 word (.docx)中的 表格 ,并以html形式输出。经过上网查询,使用了poi。 对于2007及之后的 word文档 ,需要导入poi-ooxml-xxx.jar及其依赖包,如下图(图中为使用maven): 对于简单 表格 ,可以使用如下方式来获取每个 表格 内容 : XWPFDocument documen... 我已经使用JodConverter和Open-Office创建了一个应用程序,用于将excel(.xlsx)转换为PDF,该应用程序正常工作,但我面临两个问题>输出PDF的页面是A4尺寸的形式,因为某些工作表 内容 已经被切掉了.因为我希望excel的每个工作表都像一个页面一样完整.>没有工作表丢失,说如果我的excel有8个工作表我只在PDF输出中只有两三个即使我们试图从开放办公室直接转... if (path.endsWith(".doc")) { InputStream is = new FileInputStream(new File(path)); Word Extractor extractor 前些日子有一个项目需要从 word 文件中取 表格 数据并进行处理,网上大部分方案都是基于office的com组件实现,但是这样有一个缺点,如果电脑里没有安装office将无法使用,因为之前操作excel都是使用的NPOI,所以理所当然的想用NPOI解决此问题。 于是找到了如下代码 但是这样做又有一个缺点 ,NPOI仅支持.docx格式的文件,如果 读取 .doc会直接报错! 于是后续又找到了另一开源组件freeSpire。有如下代码 但是不知道什么原 4、修改CApplication.h、CDocument0.h、CDocuments.h和CRange.h中的最上边部分: #import "C:\\Program Files (x86)\\Microsoft Office\\Office12\\MS WORD .OL... c++ 读取 word 文件1.在vs中新建一控制台程序,选支持MFC 2.右击项目->选择类向导->选择添加类型库中的MFC类3.选择从文件中添加->选择你的 word 的类型库(就是添加MSWOR.OLB,列如我的office装在D盘,一般可以在D:\Office\Office15中找到”),选择完毕后,添加在本例中要用到_Application,Documents,_Document,Range这四个类 问题:将 word 1中的 表格 复制到 word 2中, 表格 出现变形。 解决办法:1.先选中 word 1中的 表格 ,然后选择复制; 2.在 word 2中粘贴刚才复制的 表格 ; 3.选中 word 1中的 表格 ,在选中格式刷; 4.再 word 2中将 表格 用格式刷刷一下就好了。 word 模板:https://download.csdn.net/download/weixin_41420919/85708792 问题: 需要 读取 任免编辑器生成的 word 里面的 内容 ,其中生成的 word 是一个 表格 ,需要根据 表格 的行列数获取相应的 内容 。难点:在于 表格 里有图片,以及单元格的合并。解决方案: 测试程序 (打印 word 所有的 表格 以及 表格 字段) 这里对所有 表格 的字段进行打印,实测时,我发现我的 word文档 一个 表格 被解析成三个 表格 。从第二个 表格 起才是我所需要的数据以及因为有些单元格合并,获取的字