博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python doc格式转文本格式
阅读量:5313 次
发布时间:2019-06-14

本文共 852 字,大约阅读时间需要 2 分钟。

首先python是不能直接读写doc格式的文件的,这是python先天的缺陷。但是可以利用python-docx (0.8.6)库可以读取.docx文件或.txt文件,且一路畅通无阻。

这样的话,可以先将doc格式转化为docx格式,但是不能直接修改文件名的后缀(这样文件会被损坏,即使没被损坏可能也是乱码),那到底要怎么去转化呢?

 

直接上代码:

from win32com import client as wc

word = wc.Dispatch("Word.Application")

doc = word.Documents.Open(路径+名称.doc)

doc.SaveAs(路径+名称.docx, 12)   12为docx

doc.Close()

 word.Quit()

 

然后读取docx格式

读取段落:

 import docx

        docStr = Document(docName)   打开文档

        for paragraph in docStr.paragraphs:

                parStr = paragraph.text

 

读取表格:

numTables = docStr.tables

        for table in numTables:

                #行列个数

                row_count = len(table.rows)

                col_count = len(table.columns)

                for i in range(row_count):

                        row = table.rows[i].cells

                        i行j列内容:row[j].text

           或者:

                    row_count = len(table.rows)

                    col_count = len(table.columns)
                    for i in range(row_count):
                            for j in range(col_count):
                                    print(table.cell(i,j).text)

转载于:https://www.cnblogs.com/holden1/p/9876407.html

你可能感兴趣的文章
查看oracle数据库的连接数以及用户
查看>>
【数据结构】栈结构操作示例
查看>>
三.野指针和free
查看>>
activemq5.14+zookeeper3.4.9实现高可用
查看>>
TCP/IP详解学习笔记(3)IP协议ARP协议和RARP协议
查看>>
简单【用户输入验证】
查看>>
python tkinter GUI绘制,以及点击更新显示图片
查看>>
20130330java基础学习笔记-语句_for循环嵌套练习2
查看>>
Spring面试题
查看>>
C语言栈的实现
查看>>
代码为什么需要重构
查看>>
TC SRM 593 DIV1 250
查看>>
SRM 628 DIV2
查看>>
2018-2019-2 20165314『网络对抗技术』Exp5:MSF基础应用
查看>>
Python-S9-Day127-Scrapy爬虫框架2
查看>>
SecureCRT的使用方法和技巧(详细使用教程)
查看>>
右侧导航栏(动态添加数据到list)
查看>>
81、iOS本地推送与远程推送详解
查看>>
虚拟DOM
查看>>
自建数据源(RSO2)、及数据源增强
查看>>