引言
这个脚本仅适用于纯文本文件,并且不包含复杂格式。
今天同事发了个docx文件,看看文件大小3.42MB,低估了这个文件了,双击打开,往下拉了拉,这个文章不见底呀
2000页,2500页,3000页....,5995页,最后8201页
这是啥东西啊,他告诉我是一个SQL,我说直接发文本,就可以直接解析了,docx不是多此一举嘛,哎,没办法。
依赖
pip install python-docx
脚本内容
from docx import Document
''' 这特么是来捣乱的吧, 发这么大的docx文件'''
doc = Document(r'F:\MsgData\WeCom\WXWork\******\Cache\File\2024-06\新建 DOCX 文档.docx')
txt = ""
process = 0
for para in doc.paragraphs:
process += 1
print('\r', '当前:', process, '\t', '共:', len(doc.paragraphs), '\t\t', '百分比:',
round((process / len(doc.paragraphs) * 100), 2), end='', sep='')
txt += para.text.strip() + "\n"
with open('./docx2txt.txt', 'w', encoding='utf-8') as f:
f.write(txt)