Loading...

引言

这个脚本仅适用于纯文本文件,并且不包含复杂格式。
今天同事发了个docx文件,看看文件大小3.42MB,低估了这个文件了,双击打开,往下拉了拉,这个文章不见底呀
image.png
2000页,2500页,3000页....,5995页,最后8201页
image.png

这是啥东西啊,他告诉我是一个SQL,我说直接发文本,就可以直接解析了,docx不是多此一举嘛,哎,没办法。

依赖

pip install python-docx

脚本内容

from docx import Document ''' 这特么是来捣乱的吧, 发这么大的docx文件''' doc = Document(r'F:\MsgData\WeCom\WXWork\******\Cache\File\2024-06\新建 DOCX 文档.docx') txt = "" process = 0 for para in doc.paragraphs: process += 1 print('\r', '当前:', process, '\t', '共:', len(doc.paragraphs), '\t\t', '百分比:', round((process / len(doc.paragraphs) * 100), 2), end='', sep='') txt += para.text.strip() + "\n" with open('./docx2txt.txt', 'w', encoding='utf-8') as f: f.write(txt)

image.png

如果觉得我的文章对你有用,请随意赞赏