如何从所有打开的Word文档中提取粗体文本的实例

要从所有打开的Word文档中提取粗体文本的实例，可以使用Python编程语言结合python-docx库来实现。以下是一个详细的步骤和示例代码：

基础概念

Word文档处理：Word文档通常以.docx格式存储，这种格式是基于XML的压缩包。
python-docx库：这是一个用于创建和更新Microsoft Word（.docx）文件的Python库。

优势

自动化处理：可以批量处理多个文档，节省时间。
精确提取：能够准确地识别和提取特定格式（如粗体）的文本。

类型

文档遍历：遍历指定目录下的所有.docx文件。
格式识别：识别并提取文档中的粗体文本。

应用场景

内容审核：在发布前检查文档中的重要信息是否已加粗。
数据提取：从多个文档中收集特定格式的数据进行分析。

示例代码

以下是一个示例代码，展示如何从所有打开的Word文档中提取粗体文本的实例：

import os
from docx import Document

def extract_bold_text_from_docx(file_path):
    doc = Document(file_path)
    bold_texts = []
    for paragraph in doc.paragraphs:
        for run in paragraph.runs:
            if run.bold:
                bold_texts.append(run.text)
    return bold_texts

def extract_bold_text_from_all_docs(directory):
    all_bold_texts = {}
    for filename in os.listdir(directory):
        if filename.endswith(".docx"):
            file_path = os.path.join(directory, filename)
            bold_texts = extract_bold_text_from_docx(file_path)
            if bold_texts:
                all_bold_texts[filename] = bold_texts
    return all_bold_texts

# 使用示例
directory_path = "path/to/your/docx/files"
bold_texts = extract_bold_text_from_all_docs(directory_path)
for file_name, texts in bold_texts.items():
    print(f"File: {file_name}")
    for text in texts:
        print(f"  - {text}")

解释

extract_bold_text_from_docx：这个函数打开一个.docx文件，遍历其中的段落和运行（runs），检查每个运行的粗体属性，并将粗体文本收集到一个列表中。
extract_bold_text_from_all_docs：这个函数遍历指定目录中的所有.docx文件，并调用上一个函数提取每个文件中的粗体文本，最后将结果存储在一个字典中。