MarkItDown 是一个用于将各种文件转换为 Markdown 的工具,例如用于索引、文本分析等。该工具目前支持以下格式:
您可以使用 pip 安装 MarkItDown:
pip install markitdown
或者从源代码安装:
pip install -e .
API 非常简单:
from markitdown import MarkItDown
markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)
您还可以配置 MarkItDown 使用大型语言模型 (LLM) 来描述图片。为此,您需要向 MarkItDown 对象提供 mlm_client
和 mlm_model
参数:
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)