前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >微软开源神器 MarkItDown:一键将办公文档转换为 Markdown 的 Python 工具

微软开源神器 MarkItDown:一键将办公文档转换为 Markdown 的 Python 工具

作者头像
井九
发布2024-12-21 20:08:18
发布2024-12-21 20:08:18
17700
代码可运行
举报
文章被收录于专栏:四楼没电梯四楼没电梯
运行总次数:0
代码可运行
项目简介

MarkItDown 是一个用于将各种文件转换为 Markdown 的工具,例如用于索引、文本分析等。该工具目前支持以下格式:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • 图片(EXIF 元数据和 OCR)
  • 音频(EXIF 元数据和语音转录)
  • HTML(特殊处理 Wikipedia 等)
  • 各种基于文本的格式(csv, json, xml 等)
安装

您可以使用 pip 安装 MarkItDown:

代码语言:javascript
代码运行次数:0
复制
pip install markitdown

或者从源代码安装:

代码语言:javascript
代码运行次数:0
复制
pip install -e .
使用

API 非常简单:

代码语言:javascript
代码运行次数:0
复制
from markitdown import MarkItDown

markitdown = MarkItDown()
result = markitdown.convert("test.xlsx")
print(result.text_content)

您还可以配置 MarkItDown 使用大型语言模型 (LLM) 来描述图片。为此,您需要向 MarkItDown 对象提供 mlm_clientmlm_model 参数:

代码语言:javascript
代码运行次数:0
复制
from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-12-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 项目简介
  • 安装
  • 使用
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档