Crawl4AI MCP服务器

这是一个基于MCP（模型上下文协议）的智能信息获取服务器，为AI助手系统提供强大的搜索能力和面向大语言模型（LLM）优化的网页内容理解功能。通过多引擎搜索和智能内容提取，帮助AI系统高效获取和理解互联网信息，将网页内容转换为最适合LLM处理的格式。

特性

🔍 强大的多引擎搜索能力，支持DuckDuckGo和Google
📚 面向LLM优化的网页内容提取，智能过滤非核心内容
🎯 专注信息价值，自动识别和保留关键内容
📝 多种输出格式，支持引用溯源
🚀 基于FastMCP的高性能异步设计

安装

方式1：大部分安装场景

确保您的系统满足以下要求：
- Python >= 3.9
- 建议使用专门的虚拟环境
克隆仓库：

git clone https://github.com/yourusername/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server

创建并激活虚拟环境：

python -m venv crawl4ai_env
source crawl4ai_env/bin/activate  # Linux/Mac
# 或
.\crawl4ai_env\Scripts\activate  # Windows

安装依赖：

pip install -r requirements.txt

安装Playwright浏览器：

playwright install

方式2：通过Smithery安装到Claude桌面客户端

通过Smithery将Crawl4AI MCP的Claude桌面端服务自动配置至您本地的Claude伸展中心：

npx -y @smithery/cli install @weidwonder/crawl4ai-mcp-server --client claude

使用方法

服务器提供以下工具：

search

强大的网络搜索工具，支持多个搜索引擎：

DuckDuckGo搜索（默认）：无需API密钥，全面处理AbstractText、Results和RelatedTopics
Google搜索：需要配置API密钥，提供精准搜索结果
支持同时使用多个引擎获取更全面的结果

参数说明：

query：搜索查询字符串
num_results：返回结果数量（默认10）
engine：搜索引擎选择
- "duckduckgo"：DuckDuckGo搜索（默认）
- "google"：Google搜索（需要API密钥）
- "all"：同时使用所有可用的搜索引擎

示例：

# DuckDuckGo搜索（默认）
{
    "query": "python programming",
    "num_results": 5
}

# 使用所有可用引擎
{
    "query": "python programming",
    "num_results": 5,
    "engine": "all"
}

read_url

面向LLM优化的网页内容理解工具，提供智能内容提取和格式转换：

markdown_with_citations：包含内联引用的Markdown（默认），保持信息溯源
fit_markdown：经过LLM优化的精简内容，去除冗余信息
raw_markdown：基础HTML→Markdown转换
references_markdown：单独的引用/参考文献部分
fit_html：生成fit_markdown的过滤后HTML
markdown：默认Markdown格式

示例：

{
    "url": "https://example.com",
    "format": "markdown_with_citations"
}

如需使用Google搜索，需要在config.json中配置API密钥：

{
    "google": {
        "api_key": "your-api-key",
        "cse_id": "your-cse-id"
    }
}

LLM内容优化

服务器采用了一系列针对LLM的内容优化策略：

智能内容识别：自动识别并保留文章主体、关键信息段落
噪音过滤：自动过滤导航栏、广告、页脚等对理解无帮助的内容
信息完整性：保留URL引用，支持信息溯源
长度优化：使用最小词数阈值（10）过滤无效片段
格式优化：默认输出markdown_with_citations格式，便于LLM理解和引用

开发说明

项目结构：

crawl4ai_mcp_server/
├── src/
│   ├── index.py      # 服务器主实现
│   └── search.py     # 搜索功能实现
├── config_demo.json  # 配置文件示例
├── pyproject.toml    # 项目配置
├── requirements.txt  # 依赖列表
└── README.md        # 项目文档

配置说明

复制配置示例文件：

cp config_demo.json config.json

如需使用Google搜索，在config.json中配置API密钥：

{
    "google": {
        "api_key": "your-google-api-key",
        "cse_id": "your-google-cse-id"
    }
}

更新日志

2025.02.08：添加搜索功能，支持DuckDuckGo（默认）和Google搜索
2025.02.07：重构项目结构，使用FastMCP实现，优化依赖管理
2025.02.07：优化内容过滤配置，提高token效率并保持URL完整性

许可证

MIT许可证

贡献

欢迎提交Issue和Pull Request！

作者

所有者：weidwonder
开发者：Claude Sonnet 3.5
- 100%代码由Claude编写。成本：$9（$2用于代码编写，$7用于调试😭）
- 耗时3小时。0.5小时用于代码编写，0.5小时用于环境准备，2小时用于调试。😭

致谢

感谢所有为项目做出贡献的开发者！

特别感谢：

Crawl4ai项目提供的优秀网页内容提取技术支持