前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >用Go的resty库批量下载公开网站视频

用Go的resty库批量下载公开网站视频

原创
作者头像
华科云商小徐
发布2025-03-06 11:00:33
发布2025-03-06 11:00:33
1300
代码可运行
举报
文章被收录于专栏:小徐学爬虫小徐学爬虫
运行总次数:0
代码可运行

用户可能已经了解了一些爬虫的基础知识,现在想用Go来实现更高效或更复杂的任务。Resty是一个HTTP客户端库,适合处理请求,但下载视频需要考虑不同的因素,比如大文件处理、并发控制、可能的反爬机制等。

需要确认用户是否了解Go语言的基础,或者是否需要代码示例中的详细注释。另外,用户提到的“公开网站视频”需要强调合法性,必须遵守网站的使用条款和robots.txt,避免法律问题。

以下是一个使用Go语言配合resty库进行批量视频下载的示例代码,包含并发控制、错误处理和进度显示:

代码语言:javascript
代码运行次数:0
复制
package main
​
import (
    "fmt"
    "io"
    "os"
    "path/filepath"
    "sync"
    "time"
​
    "github.com/go-resty/resty/v2"
)
​
const (
    concurrency    = 3                // 并发下载数量
    downloadDir    = "./videos"       // 下载目录
    userAgent      = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    requestTimeout = 30 * time.Second // 请求超时时间
)
​
// 视频下载任务结构
type DownloadTask struct {
    URL      string
    FileName string
}
​
func main() {
    // 创建下载目录
    if err := os.MkdirAll(downloadDir, 0755); err != nil {
        panic(err)
    }
​
    // 示例视频URL列表(替换为实际需要下载的URL)
    videoUrls := []string{
        "https://example.com/video1.mp4",
        "https://example.com/video2.mp4",
        "https://example.com/video3.mp4",
    }
​
    // 创建任务队列
    tasks := make(chan DownloadTask, len(videoUrls))
    
    // 添加下载任务
    go func() {
        defer close(tasks)
        for _, url := range videoUrls {
            tasks <- DownloadTask{
                URL:      url,
                FileName: filepath.Base(url),
            }
        }
    }()
​
    var wg sync.WaitGroup
    wg.Add(concurrency)
​
    // 启动工作池
    for i := 0; i < concurrency; i++ {
        go func(workerID int) {
            defer wg.Done()
            client := resty.New().
                SetTimeout(requestTimeout).
                SetHeader("User-Agent", userAgent).
                SetRetryCount(2).
                SetRetryWaitTime(5 * time.Second)
​
            for task := range tasks {
                downloadVideo(client, task, workerID)
            }
        }(i + 1)
    }
​
    wg.Wait()
    fmt.Println("\n所有下载任务完成!")
}
​
// 下载视频文件
func downloadVideo(client *resty.Client, task DownloadTask, workerID int) {
    filePath := filepath.Join(downloadDir, task.FileName)
    
    // 创建文件
    file, err := os.Create(filePath)
    if err != nil {
        fmt.Printf("[Worker %d] 创建文件失败: %s\n", workerID, err)
        return
    }
    defer file.Close()
​
    // 发起请求
    resp, err := client.R().
        SetDoNotParseResponse(true).
        Get(task.URL)
​
    if err != nil {
        fmt.Printf("[Worker %d] 请求失败: %s\n", workerID, err)
        return
    }
    defer resp.RawBody().Close()
​
    // 获取文件大小(可能不可用)
    contentLength := resp.Size()
    
    // 创建进度写入器
    counter := &WriteCounter{
        Total:     contentLength,
        WorkerID:  workerID,
        FileName:  task.FileName,
        StartTime: time.Now(),
    }
​
    // 写入文件并显示进度
    _, err = io.Copy(file, io.TeeReader(resp.RawBody(), counter))
    if err != nil {
        fmt.Printf("\n[Worker %d] 下载失败: %s\n", workerID, err)
        os.Remove(filePath) // 删除不完整文件
        return
    }
​
    fmt.Printf("\n[Worker %d] 下载完成: %s\n", workerID, task.FileName)
}
​
// 进度统计结构
type WriteCounter struct {
    Total     int64
    Downloaded int64
    WorkerID  int
    FileName  string
    StartTime time.Time
}
​
// 实现Write接口
func (wc *WriteCounter) Write(p []byte) (int, error) {
    n := len(p)
    wc.Downloaded += int64(n)
    wc.printProgress()
    return n, nil
}
​
// 显示下载进度
func (wc *WriteCounter) printProgress() {
    duration := time.Since(wc.StartTime).Seconds()
    speed := float64(wc.Downloaded) / 1024 / 1024 / duration
​
    progress := ""
    if wc.Total > 0 {
        percent := float64(wc.Downloaded) / float64(wc.Total) * 100
        progress = fmt.Sprintf("%.2f%% [%.2f MB/s]", percent, speed)
    } else {
        progress = fmt.Sprintf("%.2f MB [%.2f MB/s]", 
            float64(wc.Downloaded)/1024/1024, speed)
    }
​
    fmt.Printf("\r[Worker %d] %s => %s", 
        wc.WorkerID, wc.FileName, progress)
}

代码说明:

1、核心功能:

  • 并发控制:通过工作池模式控制并发数量
  • 断点续传:通过os.Create直接写入文件(需自行实现断点逻辑)
  • 进度显示:实时显示下载速度和进度
  • 错误重试:内置2次重试机制
  • 超时控制:30秒请求超时

2、使用方法:

代码语言:javascript
代码运行次数:0
复制
# 安装依赖
go get github.com/go-resty/resty/v2
​
# 运行程序
go run main.go

重要参数调整:

代码语言:javascript
代码运行次数:0
复制
const (
    concurrency    = 5      // 根据网络情况调整并发数
    requestTimeout = 60 * time.Second  // 大文件需要更长时间
)
  1. 注意事项:
    • 遵守目标网站的robots.txt规则
    • 尊重版权和内容使用协议
    • 避免高频请求(可添加time.Sleep
    • 大文件下载建议增加:
      • 断点续传功能
      • MD5校验
      • 代理支持

扩展建议:

添加代理支持:

代码语言:javascript
代码运行次数:0
复制
client.SetProxy("http://proxy-server:port")

增加请求头伪装:

代码语言:javascript
代码运行次数:0
复制
client.SetHeaders(map[string]string{
    "Referer":    "https://example.com",
    "Accept":     "video/webm,video/ogg,video/*;q=0.9",
})

实现断点续传:

代码语言:javascript
代码运行次数:0
复制
// 检查已下载大小
if info, err := os.Stat(filePath); err == nil {
    client.SetHeader("Range", fmt.Sprintf("bytes=%d-", info.Size()))
}

增加文件校验:

代码语言:javascript
代码运行次数:0
复制
// 下载完成后验证
if resp.Size() > 0 && fileInfo.Size() != resp.Size() {
    fmt.Println("文件大小不匹配")
}

请确保遵守目标网站的服务条款,合法合规使用此代码。实际使用时需要根据具体网站的页面结构解析出真实的视频下载地址。

总结下来,用户需要的是一个用Go语言,使用resty库,能够批量下载公开视频的程序。需要包括:并发下载、错误处理、速率限制、Headers设置、文件保存等功能。同时需要提醒法律和道德规范,确保用户遵守目标网站的规定。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档