Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI办公自动化:用通义千问批量翻译长篇英语TXT文档

AI办公自动化:用通义千问批量翻译长篇英语TXT文档

作者头像
AIGC部落
发布于 2024-06-24 12:02:02
发布于 2024-06-24 12:02:02
1940
举报
文章被收录于专栏:Dance with GenAIDance with GenAI

在deepseek中输入提示词:

你是一个Python编程专家,现在要完成一个编写基于qwen-turbo模型API和dashscope库的程序脚本,具体步骤如下:

打开文件夹:F:\AI自媒体内容\待翻译;

获取里面所有TXT文档;

读取TXT文档内容;

将每个TXT文档的内容作为输入,并在调用API时附加提示语“翻译成中文”,API Key为:XXX,model为qwen-turbo;

接收API返回的结果,并将其保存到在同一文件夹中,文件标题名为原txt文件标题名加上“翻译”,文档格式为txt文档;

注意:

每一步都要打印相关的信息;

根据API的限流和请求要求,合理安排任务的发送频率,避免触发API的速率限制;

要有错误处理和调试信息,这有助于找出问题所在;

请求的输入长度范围应当在[1, 6000]之间,如果超长,需要对TXT内容分拆成多份,使单个输入内容不超过6000个字符,然后再一个个发送至API,接收API返回的结果,将之前分拆的内容按顺序整合在一起。;

在读取文件时跳过那些以"翻译.txt"结尾的文件,避免递归地处理同一个文件夹下的所有文件,包括已经生成的翻译文件;

在文件的开始处添加以下导入语句:from http import HTTPStatus;

在将某个部分的结果拼接到翻译结果列表时,可能会出现预期的字符串类型与实际的类型不匹配,确保在拼接翻译结果列表时,列表中的每个元素都是字符串类型;

API 返回是JSON 对象,其中包含了文本内容,需要对 JSON 对象进行解析,以提取出 text 字段中的文本内容。

qwen-turbo模型API的使用方法,请参照下面这个例子:

from http import HTTPStatus

import dashscope

def sample_sync_call():

prompt_text = '用萝卜、土豆、茄子做饭,给我个菜谱。'

resp = dashscope.Generation.call(

model='qwen-turbo',

prompt=prompt_text

)

# The response status_code is HTTPStatus.OK indicate success,

# otherwise indicate request is failed, you can get error code

# and message from code and message.

if resp.status_code == HTTPStatus.OK:

print(resp.output) # The output text

print(resp.usage) # The usage information

else:

print(resp.code) # The error code.

print(resp.message) # The error message.

sample_sync_call()

Deepseek生成的源代码:

from http import HTTPStatus

import os

import dashscope

import json

# 设置API Key

dashscope.api_key = 'XXX'

def translate_text(text):

prompt_text = f"翻译成中文: {text}"

resp = dashscope.Generation.call(

model='qwen-turbo',

prompt=prompt_text

)

if resp.status_code == HTTPStatus.OK:

return resp.output['text']

else:

print(f"Error: {resp.code} - {resp.message}")

return None

def process_file(file_path):

with open(file_path, 'r', encoding='utf-8') as file:

content = file.read()

if len(content) > 6000:

# Split content into chunks

chunks = [content[i:i+6000] for i in range(0, len(content), 6000)]

translated_chunks = []

for chunk in chunks:

translated_chunk = translate_text(chunk)

if translated_chunk:

translated_chunks.append(translated_chunk)

else:

print(f"Failed to translate chunk from file: {file_path}")

return

translated_content = ''.join(translated_chunks)

else:

translated_content = translate_text(content)

if translated_content:

translated_file_path = file_path.rsplit('.', 1)[0] + '翻译.txt'

with open(translated_file_path, 'w', encoding='utf-8') as translated_file:

translated_file.write(translated_content)

print(f"Translated file saved: {translated_file_path}")

else:

print(f"Failed to translate file: {file_path}")

def main():

folder_path = 'F:\\AI自媒体内容\\待翻译'

for filename in os.listdir(folder_path):

if filename.endswith('.txt') and not filename.endswith('翻译.txt'):

file_path = os.path.join(folder_path, filename)

print(f"Processing file: {file_path}")

process_file(file_path)

if __name__ == "__main__":

main()

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
借助AI快速提高英语听力:如何获得适合自己的听力材料?
英语听力是英语学习中的一个重要组成部分,它对于提高语言理解和交流能力至关重要。可理解性学习(comprehensible input)是语言习得理论中的一个概念,由语言学家Stephen Krashen提出,指的是学习者在理解语言输入的同时,自然而然地习得语言。
AIGC部落
2024/06/26
2300
借助AI快速提高英语听力:如何获得适合自己的听力材料?
AI办公自动化:用通义千问Qwen-Long批量总结PDF长文档内容
Qwen-Long是在通义千问针对超长上下文处理场景的大语言模型,支持中文、英文等不同语言输入,支持最长1000万tokens(约1500万字或1.5万页文档)的超长上下文对话。配合同步上线的文档服务,可支持word、pdf、markdown、epub、mobi等多种文档格式的解析和对话。借助Qwen-Long可以批量总结长文档。
AIGC部落
2024/06/24
9850
AI办公自动化:用通义千问Qwen-Long批量总结PDF长文档内容
如何计算文档会消耗的Token数量?
在AI的世界里,"token"就像是把我们说的话或写的文字拆分成的小块块,每块可以是一个词、一个短语、一个标点,甚至一个字母。不同的AI系统可能有不同的拆分方法。
AIGC部落
2024/06/24
7730
如何计算文档会消耗的Token数量?
Python批量图片识别并翻译——我用python给女朋友翻译化妆品标签
最近小编遇到一个生存问题,女朋友让我给她翻译英文化妆品标签。美其名曰:"程序猿每天英语开发,英文一定很好吧,来帮我翻译翻译化妆品成分",”来,帮我看看这个面膜建议敷几分钟“。。。。看来斥巨资买化妆品不算完,还需要会各种英文介绍。
呆呆
2021/05/23
1.2K0
总结|哪些平台有大模型知识库的Web API服务
截止2023/12/6 笔者个人的调研,有三家有大模型知识库的web api服务:
悟乙己
2023/12/07
9080
总结|哪些平台有大模型知识库的Web API服务
借助AI快速提高英语听力:如何获得适合自己的听力材料?
英语听力是英语学习中的一个重要组成部分,它对于提高语言理解和交流能力至关重要。可理解性学习(comprehensible input)是语言习得理论中的一个概念,由语言学家Stephen Krashen提出,指的是学习者在理解语言输入的同时,自然而然地习得语言。
AIGC部落
2024/06/23
2050
借助AI快速提高英语听力:如何获得适合自己的听力材料?
DB-GPT v0.4.0 使用通义千问 API Chat Excel
DB-GPT[1] 是一个使用本地大模型(或在线 API)与数据交互的开源项目,Demo[2] 中使用 ChatGPT 3.5 的接口,效果很吸引人。
AlphaHinex
2024/04/09
1.6K0
DB-GPT v0.4.0 使用通义千问 API Chat Excel
AI办公自动化:用kimi批量把word转换成txt文本
你是一个Python编程专家,要完成一个Python脚本编写的任务,具体步骤如下:
AIGC部落
2024/06/24
1480
AI办公自动化:用kimi批量把word转换成txt文本
AI办公自动化:用kimi批量提取音频中的标题并重命名
file_path = os.path.join(folder_path, filename)
AIGC部落
2024/06/24
1830
AI办公自动化:用kimi批量提取音频中的标题并重命名
AI办公自动化:批量合并多个Excel表格的数据并汇总
读取xlsx表格文件的主文件名,设为变量{biaoge},提取主文件名中”toolify”和”排行榜”之间的内容,设为变量{date};
AIGC部落
2024/06/24
2790
AI办公自动化:批量合并多个Excel表格的数据并汇总
AI办公自动化:相似照片批量智能删除
电脑中有大量手机照片,要批量删除其中相似度高的,首先得有一个分析照片相似度的算法和模型。CLIP(Contrastive Language-Image Pre-Training)模型是由OpenAI在2021年发布的一种多模态预训练神经网络,旨在通过对比学习方法将图像和文本进行联合训练,从而实现对图像和文本之间关联性的理解和匹配。CLIP模型的核心思想是通过对比学习(Contrastive Learning)来学习大量的图像和对应的文本描述,形成一个能够理解两者之间关联的通用模型。具体来说,CLIP采用了两个独立的编码器:一个用于处理文本,另一个用于处理图像。这两个编码器分别提取文本和图像特征,并基于比对学习让模型学习到文本-图像的匹配关系。
AIGC部落
2024/07/22
1910
AI办公自动化:相似照片批量智能删除
基于MindSpore NLP的LLM应用开发 - - 五点
1.什么是RAG:RAG(Retrieval-Augmented Generation)技术的原理与实践
用户10497140
2025/01/19
1040
AI智能体(四)
以往,我们都是直接跟大模型进行交互,没有办法系统的实现记忆。langchain给出了一个系统级的解决方案,如上图中,用户提出问题,系统会先在存储器(如上图中的redis)中查询相关的文档返回系统,系统会带着用户的问题以及查询到的文档碎片一起提交给大模型,然后再将答案返回给用户。其中存储器充当了大脑记忆的部分。在上图的左下角,就是我们之前说的各种文档(pdf,word,excel等)通过向量化后存储进存储器。比起直接向大模型提问,langchain相当于多了一个外挂系统。
算法之名
2025/02/06
1130
AI智能体(四)
AI办公自动化:用kimi将子文件夹里面的文件批量重命名
打开文件夹:"D:\ChatGPT and LangChain The Complete Developers Masterclass"
AIGC部落
2024/06/24
1530
AI办公自动化:用kimi将子文件夹里面的文件批量重命名
AI自动化办公:批量将Excel表格英文内容翻译为中文
你是一个开发AI大模型应用的Python编程专家,要完成以下任务的Python脚本:
AIGC部落
2024/06/24
3370
AI自动化办公:批量将Excel表格英文内容翻译为中文
AI炒股:用硅基流动SiliconCloud批量总结研报
你现在是一个Python编程专家,要调用siliconflow平台的Qwen2.5-7B-Instruct模型来总结文档,具体步骤如下:
AIGC部落
2024/09/25
3490
AI炒股:用硅基流动SiliconCloud批量总结研报
AI办公自动化: 批量给图片加上水印
在图片右下角加上水印,水印内容:“数据来源:toolify.ai,图表制作:公众号AIGCTribe”;
AIGC部落
2024/06/24
1390
AI办公自动化: 批量给图片加上水印
分享一次批量文档翻译的开发过程
最近工作过程中,需要对一批文件进行汉译英的翻译,对单个文档手工复制、粘贴的翻译方式过于繁琐,考虑到工作的重复性和本人追求提高效率、少动手(懒),想通过调用已有的接口的方法,自己实现一个批量翻译工具,一劳永逸。在网上找了几款翻译api,通过对比翻译的结果和学习成本,选择了有道智云的服务,自己开发了一个批量翻译的小软件。详细记录一下使用和开发过程,后面的小伙伴们有相关需求,可以参考。
呆呆
2021/05/21
1K0
使用AI翻译电影字幕
本文介绍了如何使用 Python 调用 ffmpeg 和 Gemini 实现电影字幕的翻译。效果可以看“效果展示”部分。
云云众生s
2024/04/24
2390
10 个令人惊叹的 Python 自动化脚本
你是否曾发现自己忙于处理多个文本片段,而忘记了自己复制了什么?有没有想过有一个工具可以记录你一天中复制的所有内容?
数据STUDIO
2024/04/18
1870
10 个令人惊叹的 Python 自动化脚本
推荐阅读
相关推荐
借助AI快速提高英语听力:如何获得适合自己的听力材料?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档