首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >是否有一个无处不在的网络爬虫可以生成一个良好的特定于语言的数据集来训练一个转换器?

是否有一个无处不在的网络爬虫可以生成一个良好的特定于语言的数据集来训练一个转换器?
EN

Data Science用户
提问于 2021-11-18 19:04:01
回答 1查看 38关注 0票数 0

似乎有很多值得注意的人工智能工具正在接受由网络爬虫生成的数据集的培训,而不是人工编辑的、人工编译的语料库(Facebook Translate,GPT-3)。一般来说,有一种自动和通用的方式生成数据集听起来更理想。

有没有任何无处不在的网络爬虫,它做的基本相同的事情,但有一个参数的“语言寻求”?换句话说,用X语言生成一个网络爬行数据集?

(背景:我想在任何语言中创建一个语言数据集,然后对其进行训练,这是一种可以将语言中的单词进行符号化的函数。)

EN

回答 1

Data Science用户

发布于 2021-11-18 23:15:09

要做到这一点,你需要巨大的计算能力和存储空间。除非你能获得谷歌或Facebook拥有的资源,否则这似乎不太现实。

通常一个人不需要这么多的数据来训练狐猴,因为自然语言的形态模式是有限的。我建议使用普遍依赖语料库,它包含100多种语言的注释文本。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/104273

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档