似乎有很多值得注意的人工智能工具正在接受由网络爬虫生成的数据集的培训,而不是人工编辑的、人工编译的语料库(Facebook Translate,GPT-3)。一般来说,有一种自动和通用的方式生成数据集听起来更理想。
有没有任何无处不在的网络爬虫,它做的基本相同的事情,但有一个参数的“语言寻求”?换句话说,用X语言生成一个网络爬行数据集?
(背景:我想在任何语言中创建一个语言数据集,然后对其进行训练,这是一种可以将语言中的单词进行符号化的函数。)
发布于 2021-11-18 23:15:09
要做到这一点,你需要巨大的计算能力和存储空间。除非你能获得谷歌或Facebook拥有的资源,否则这似乎不太现实。
通常一个人不需要这么多的数据来训练狐猴,因为自然语言的形态模式是有限的。我建议使用普遍依赖语料库,它包含100多种语言的注释文本。
https://datascience.stackexchange.com/questions/104273
复制相似问题