我在一个遗留的公司环境中工作,在NLP项目中我只有16个核心64 to的VM可用。我有一个多标签自然语言处理文本分类问题,我真的想利用一个深度表示学习模型,如BERT,RoBERTa,ALBERT等。
我有大约200,000个需要标记的文档,我有大约2,000个注释集,用作训练/测试/微调的基础事实。我还有更多与领域相关的文档可用于预培训。我很可能需要从头开始进行预训练,因为这是在临床领域。我也对预先训练过的模型持开放态度,如果他们可能有机会进行微调,比如拥抱脸部等。
人们会建议以哪些兼容PyTorch或Keras的模型及其实现作为起点?或者,这对我现有的计算资源来说不是一个计算型的初学者?
发布于 2020-05-15 05:05:46
如果您想使用当前的设置,那么运行一个transformer模型将不会有任何问题。您可以通过减小批处理大小来减少内存使用,但代价是运行速度较慢。
或者,在谷歌Colab上测试你的算法,它是免费的。然后开通GCP账户,谷歌将提供300美元的免费积分。使用它创建一个GPU云实例,然后在那里运行您的算法。
您可能希望使用HuggingFace Transformers中的Albert或Distilbert。Albert和Distilbert都对计算和内存进行了优化。HuggingFace有很多优秀的例子。
经验法则你要避免从头开始训练语言模型。如果可能的话,微调语言模型,或者更好的是跳过它,直接去训练分类器。此外,HuggingFace和其他公司拥有MedicalBert、ScienceBert和其他专门的预训练模型。
https://stackoverflow.com/questions/61806293
复制相似问题