公司在文学和阅读领域的版权储备业内领先,这些中文语料可以用于网文行业垂类模型训练。
中文在线
公司深耕文化数字产业,拥有海量的正版中文数据资源,数据总量超过60TB,旗下各个平台每天还会产生数以亿计的文字内容。
读客文化
公司从国内原创小说起步,打通了版权获取渠道和积累了优质的作者团队,已与包括全球四大版在内的数十家版权代理公司保持着长期稳定的合作关系。
荣信文化
公司成功打造了一系列适合0-14岁中国少年儿童阅读的图书,覆盖了少儿科普百科、卡通/漫画/绘本、少儿文学等多个少儿图书领域。
视频语料:
中广天择
近期公司已经与万兴天幕大模型签订战略合作协议,并达成视频语料方向的战略合作。
捷成股份 公司是国内影视剧版权运营龙头,目前拥有新媒体电影版权4803部。
图形语料:
视觉中国
集团拥有近万名签约摄影师和艺术并同海内外数百家图片社、影视机构、版权机构广泛合作。
金融语料:
同花顺
自研的问财HithinkGPT大模型,预训练金融语料达到万亿级涵盖金融行业多方面数据,具有全面的实时金融数据、强大的语义理解。
消费语料:
汇纳科技
公司自成立之初即致力于线下消费行为数据分析,旨在“成为中国最大的线下消费数据提供商”。
值得买
基于通用模型,利用自身有特色的数据资源和语料库,自研了值得买消费大模型。
医学语料:
贝瑞基因
公司年产出的基因数据量已超过PB级已建立几十种科研服务细分产品类型并基于特有的数据库资源及云计算平台。
卓创资讯
是专注于大宗商品市场数据监测、交易价格评估、行业数据分析及行业研究的专业服务提供商。
领取专属 10元无门槛券
私享最新 技术干货