前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Prodigy,从根本上有效的自主学习驱动的注释工具

Prodigy,从根本上有效的自主学习驱动的注释工具

作者头像
AiTechYun
发布于 2018-03-06 02:41:24
发布于 2018-03-06 02:41:24
2.5K00
代码可运行
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号
运行总次数:0
代码可运行

Prodigy是一种非常高效的机器教学工具,数据科学家可以在无需外部注释的情况下,为新功能创建端到端原型,并且可以顺利地进行生产。无论你是在进行实体识别、意图检测还是图像分类,Prodigy都可以帮助你更快地训练和评估你的模型。

注释通常是项目停滞的部分。有了Prodigy,你可以在吃早餐的时候生成一个想法,并在午餐之前就能为你的想法得到结果。一旦模型得到了训练,你就可以将其导出为一个版本化的Python包,从而使系统更容易地投入生产。

1. 打开并快速运行。你可以直接开箱使用Prodigy——你所需要的就是Python和网络浏览器。如果以这种方式运行,则使用SQLite将注释存储在本地文件中。对于远程使用,你可以使用内置的SQLite、MySQLPostgreSQL后端。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
prodigy dataset my_dataset "New dataset" 
 Created dataset 'my_dataset'.

2. 使用内置的注释Recipe或编写自己的注释。Recipe控制了注释示例和处理逻辑的流,并定义了如何更新你的模型。

Prodigy提供了很多有用的组件,包括用于通用格式的加载器、实时API流、存储后端和用于一系列任务的神经网络模型。

由于Recipe是作为Python函数实现的,所以很容易集成你自己的解决方案。无论你的ETL逻辑多么复杂,如果你可以从Python函数调用它,你就可以在Prodigy中使用它。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
RECIPE.PY
import prodigy
from prodigy.components.loaders import NewYorkTimes

@prodigy.recipe('news_headlines', dataset=("ID"), query=("Query"))
def news_headlines(dataset, query):
 return {
 'dataset': dataset,
 'stream': NewYorkTimes(query=query, key='xxx')
 }

3. 从命令行运行Recipe,并开始注释。Recipe装饰器使用你的函数的签名来生成一个命令行界面,使你可以轻松地使用不同的设置来运行相同的Recipe,并在你的注释项目中重用Recipe。当你运行Recipe命令时,Prodigy将启动一个web服务器,这样你就可以开始注释了。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
prodigy news_headlines my_dataset "Silicon Valley" -F recipe.py 
 Starting the web server on port 8080...

4.在modern web应用程序中保持高效。Prodigy的web应用可以让你直接从浏览器,甚至是在移动设备上标注文字、实体、分类和图片。它的modern UI界面让你专注,并且只要求你一次做一个二元决策。

当你点击或浏览这些例子时,注释会通过REST API被发送回Prodigy。Prodigy可以实时更新你的模型,并选择最重要的问题在下一次回答。

Prodigy的有效注释Recipe Prodigy将模型放在循环中,这样它就可以积极地参与到训练过程中,并在训练过程中学习。该模型使用它已经知道的东西来找出接下来要问的内容,并根据所提供的答案进行更新。没有复杂的配置系统可以使用:你只需编写一个Python函数,它将组件作为一个字典返回。Prodigy有各种各样的内置Recipe,可以被链接在一起构建复杂的系统。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
RECIPE.PY
@prodigy.recipe('custom_recipe', dataset=("ID"))
def custom_recipe(dataset):
 # text source, processing logic and model
 return {'dataset': dataset}

注释接口 大多数注释工具都避免向用户提出任何建议,以避免对注释产生偏差。Prodigy采取了相反的方法:尽可能少地询问用户。你的模型所生成的结构越复杂,你就能从Prodigy的二进制接口中获得更多的好处。

内置的神经网络模型 Prodigy为许多常用的应用程序提供高质量的统计模型。你也可以使用Prodigy来训练或评估你自己的解决方案——它可以与任何统计模型一起工作。

  • 命名实体识别:从现有的模型开始并调整其准确性,添加一个新的实体类型或从头开始训练一个新的模式。Prodigy支持创建术语列表的新模式,并使用它们来引导NER模型。
  • 文本分类:分类文本的意图,情绪,话题,或任何其他计划。在长文档中,可以使用一种注意力机制,这样你只需要阅读它认为最相关的句子。
  • 文本相似度:将一个数值相似的分数分配给两段文字。有了Prodigy,你可以判断两个句子中的哪一个更好。
  • 图像分类:根据对象、样式、上下文或任何其他你感兴趣的度量对图像进行分类。

立即导出并使用你的模型 Prodigy可以导出现成的模型,这使得测试结果很容易,并将其投入生产。内置的NLP Recipes输出spaCy模型,你可以将其打包到可安装的模块中。你也可以通过定制的Recipe来使用任何机器学习库。内置对TensorFlow、Keras、PyTorch和scikit-learn模式的支持也很快就会投入使用。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
USE A MODEL WITH SPACY V2.0
prodigy textcat.batch-train dataset /tmp/model

>>> import spacy
>>> nlp = spacy.load('/tmp/model')
>>> doc = nlp(u"Try the text classification model")
>>> print(doc.cats)

选择存储后端 你可以使用你最喜欢的数据库来保存所收集的所有注释的副本。要么连接到一个内置选项,要么集成你自己的选项。

对各种文件格式的支持 Prodigy支持最常用的文件格式,并将检测到从文件扩展中使用的加载器。

数据科学工作流中的缺失部分 Prodigy汇集了来自机器学习和用户体验的最先进的见解。有了持续的活动学习系统,你只需要注释那些模型还不知道答案的例子。web应用程序是强大的、可扩展的,并且遵循了现代用户体验原则。原因非常简单:它的设计目的是帮助你一次只关注一个决定。

  • 尝试动态演示:https://prodi.gy/demo

作为在Python中最流行的自然语言处理开源库spaCy的制造商,我们看到越来越多的公司意识到他们需要投资建立自己的人工智能技术。人工智能不是你可以从第三方供应商大量购买的商品。你需要构建自己的系统,拥有自己的工具并控制你的数据。Prodigy具有同样的思想。该工具是自包含的、可扩展的,并且永远是你的。无论你的管道有多复杂——如果你可以从Python函数中调用它,那么你就可以在Prodigy中使用它。

你可以和Prodigy做什么? Prodigy的可插式架构使你可以很容易地使用你自己的组件来存储、加载、分类、示例选择甚至注释。它的内置功能支持简单而强大的工作流:

  • 创建、改进或评估情绪分析、意图检测和任何其他文本分类任务的模型。
  • 扩展spaCy最先进的命名实体识别器。
  • 在你正在研究的文本上,提高spaCy模型的准确性。
  • A/B测试机器翻译、字幕或图像处理系统。
  • 注释图像分割和对象检测数据。

个人使用 适合自由职业者,独立开发人员,业余爱好者。内容包括:

  • 使用12个月免费升级的终身许可。
  • 个人和专业项目的无限制使用。
  • Prodigy安装程序、web应用程序和广泛的文档。

售价:290美元

企业使用 适合创业公司,数据科学团队。内容包括:

  • 使用12个月免费升级的终身许可。
  • 为你和你的团队提供灵活且可转换的浮动许可证。
  • Prodigy安装程序、web应用程序和广泛的文档。

售价:390美元,总共5个名额。

Prodigy官网:https://prodi.gy/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-12-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
怎样构建中文文本标注工具?(附工具、代码、论文等资源)
来源:Paperweekly 本文长度为2218字,建议阅读4分钟 本文为你介绍中文文本标注工具的构建方法,并提供多个开源文本标注工具。 项目地址: https://github.com/crownpku/Chinese-Annotator 自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别,分类问题如关系识别、情感分析、意图分析等,均需要标注数据进行模型训练。在深度学习大行其道的今天,基于深度学习的 NLP 模型更是数据饥渴。 最前沿的 NLP 技术往往首先针对英文语料
数据派THU
2018/01/30
4.1K0
怎样构建中文文本标注工具?(附工具、代码、论文等资源)
关于NLP你还不会却必须要学会的事儿—NLP实践教程指南第一编
作者 | Dipanjan (DJ) Sarkar 编译 | 姗姗 出品 | 人工智能头条(公众号ID:AI_Thinker) 【人工智能头条导读】在研究和处理自然语言处理的很多问题时,除了关注各种各样基础的数据,高级的深度学习模型、算法外,其实中间还涉及了很多处理技术,比如:词干提取、词形还原、句法分析、语义分析等,虽然不同的语言特征不同,但是这其中大部分步骤都是存在于大多数NLP领域任务中的。今天特别为大家准备了一篇包含NLP重要技术概念学习和实践的文章,希望无论是基础数据、技术理论还是代码实践大家都可
用户1737318
2018/07/20
2K0
应用实战|大模型驱动的智能知识引擎
大模型(LLM)时代的知识引擎革命、技术的突破性进展,正在重塑知识管理与应用的范式。从海量非结构化数据中提炼结构化知识,实现精准
六月暴雪飞梨花
2025/03/05
4321
应用实战|大模型驱动的智能知识引擎
数据科学家需要了解的15个Python库
关于更多机器学习、人工智能、增强现实、Unity、Unreal资源和技术干货,可以关注公众号:三次方AIRX
三次方AIRX
2020/12/27
7520
5款最佳CV和数据科学标记工具,标记公司、初创企业、个人用户全满足
计算机视觉的数据科学家经常需要快速简单的标记工具用来为PoC或R&D实验创建数据集,以及确保数据质量,以免影响深度学习算法的性能。本文介绍了5种非常棒的注释工具,如果你发现这些工具无法按预期工作,请尝试在Chrome中运行它们
新智元
2019/09/16
1.2K0
5款最佳CV和数据科学标记工具,标记公司、初创企业、个人用户全满足
独家 | 快速掌握spacy在python中进行自然语言处理(附代码&链接)
本文简要介绍了如何使用spaCy和Python中的相关库进行自然语言处理(有时称为“文本分析”)。以及一些目前最新的相关应用。
数据派THU
2019/10/29
3.5K0
独家 | 快速掌握spacy在python中进行自然语言处理(附代码&链接)
AutoML – 用于构建机器学习模型的无代码解决方案
2018年,谷歌推出了云AutoML,引起了广泛关注,是机器学习和人工智能领域最重要的工具之一。在本文中,你将学习“AutoML”,这是一种借助 Google 云 AutoML 构建机器学习模型的无代码解决方案。
磐创AI
2023/08/29
1.1K0
AutoML – 用于构建机器学习模型的无代码解决方案
零基础学习Swift中的数据科学
Python被广泛认为是数据科学中最好、最有效的语言。近年来我遇到的大多数调查都将Python列为这个领域的领导者。
磐创AI
2019/11/05
1.6K0
零基础学习Swift中的数据科学
NLP入门+实战必读:一文教会你最常见的10种自然语言处理技术(附代码)
大数据文摘作品 编译:糖竹子、吴双、钱天培 自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。 在这篇文章中,你将学习到最常见的10个NLP任务,以及相关资源和代码。 为什么要写这篇文章? 对于处理NLP问题,我也研究了一段时日。这期间我需要翻阅大量资料,通过研究报告,博客和同类NLP问题的赛事内容学习该领域的最新发展成果,并应对NLP处理时遇到的各类状
大数据文摘
2018/05/24
1.7K0
NLP简报(Issue#10)
Google AI和DeepMind的研究人员发布了一个有趣的多任务基准,称为XTREME[1],旨在评估语言模型的跨语言泛化能力,学习多语言表示形式。基准测试benchmark对40种语言和9种不同的任务进行了测试,这些任务需要在语法或语义上对不同级别的含义进行推理。本文还使用最新的模型为多语言表示提供基线结果,例如mBERT,XLM和MMTE。
NewBeeNLP
2020/08/26
8610
NLP简报(Issue#10)
利用BERT和spacy3联合训练实体提取器和关系抽取器
NLP技术最有用的应用之一是从非结构化文本(合同、财务文档、医疗记录等)中提取信息,这使得自动数据查询能够有用武之地。
磐创AI
2021/08/05
3.1K0
利用BERT和spacy3联合训练实体提取器和关系抽取器
Apple的Core ML3简介——为iPhone构建深度学习模型(附代码)
作者 | MOHD SANAD ZAKI RIZVI 编译 | VK 来源 | Analytics Vidhya 概述 Apple的Core ML 3是一个为开发人员和程序员设计的工具,帮助程序员进入
磐创AI
2019/11/22
2.3K0
Apple的Core ML3简介——为iPhone构建深度学习模型(附代码)
2022年必须要了解的20个开源NLP 库
在本文中,我列出了当今最常用的 NLP 库,并对其进行简要说明。它们在不同的用例中都有特定的优势和劣势,因此它们都可以作为专门从事 NLP 的优秀数据科学家备选方案。每个库的描述都是从它们的 GitHub 中提取的。
deephub
2022/03/12
1.3K0
2022年必须要了解的20个开源NLP 库
5分钟NLP:快速实现NER的3个预训练库总结
在文本自动理解的NLP任务中,命名实体识别(NER)是首要的任务。NER模型的作用是识别文本语料库中的命名实体例如人名、组织、位置、语言等。
deephub
2022/03/12
1.7K0
5分钟NLP:快速实现NER的3个预训练库总结
用于实现用python和django编写的图像分类的Keras UI
KerasUI是一种可视化工具,可以在图像分类中轻松训练模型,并允许将模型作为服务使用,只需调用API。
代码医生工作室
2019/06/24
3K0
震惊AI圈!一文解锁大模型微调秘籍,精准适配业务需求
嘿呀,各位 AI 探险家们!在当今这个大模型横行的 AI 江湖中,拥有一个强大的大模型就如同手握绝世神兵。但你知道吗?真正的高手可不满足于模型的 “出厂设置”,他们掌握着一项超级秘籍 —— 大模型微调,能让模型精准适配各种业务需求,瞬间从 “通用大侠” 变身 “专属定制高手”。今天,就带大家一起揭开这层神秘面纱,一文解锁大模型微调的绝世秘籍,保准让你在 AI 圈中惊艳众人!💥
小白的大数据之旅
2025/05/13
1610
震惊AI圈!一文解锁大模型微调秘籍,精准适配业务需求
独家 | 手把手教你如何使用Flask轻松部署机器学习模型(附代码&链接)
当数据科学或者机器学习工程师使用Scikit-learn、Tensorflow、Keras 、PyTorch等框架部署机器学习模型时,最终的目的都是使其投入生产。通常,我们在做机器学习项目的过程中,将注意力集中在数据分析,特征工程,调整参数等方面。但是,我们往往会忘记主要目标,即从模型预测结果中获得实际的价值。
数据派THU
2019/11/01
9770
python中的gensim入门
在自然语言处理(NLP)和信息检索领域中,文本向量化是一个重要的任务。文本向量化可以将文本数据转换为数值向量,以便于计算机进行处理和分析。Gensim是一个强大的Python库,专门用于处理文本数据和实现文本向量化。 本篇文章将带你入门使用Gensim库,介绍如何在Python中对文本进行向量化,并用其实现一些基本的文本相关任务。
大盘鸡拌面
2023/10/25
7210
多模态Agent开发:Python打造超酷智能交互系统
嘿,各位技术探险家们!今天咱们要一头扎进一个超酷炫的领域 —— 多模态 Agent 开发。想象一下,你打造的程序不再是只能和你干巴巴地文字交流,它能 “看” 到图像里的内容,“听” 懂你说的话,还能和你流畅地文字聊天,是不是感觉像在科幻电影里?这就是多模态智能交互系统的魅力,而咱们要用 Python 这个超级魔法棒来实现它!
小白的大数据之旅
2025/03/10
2210
多模态Agent开发:Python打造超酷智能交互系统
深度学习(四):自然语言处理的强大引擎(4/10)
深度学习在文本分类任务中发挥着重要作用。以情感分析为例,通过对大量文本数据的学习,模型能够准确判断文本的情感倾向,如积极、消极或中性。在垃圾邮件过滤中,深度学习模型可以有效地识别出垃圾邮件,提高邮件系统的安全性和效率。此外,语言识别和体裁分类等任务也能通过深度学习模型实现准确分类。例如,对于一篇新闻文章,模型可以快速判断其所属的体裁,如体育、娱乐或科技等。
正在走向自律
2024/12/18
2470
深度学习(四):自然语言处理的强大引擎(4/10)
推荐阅读
相关推荐
怎样构建中文文本标注工具?(附工具、代码、论文等资源)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验