首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >搞定实体识别、关系抽取、事件抽取,我用指针网络

搞定实体识别、关系抽取、事件抽取,我用指针网络

作者头像
西西嘛呦
发布于 2022-12-07 06:08:58
发布于 2022-12-07 06:08:58
1.7K00
代码可运行
举报
运行总次数:0
代码可运行

PointerNet_Chinese_Information_Extraction

代码地址:https://github.com/taishan1994/PointerNet_Chinese_Information_Extraction

利用指针网络进行信息抽取,包含命名实体识别、关系抽取、事件抽取。

整体结构:

整个目录结构非常简洁,

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
--[ee/ner/re]_main.py为主运行程序,包含训练、验证、测试和预测。
--[ee/ner/re]_data_loader.py为数据加载模型。
--[ee/ner/re]_predictor.py是联合预测的文件。
--config.py:配置文件,实体识别、关系抽取、事件抽取参数配置。
--model.py是模型。

前期准备,在hugging face上下载chinese-bert-wwm-ext到model_hub/chinese-bert-wwm-ext文件夹下。

依赖

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pytorch
transformers

命名实体识别任务

识别每一个类型实体的首位置和尾位置。数据位于data/ner/cner/下,数据的具体格式是:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[
  {
    "id": 0,
    "text": "高勇:男,中国国籍,无境外居留权,",
    "labels": [
      [
        "T0",
        "NAME",
        0,
        2,
        "高勇"
      ],
      [
        "T1",
        "CONT",
        5,
        9,
        "中国国籍"
      ]
    ]
  },
    ...
]

运行:python ner_main.py,可进行训练、验证、测试和预测,如若只需要部分的功能,注释相关代码即可。结果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[eval] precision=0.9471 recall=0.9389 f1_score=0.9430
          precision    recall  f1-score   support

   TITLE       0.94      0.93      0.94       854
    RACE       1.00      1.00      1.00        14
    CONT       1.00      1.00      1.00        28
     ORG       0.94      0.93      0.93       571
    NAME       1.00      1.00      1.00       112
     EDU       0.99      0.97      0.98       115
     PRO       0.89      0.91      0.90        35
     LOC       1.00      0.83      0.91         6

micro-f1       0.95      0.94      0.94      1735

顾建国先生:研究生学历,正高级工程师,现任本公司董事长、马钢(集团)控股有限公司总经理。
{'TITLE': [('正高级工程师', 12), ('董事长', 24), ('总经理', 40)], 'ORG': [('本公司', 21)], 'NAME': [('顾建国', 0)], 'EDU': [('研究生学历', 6)]}

关系抽取任务

该任务只要由四个部分组成:实体识别、主体抽取、主体-客体抽取、关系分类。由于GPU的限制,在re_main.py里面加载验证和测试数据时限制了取10000条,可自行修改。

实体识别

用于识别出主体或者客体的类型。实体识别是可选的,因为有的数据是不需要识别实体的。

主体抽取

主体抽取是实体识别类似,只不过这里只有一类,识别主体的首、尾位置。

主体-客体抽取

客体抽取要首先知道主体,然后输入是:[CLS]主体[SEP]文本[SEP]。同样的,抽取的是客体的首、尾位置。

关系分类

关系分类采用的是多标签分类,因为主客体之间可能存在多个关系,输入是:[CLS]主体[SEP]客体[SEP]文本[SEP]。注意这里是对整个句子进行分类,不再是token级别的了。


数据位于data/re/ske/下,数据的具体格式为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[{"tokens": ["《", "步", "步", "惊", "心", "》", "改", "编", "自", "著", "名", "作", "家", "桐", "华", "的", "同", "名", "清", "穿", "小", "说", "《", "甄", "嬛", "传", "》", "改", "编", "自", "流", "潋", "紫", "所", "著", "的", "同", "名", "小", "说", "电", "视", "剧", "《", "何", "以", "笙", "箫", "默", "》", "改", "编", "自", "顾", "漫", "同", "名", "小", "说", "《", "花", "千", "骨", "》", "改", "编", "自", "f", "r", "e", "s", "h", "果", "果", "同", "名", "小", "说", "《", "裸", "婚", "时", "代", "》", "是", "月", "影", "兰", "析", "创", "作", "的", "一", "部", "情", "感", "小", "说", "《", "琅", "琊", "榜", "》", "是", "根", "据", "海", "宴", "同", "名", "网", "络", "小", "说", "改", "编", "电", "视", "剧", "《", "宫", "锁", "心", "玉", "》", ",", "又", "名", "《", "宫", "》", "《", "雪", "豹", "》", ",", "该", "剧", "改", "编", "自", "网", "络", "小", "说", "《", "特", "战", "先", "驱", "》", "《", "我", "是", "特", "种", "兵", "》", "由", "红", "遍", "网", "络", "的", "小", "说", "《", "最", "后", "一", "颗", "子", "弹", "留", "给", "我", "》", "改", "编", "电", "视", "剧", "《", "来", "不", "及", "说", "我", "爱", "你", "》", "改", "编", "自", "匪", "我", "思", "存", "同", "名", "小", "说", "《", "来", "不", "及", "说", "我", "爱", "你", "》"], "entities": [{"type": "图书作品", "start": 1, "end": 5}, {"type": "人物", "start": 13, "end": 15}, {"type": "图书作品", "start": 23, "end": 26}, {"type": "人物", "start": 30, "end": 33}, {"type": "图书作品", "start": 44, "end": 49}, {"type": "人物", "start": 53, "end": 55}, {"type": "图书作品", "start": 60, "end": 63}, {"type": "人物", "start": 67, "end": 74}, {"type": "图书作品", "start": 79, "end": 83}, {"type": "人物", "start": 85, "end": 89}, {"type": "图书作品", "start": 99, "end": 102}, {"type": "人物", "start": 106, "end": 108}, {"type": "影视作品", "start": 132, "end": 134}, {"type": "作品", "start": 146, "end": 150}, {"type": "影视作品", "start": 152, "end": 157}, {"type": "作品", "start": 167, "end": 176}, {"type": "影视作品", "start": 183, "end": 190}, {"type": "图书作品", "start": 183, "end": 190}, {"type": "人物", "start": 194, "end": 198}], "relations": [{"type": "作者", "head": 4, "tail": 5}, {"type": "改编自", "head": 14, "tail": 15}, {"type": "作者", "head": 0, "tail": 1}, {"type": "作者", "head": 2, "tail": 3}, {"type": "作者", "head": 6, "tail": 7}, {"type": "作者", "head": 8, "tail": 9}, {"type": "作者", "head": 10, "tail": 11}, {"type": "改编自", "head": 12, "tail": 13}, ... ]

运行:python re_main.py,可进行训练、验证、测试和预测,如若只需要部分的功能,注释相关代码即可。需要注意的是,我们要在config.py里面设置ReArgs类里面的tasks=["ner or sbj or obj or rel"]来选择相应的子任务。结果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 实体识别
test】 precision=0.7862 recall=0.8263 f1_score=0.8057
          precision    recall  f1-score   support

     行政区       0.33      0.17      0.22         6
      人物       0.81      0.91      0.85      1405
      气候       0.00      0.00      0.00         3
    文学作品       0.00      0.00      0.00         5
    Text       0.65      0.64      0.65        56
    学科专业       0.00      0.00      0.00         0
      作品       0.00      0.00      0.00         8
      奖项       0.00      0.00      0.00        14
      国家       0.90      0.61      0.73        62
    电视综艺       0.69      0.88      0.77        25
    影视作品       0.77      0.79      0.78       253
      企业       0.69      0.62      0.66       125
      语言       0.00      0.00      0.00         1
      歌曲       0.87      0.81      0.84       159
    Date       0.82      0.87      0.84       127
   企业/品牌       0.00      0.00      0.00         3
      地点       0.88      0.29      0.44        24
  Number       0.79      0.83      0.81        23
    图书作品       0.76      0.81      0.78       179
      景点       0.00      0.00      0.00         2
      城市       0.00      0.00      0.00         4
      学校       0.69      0.83      0.76        65
    音乐专辑       0.70      0.81      0.75        32
      机构       0.69      0.75      0.72       107

micro-f1       0.79      0.83      0.81      2688

《父老乡亲》是由是由由中国人民解放军海政文工团创作的军旅歌曲,石顺义作词,王锡仁作曲,范琳琳演唱
{'人物': [('石顺义', 31), ('王锡仁', 37), ('范琳琳', 43)], '歌曲': [('父老乡亲', 1)]}

# 主体抽取
【test】 precision=0.8090 recall=0.8466 f1_score=0.8273
          precision    recall  f1-score   support

      主体       0.81      0.85      0.83      2646

micro-f1       0.81      0.85      0.83      2646

# 客体抽取
【test】 precision=0.8017 recall=0.5274 f1_score=0.6362
          precision    recall  f1-score   support

      客体       0.80      0.53      0.64      1771

micro-f1       0.80      0.53      0.64      1771

# 关系多标签分类
【test】 precision=0.9302 recall=0.9187 f1_score=0.9244
              precision    recall  f1-score   support

          编剧       0.79      0.59      0.68        44
        修业年限       0.00      0.00      0.00         0
        毕业院校       1.00      0.98      0.99        49
          气候       1.00      1.00      1.00         3
          配音       1.00      1.00      1.00        18
        注册资本       1.00      1.00      1.00         5
        成立日期       1.00      1.00      1.00        94
          父亲       0.91      0.95      0.93        88
          面积       1.00      1.00      1.00         1
        专业代码       0.00      0.00      0.00         0
          作者       0.94      0.97      0.96       188
          首都       0.00      0.00      0.00         2
          丈夫       0.88      0.93      0.90        86
          嘉宾       0.63      0.89      0.74        19
        官方语言       0.00      0.00      0.00         1
          作曲       0.75      0.69      0.72        521.00      1.00      1.00        10
          票房       1.00      1.00      1.00        11
          简称       1.00      0.93      0.97        15
          母亲       0.82      0.75      0.78        53
         制片人       0.86      0.75      0.80         8
          导演       0.94      0.95      0.95       101
          歌手       0.91      0.87      0.89       119
         改编自       0.00      0.00      0.00        11
          海拔       1.00      1.00      1.00         1
        占地面积       1.00      1.00      1.00         3
        出品公司       0.95      0.97      0.96        39
        上映时间       1.00      1.00      1.00        37
        所在城市       1.00      1.00      1.00         2
         主持人       0.91      0.78      0.84        27
          作词       0.74      0.67      0.70        51
        人口数量       1.00      1.00      1.00         2
          祖籍       1.00      1.00      1.00         7
          校长       1.00      1.00      1.00        16
          朝代       1.00      1.00      1.00        36
         主题曲       1.00      0.96      0.98        23
          获奖       1.00      1.00      1.00        14
         代言人       1.00      1.00      1.00         3
          主演       0.97      0.99      0.98       239
        所属专辑       1.00      1.00      1.00        35
          饰演       1.00      1.00      1.00        17
         董事长       1.00      0.96      0.98        56
          主角       0.67      0.80      0.73         5
          妻子       0.89      0.88      0.89        86
        总部地点       1.00      1.00      1.00        16
          国籍       1.00      1.00      1.00        67
         创始人       0.85      1.00      0.92        11
        邮政编码       0.00      0.00      0.00         0
        没有关系       0.00      0.00      0.00         0

   micro avg       0.93      0.92      0.92      1771
   macro avg       0.80      0.80      0.80      1771
weighted avg       0.92      0.92      0.92      1771
 samples avg       0.91      0.92      0.92      1771

事件抽取

事件抽取由两个部分组成:事件类型抽取、事件论元抽取。

事件类型抽取

可以当作实体识别。

事件论元抽取

可以当作obj的抽取,输入为:[CLS]事件类型对应的论元[SEP]文本[SEP]


数据位于data/ee/duee/下,数据格式为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{"text": "消失的“外企光环”,5月份在华裁员900余人,香饽饽变“臭”了", "id": "cba11b5059495e635b4f95e7484b2684", "event_list": [{"event_type": "组织关系-裁员", "trigger": "裁员", "trigger_start_index": 15, "arguments": [{"argument_start_index": 17, "role": "裁员人数", "argument": "900余人", "alias": []}, {"argument_start_index": 10, "role": "时间", "argument": "5月份", "alias": []}], "class": "组织关系"}]}

每一行是一条记录。

运行:python ee_main.py,可进行训练、验证、测试和预测,如若只需要部分的功能,注释相关代码即可。需要注意的是,我们要在config.py里面设置EeArgs类里面的tasks=["ner or obj"]来选择相应的子任务。结果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 事件类型抽取
【test】 precision=0.8572 recall=0.8587 f1_score=0.8579
             precision    recall  f1-score   support

财经/交易-出售/收购       0.88      0.88      0.88        24
   财经/交易-跌停       0.93      0.87      0.90        15
   财经/交易-加息       1.00      1.00      1.00         3
   财经/交易-降价       1.00      0.70      0.82        10
   财经/交易-降息       1.00      1.00      1.00         4
   财经/交易-融资       0.93      0.81      0.87        16
   财经/交易-上市       1.00      0.75      0.86         8
   财经/交易-涨价       1.00      0.60      0.75         5
   财经/交易-涨停       1.00      1.00      1.00        28
    产品行为-发布       0.85      0.87      0.86       153
    产品行为-获奖       0.59      0.62      0.61        16
    产品行为-上映       0.91      0.91      0.91        35
    产品行为-下架       1.00      0.96      0.98        24
    产品行为-召回       0.95      1.00      0.97        36
      交往-道歉       0.73      1.00      0.84        19
      交往-点赞       0.85      1.00      0.92        11
      交往-感谢       0.78      0.88      0.82         8
      交往-会见       0.90      1.00      0.95         9
      交往-探班       1.00      0.82      0.90        11
    竞赛行为-夺冠       0.71      0.74      0.72        65
    竞赛行为-晋级       0.89      0.89      0.89        36
    竞赛行为-禁赛       0.88      0.78      0.82        18
    竞赛行为-胜负       0.82      0.79      0.81       271
    竞赛行为-退赛       0.85      0.94      0.89        18
    竞赛行为-退役       0.92      1.00      0.96        11
    人生-产子/0.85      0.73      0.79        15
      人生-出轨       1.00      0.75      0.86         4
      人生-订婚       0.80      0.89      0.84         9
      人生-分手       0.89      0.89      0.89        18
      人生-怀孕       1.00      0.88      0.93         8
      人生-婚礼       0.75      1.00      0.86         6
      人生-结婚       0.86      0.86      0.86        43
      人生-离婚       0.95      0.95      0.95        38
      人生-庆生       0.71      0.75      0.73        16
      人生-求婚       0.91      1.00      0.95        10
      人生-失联       0.77      0.71      0.74        14
      人生-死亡       0.83      0.84      0.84       107
    司法行为-罚款       0.94      0.88      0.91        33
    司法行为-拘捕       0.87      0.92      0.90        90
    司法行为-举报       0.86      1.00      0.92        12
    司法行为-开庭       0.81      0.93      0.87        14
    司法行为-立案       0.80      0.89      0.84         9
    司法行为-起诉       0.76      0.90      0.83        21
    司法行为-入狱       0.86      0.86      0.86        21
    司法行为-约谈       0.97      1.00      0.99        33
   灾害/意外-爆炸       1.00      0.80      0.89        10
   灾害/意外-车祸       0.75      0.77      0.76        35
   灾害/意外-地震       0.88      0.75      0.81        20
   灾害/意外-洪灾       0.67      0.57      0.62         7
   灾害/意外-起火       0.93      0.86      0.89        29
 灾害/意外-/垮塌       1.00      0.91      0.95        11
   灾害/意外-袭击       0.71      0.71      0.71        17
   灾害/意外-坠机       0.85      0.85      0.85        13
    组织关系-裁员       1.00      0.82      0.90        22
  组织关系-/离职       0.84      0.97      0.90        71
    组织关系-加盟       0.89      0.74      0.80        53
    组织关系-解雇       0.85      0.85      0.85        13
    组织关系-解散       1.00      1.00      1.00        10
    组织关系-解约       0.83      1.00      0.91         5
    组织关系-停职       1.00      1.00      1.00        11
    组织关系-退出       0.77      0.77      0.77        22
    组织行为-罢工       0.89      1.00      0.94         8
    组织行为-闭幕       1.00      1.00      1.00         9
    组织行为-开幕       0.91      0.97      0.94        30
    组织行为-游行       0.89      0.67      0.76        12

   micro-f1       0.86      0.86      0.86      1783

富国银行收缩农业与能源贷款团队 裁减200多名银行家
{'组织关系-裁员': [('裁减', 16)]}

# 事件论元抽取
【test】 precision=0.7829 recall=0.7406 f1_score=0.7612
          precision    recall  f1-score   support

      答案       0.78      0.74      0.76      3682

micro-f1       0.78      0.74      0.76      3682

富国银行收缩农业与能源贷款团队 裁减200多名银行家
组织关系-裁员_裁员方
['富国银行']

联合预测

实体识别预测

python ner_predictor.py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
文本: 顾建国先生:研究生学历,正高级工程师,现任本公司董事长、马钢(集团)控股有限公司总经理。
实体:
TITLE [('正高级工程师', 12), ('董事长', 24), ('总经理', 40)]
ORG [('本公司', 21)]
NAME [('顾建国', 0)]
EDU [('研究生学历', 6)]

关系抽取预测

python re_predictor.py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
文本: 《神之水滴》改编自亚树直的同名漫画,是日本电视台2009113日制作并播放的电视剧,共九集
实体:
人物 [('亚树直', 9)]
影视作品 [('神之水滴', 1)]
Date [('2009年1月13日', 24)]
主体: ['神之水滴', '亚树直', '日本电视台2009年1月13日', '2009年1月13日']
客体: [['神之水滴', '2009年1月13日'], ['亚树直', '2009年1月13日'], ['日本电视台2009年1月13日', '2009年1月13日'], ['2009年1月13日', '2009年1月13日']]
关系: [('神之水滴', '上映时间', '2009年1月13日'), ('亚树直', '上映时间', '2009年1月13日'), ('日本电视台2009年1月13日', '上映时间', '2009年1月13日'), ('2009年1月13日', '上映时间', '2009年1月13日')]

效果不是很好,因为数据集太大,这里只选取了训练集里面的10000条数据,训练了不到3个epoch,GPU足够的可以尝试数据多点,训练就一些。

事件抽取预测

python ee_predictor.py

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
文本: 2019712日,国家市场监督管理总局缺陷产品管理中心,在其官方网站和微信公众号上发布了《上海施耐德低压终端电器有限公司召回部分剩余电流保护装置》,看到这条消息,确实令人震惊!
作为传统的三大外资品牌之一,竟然发生如此大规模质量问题的召回,而且生产持续时间长达一年!从采购,检验,生产,测试,包装,销售,这么多环节竟没有反馈出问题,处于无人知晓状态,问题出在哪里?希望官方能有一个解释了。
实体:
产品行为-召回 [('召回', 62), ('召回', 119)]
事件类型: 产品行为-召回
实体: [['产品行为-召回_时间', '2019年7月12日'], ['产品行为-召回_召回内容', '部分剩余电流保护装置'], ['产品行为-召回_召回方', '上海施耐德低压终端电器有限公司']]

补充

Q:怎么训练自己的数据?

A:参考每一个实例下面数据的格式。

Q:评价指标一直为0?

A:指针网络的收敛速度挺慢的,耐心等待。

Q:怎么进行观点评论抽取?

A:同样的可以转换任务为:ner、sbj、obj、rel。比如实体识别就是识别出文本里面的方面及评价,主体识别就是方面,客体识别就是评价,关系分类就是评价的情感,不过这里要做修改,因为不是多标签分类,而是多分类。

这里不提供训练好的模型了,自行训练即可。

参考

一种基于Prompt的通用信息抽取(UIE)框架_阿里技术的博客-CSDN博客 (思想和大部分图片都来自这)

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-12-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基于bert_bilstm_crf的命名实体识别
本文将介绍基于pytorch的bert_bilstm_crf进行命名实体识别,涵盖多个数据集。命名实体识别指的是从文本中提取出想要的实体,本文使用的标注方式是BIOES,例如,对于文本虞兔良先生:1963年12月出生,汉族,中国国籍,无境外永久居留权,浙江绍兴人,中共党员,MBA,经济师。,我们想要提取出里面的人名,那么虞兔良可以被标记为B-NAME,I-NAME,E-NAME。最终我们要做的就是对每一个字进行分类。
西西嘛呦
2022/09/23
7980
机器学习中的特征提取
特征提升特征抽取使用CountVectorizer并且不去掉停用词的条件下,对文本特征进行量化的朴素贝叶斯分类性能测试使用TfidfVectorizer并且不去掉停用词的条件下,对文本特征进行量化的朴素贝叶斯分类性能测试.分别使用CountVectorizer与TfidfVectorizer,并且去掉停用词的条件下,对文本特征进行量化的朴素贝叶斯分类性能测试特征筛选使用Titanic数据集,通过特征筛选的方法一步步提升决策树的预测性能总结
用户3577892
2020/06/12
1.6K0
机器学习中的特征提取
机器学习实战 | Python机器学习算法应用实践
教程地址:http://www.showmeai.tech/tutorials/41
ShowMeAI
2022/03/21
1.6K0
机器学习实战 | Python机器学习算法应用实践
SVM算法实现光学字符识别
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机字符的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过字符识别模型将图像中的文字处理成文本格式。
不脱发的程序猿
2021/05/08
1.1K0
SVM算法实现光学字符识别
基于sklearn的朴素贝叶斯分类器理论内容代码实现处理数据——特征抽取(文字向量化)模型评估
理论内容 贝叶斯定理 贝叶斯定理是描述条件概率关系的定律 $$P(A|B) = \cfrac{P(B|A) * P(A)}{P(B)}$$ 朴素贝叶斯分类器 朴素贝叶斯分类器是一种基于概率的分类器,我们做以下定义: B:具有特征向量B A:属于类别A 有了这个定义,我们解释贝叶斯公式 P(A|B):具有特征向量B样本属于A类别的概率(计算目标) P(B|A):在A类别中B向量出现的概率(训练样本中的数据) P(A):A类出现的概率(训练样本中的频率) P(B):B特征向量出现的概率(训练样本中的频率) 对
月见樽
2018/04/27
1K0
基于tensorflow的文本分类总结(数据集是复旦中文语料)
代码已上传到github:https://github.com/taishan1994/tensorflow-text-classification
西西嘛呦
2020/11/12
8720
基于tensorflow的文本分类总结(数据集是复旦中文语料)
生存分析有必要把连续值依据中位值进行高低分组变成分类变量吗
但是呢,我们其实是根据每个癌症内部自己的 estimate 的StromalSignature 和 ImmuneSignature的打分的中位值,首先分成为了高低两个组,然后进行生存分析看是否有统计学显著。estimate 的打分本身是超级简单, 如果你还不懂就去看前面的教程:不同癌症内部按照estimate的两个打分值高低分组看蛋白编码基因表达量差异 :
生信技能树
2021/10/12
1.8K0
必备必考 | 调参技能之学习率衰减方案(一)—超多图直观对比
作为一名合格的算法工程师,调参的技巧必不可少,接下来将有三篇关于如何调整学习率的文章分享,会设计到大量的图片,篇幅较长,希望大家能耐心读完,也不辜负我辛辛苦苦翻译过来,由于本人自身水平有限,如果有地方翻译的不够准确或不当还请原谅~
AI算法与图像处理
2019/08/16
4.5K0
必备必考 | 调参技能之学习率衰减方案(一)—超多图直观对比
Bayes算法分类案例
由代码的输出,可获知该数据共有18846条新闻,不同于前面的样例数据,这些文本数据既没有被设定特征,也没有数字化的量度。因此,在交给朴素贝叶斯分类器学习之前,要对数据做进一步的处理。不过在此之前,仍需要对数据进行分割并且随机采样出一部分用于测试。
用户3577892
2020/06/11
7580
PCA降维实例
特征降维有两个目的:其一,我们会经常在实际项目中遭遇特征维度非常之高的训练样本,而往往又无法借助自己的领域知识人工构建有效特征;其二,在数据表现方面,我们无法用肉眼观测超过三个维度的特征。因此,特征降维不仅重构了有效的低维度特征向量,同时也为数据展现提供了可能。在特征降维的方法中,主成分分析(PrincipalComponentAnalysis)是最为经典和实用的特征降维技术,特别在辅助图像识别方面有突出的表现。
用户3577892
2020/06/11
8850
机器学习——支持向量机
SVM就是试图把棍放在一堆球中的最佳位置,好让在棍的两边有尽可能大的间隙。这个间隙就是球到棍的距离。 支持向量机:找到分类界面,使支持向量间的间隔最大,支持向量到分割界面的距离最小 支持向量是通过到分割界面距离最小的点的向量,且两向量间的距离最大,在二维中其实就是点 取支持向量间的最大间隔是为了若当再添加一个点到一类中,最大间隔可以容许,仍然可以进行有效分割 支持向量到分割界面(决策面)距离最小意思是这些点最为接近 导入类库 1 from sklearn.datasets import load_di
py3study
2020/01/19
3150
R语言可视化——REmapH(中心热度图)
今天是REmap系列的最后一篇——REmapH函数。 这个函数的特色是可以做中心辐射的热力图,这种热力图在气象、人口密度、海拔测绘领域有诸多运用,当然也可以上当用在商务场合——特别是跟地理信息有关的数
数据小磨坊
2018/04/11
4.1K0
R语言可视化——REmapH(中心热度图)
自然语言处理:网购商品评论情感判定
自然语言处理(Natural Language Processing,简称NLP),是为各类企业及开发者提供的用于文本分析及挖掘的核心工具,旨在帮助用户高效的处理文本,已经广泛应用在电商、文娱、司法、公安、金融、医疗、电力等行业客户的多项业务中,取得了良好的效果。
不脱发的程序猿
2021/05/08
1.2K0
自然语言处理:网购商品评论情感判定
R in action读书笔记(19)第十四章 主成分和因子分析
主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法。它通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的、显式的变量间的关系。
Ai学习的老章
2019/04/10
1.1K0
R in action读书笔记(19)第十四章 主成分和因子分析
R语言之可视化(31)扫地僧easystats(2)相关性分析
相关性是一个专注于相关性分析的easystats软件包。 它轻巧,易于使用,并允许计算许多不同类型的相关性,例如偏相关性,贝叶斯相关性,多级相关性,或Sheperd的Pi相关性(鲁棒相关性的类型),距离相关(一种非线性相关性)等等,还允许它们之间进行组合(例如,贝叶斯局部多级相关性)。
用户1359560
2020/05/08
2K0
R语言因子分析
因子分析可以看做是主成分分析的进一步扩展,主成分分析重点在综合原始变量的信息,而因子分析重在解释原始变量之间的关系。
医学和生信笔记
2023/02/14
5690
R语言因子分析
休闲娱乐|手把手教你在Python中使用turtle模块实现二次元少女(一)代码部分2
六月暴雪飞梨花
2024/04/07
4350
休闲娱乐|手把手教你在Python中使用turtle模块实现二次元少女(一)代码部分2
OFFCLIP:对比学习改进法增强放射学CLIP正常样本聚类,提升零样本分类与定位性能 !
深度学习在医学影像领域取得了显著进展[3, 12],但其对大规模标注数据集的依赖限制了其可扩展性。零样本学习(Zero-shot)通过使模型能够在无需大量手工标注的情况下泛化来解决这一问题。对比学习,尤其是视觉-语言预训练,已成为对大规模图像-文本对进行对齐的强大范式[18]。这种方法已被应用于放射学领域,用于零样本分类和异常检测[10, 15, 19, 20, 22, 23]。
未来先知
2025/04/15
1230
OFFCLIP:对比学习改进法增强放射学CLIP正常样本聚类,提升零样本分类与定位性能 !
再谈迁移学习:微调网络
在《站在巨人的肩膀上:迁移学习》一文中,我们谈到了一种迁移学习方法:将预训练的卷积神经网络作为特征提取器,然后使用一个标准的机器学习分类模型(比如Logistic回归),以所提取的特征进行训练,得到分类器,这个过程相当于用预训练的网络取代上一代的手工特征提取方法。这种迁移学习方法,在较小的数据集(比如17flowers)上也能取得不错的准确率。
云水木石
2019/07/01
2.1K0
再谈迁移学习:微调网络
如何用 seq2seq 模型来应对 NLP 任务
今天我想要解决一个非常流行的NLP任务,它叫做命名实体识别(NER)。简单来说,NER是从单词序列(一个句子)中抽取命名实体的任务。例如,给出下列句子:
AI研习社
2019/06/14
6320
如何用 seq2seq 模型来应对 NLP 任务
推荐阅读
相关推荐
基于bert_bilstm_crf的命名实体识别
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档