正在部署中,回头看看怎么finetune一下。之前NLP接触的不多,希望以LLaMA为切入点,进行扩展。比方说里面提到的finetune技术的发展,GPT-3到现在之间的多个模型的迭代,还有各种激活函数的使用。和CV完全是两个知识体系,但是都在一个世界之下。
希望对NLP有经验的朋友,可以交个朋友,互相学习~
- 微信cyx645016617

❝what is foundation language model?什么是基础语言模型?
A foundation language model is a type of language model that serves as a basis or starting point for other models. It is typically trained on a large corpus of text data and can be fine-tuned for specific tasks such as language translation or sentiment analysis. 基础语言模型是一种语言模型,用作其他模型的基础或起点。它通常在大量文本数据语料库上进行训练,并且可以针对特定任务(如语言翻译或情感分析)进行微调。
❝How does LLaMA-13B outperform GPT-3 (175B) on most benchmarks?LLaMA-13B 在大多数基准测试中如何优于 GPT-3 (175B)?
LLaMA-13B outperforms GPT-3 on most benchmarks despite being more than 10 times smaller. We attribute this to our training exclusively on publicly available datasets, whichout resorting to proprietary and inaccessible datasets. LLaMA-13B 在大多数基准测试中优于 GPT-3,尽管它小了 10 倍以上。我们将这归因于我们专门针对公开可用数据集的培训,这些数据集诉诸专有和无法访问的数据集。

❝What is open-ended generation?什么是开放式生成?
Open-ended generation is a type of task where the language model is given a prompt or input and generates a response without any specific constraints or limitations. In other works, the model is free to generated any response that it deems appropriate based on the input it reveices. This is in contrast to other types of tasks such as multiple-choice questions or fill-in-the-blank tasks, where the model is given a set of options to choose from. 开放式生成是一种任务类型,其中语言模型被给予提示或输入,并生成没有任何特定约束或限制的响应。在其他作品中,模型可以根据它所揭示的输入自由地生成它认为合适的任何响应。这与其他类型的任务(如多项选择题或填空任务)形成鲜明对比,在这些任务中,模型有一组选项可供选择。
❝如何评价不同模型的性能?
In the multiple choice tasks, the objective is to select the most appropriate completion among a set of given options, based on a provided context. We select the completion with the highest likelihood given the provided context.在多项选择任务中,目标是根据提供的上下文在一组给定选项中选择似然虽高的选项。我们选择似然最高的结果,根据提供的上下文(即需要填写的空格之前的文本)。
❝what is likelihood normalized by the number of characters in the completion?什么是按字符数归一化的似然?
To make sure that longer completions are not favored over shorter ones, the likelihood is normalized by the number of characters in the completion. This means that longer completions are not automatically considered better than shorter ones just because they have more words.为了确保较长的回答不会优先于较短的回答,可能性通过完成中的字符数进行归一化。这意味着较长的回答不会仅仅因为它们有更多的单词而自动被认为比较短的回答更好。
❝为什么OpenBookQA 和BoolQ采用了不同的测量方法。
因为这两个数据集中的填空前面都会出现"Answer",而这个信息也被考虑在了选择答案的过程中。考虑的方法,就是使用条件概率:
意思就是说,你这个答案completion,在给定前面是“Answer”的前提下,由上下文的出来的概率是多少?

❝what is common sense reasoning?
common sense reasoning refers to a type of reasoning that involves making inferences and drawing conclusions based on everyday knowledge and experience. It is the ability to understand and reason about the world in a way that is consistent with how humans typically think and behave. Common sense reasoning is an important area of research in natural language processing because it is essential for many tasks, such as question answering, dialogue systems, and language understanding in general. 常识推理是指一种推理,涉及根据日常知识和经验进行推理和得出结论。它是以与人类通常思考和行为方式一致的方式理解和推理世界的能力。常识推理是自然语言处理的一个重要研究领域,因为它对许多任务都是必不可少的,例如问答、对话系统和一般的语言理解。PDF文件提到了几个评估常识推理的标准基准,包括BoolQ,PIQA和SIQA。
❝what is Closed-book Question Answering
闭卷问答是指一种问答任务,其中模型除了问题本身的文本之外,没有提供任何外部信息或上下文。换句话说,不允许模型访问任何可以帮助它回答问题的文档或信息源。这种类型的任务旨在测试模型仅基于其内部知识和对语言的理解来推理和生成答案的能力。
❝what is reading comprehension?
reading comprehension refers to the ability to understand and interpret written text. It involves a range of skills, including vocabulary knowledge, sentence comprehension, and the ability to make inferences and draw conclusions based on the information presented in the text. Reading comprehension is an important area of research in natural language processing because it is essential for many tasks, such as question answering, summarization, and information retrieval. 阅读理解是指理解和解释书面文本的能力。它涉及一系列技能,包括词汇知识、句子理解以及根据文本中提供的信息进行推理和得出结论的能力。阅读理解是自然语言处理的一个重要研究领域,因为它对于许多任务都是必不可少的,例如问答、总结和信息检索。
后续还做了bias分析,用了很多种衡量方法,其中一种是CrowS-paris。

然后是能源消耗和碳排放比较:

<<其他>>
医学图像重建 | Radon变换,滤波反投影算法,中心切片定理
医学图像重建2 | CT&PET,比尔定律,衰减矫正
whole-body PET ?全人研究的催化剂?
TB-PET揭示体内复杂的骨骼代谢网络
综述 深度学习在神经成像领域的前景与挑战
功能连接矩阵 | 双向LSTM深度时间组学习针对轻度认知障碍
PCA、SVD深入浅出与python代码
ICA | 用RNN-ICA探索功能核磁内在网络模型的时空动力学
Dual-time-point的两篇文献浅学
WBIR | DeepSTAPLE:UDA任务下学习多模态配准质量
TransMorph | WBIR
医学成像之光学基础
<<AlphaFold2专题>>
alphaFold2 | 解决问题及背景(一)
alphaFold2 | 模型框架搭建(二)
alphaFold2 | 模型细节之特征提取(三)
alphaFold2 | 模型细节之Evoformer(四)
alphaFold2 | 补充Evoformer之outer productor mean(五)
<<StyleGAN2专题>>
生成专题1 | 图像生成评价指标 Inception Score (IS)
生成专题2 | 图像生成评价指标FID
生成专题3 | StyleGAN2对AdaIN的修正
生成专题4 | StyleGAN2的其他改进
<<蛋白质分子结构相关>>
NLP | 简单学习一下NLP中的transformer的pytorch代码
DTI特征工程 | iDTI-ESBoost | 2017 | REP
DIT | 简化分子线性输入规范SMILE
DTI | Drug-target interaction基础认识
<<CVPR目录>>
第一弹CVPR 2021 | 多分辨率蒸馏的异常检测 VIT Vision Transformer | 先从PyTorch代码了解
preprint版本 | 何凯明大神新作MAE | CVPR2022最佳论文候选
小样本分割 | FSS1000 | CVPR2020
简单的结构 | MLP-Mixer: An all-MLP Architecture for Vision | CVPR2021
域迁移DA |Addressing Domain Shift for Segmentation | CVPR2018
医学图像配准 | SYMnet 对称微分同胚配准CNN(SOTA) | CVPR2020
光流 | flownet | CVPR2015 | 论文+pytorch代码
图像分割 | Context Prior CPNet | CVPR2020
自监督图像论文复现 | BYOL(pytorch)| 2020
自监督SOTA框架 | BYOL(优雅而简洁) | 2020
笔记 | 吴恩达新书《Machine Learning Yearning》
图片质量评估论文 | 无监督SER-FIQ | CVPR2020
图像质量评估论文 | Deep-IQA | IEEETIP2018
图像质量评估论文 | rank-IQA | ICCV2017
图像分割论文 | DRN膨胀残差网络 | CVPR2017
注意力论文解读(1) | Non-local Neural Network | CVPR2018 | 已复现
卷积网络可解释性复现 | Grad-CAM | ICCV | 2017
轮廓检测论文解读 | Richer Convolutional Features| CVPR | 2017
轮廓检测论文解读 | 整体嵌套边缘检测HED | CVPR | 2015
卷积涨点论文复现 | Asymmetric Conv ACNet | ICCV | 2019
pytorch实现 | Deformable ConvNet 可变卷积(下) | CVPR | 2017
图像处理论文详解 | Deformable Convolutional Networks (上)| CVPR | 2017
<<小白学PyTorch>>
扩展之Tensorflow2.0 | 21 Keras的API详解(下)池化、Normalization层
扩展之Tensorflow2.0 | 21 Keras的API详解(上)卷积、激活、初始化、正则
扩展之Tensorflow2.0 | 20 TF2的eager模式与求导
扩展之Tensorflow2.0 | 19 TF2模型的存储与载入
扩展之Tensorflow2.0 | 18 TF2构建自定义模型
扩展之Tensorflow2.0 | 17 TFrec文件的创建与读取
扩展之Tensorflow2.0 | 16 TF2读取图片的方法
扩展之Tensorflow2.0 | 15 TF2实现一个简单的服装分类任务
小白学PyTorch | 14 tensorboardX可视化教程
小白学PyTorch | 13 EfficientNet详解及PyTorch实现
小白学PyTorch | 12 SENet详解及PyTorch实现
小白学PyTorch | 11 MobileNet详解及PyTorch实现
小白学PyTorch | 10 pytorch常见运算详解
小白学PyTorch | 9 tensor数据结构与存储结构
小白学PyTorch | 8 实战之MNIST小试牛刀
小白学PyTorch | 7 最新版本torchvision.transforms常用API翻译与讲解
小白学PyTorch | 6 模型的构建访问遍历存储(附代码)
小白学PyTorch | 5 torchvision预训练模型与数据集全览
小白学PyTorch | 4 构建模型三要素与权重初始化
小白学PyTorch | 3 浅谈Dataset和Dataloader
小白学PyTorch | 2 浅谈训练集验证集和测试集
小白学PyTorch | 1 搭建一个超简单的网络
小白学PyTorch | 动态图与静态图的浅显理解
<<小样本分割>>
小样本分割 | FSS1000 | CVPR2020
<<图网络>>
图网络 | Graph Attention Networks | ICLR 2018 | 代码讲解
<<图像质量评估>>
图片质量评估论文 | 无监督SER-FIQ | CVPR2020
图像质量评估论文 | Deep-IQA | IEEETIP2018
图像质量评估论文 | rank-IQA | ICCV2017
<<图像轮廓检测>>
轮廓检测论文解读 | Richer Convolutional Features| CVPR | 2017
轮廓检测论文解读 | 整体嵌套边缘检测HED | CVPR | 2015
<<光流与配准>>
医学图像配准 | SYMnet 对称微分同胚配准CNN(SOTA) | CVPR2020
光流 | flownet | CVPR2015 | 论文+pytorch代码
图像匹配 | NCC 归一化互相关损失 | 代码 + 讲解
医学图像配准 | Voxelmorph 微分同胚 | MICCAI2019
<<DA域迁移>>
域迁移DA |Addressing Domain Shift for Segmentation | CVPR2018
self-training | 域迁移 | source-free的域迁移(第一篇)
self-training | MICCAI2021 | BN层的source free的迁移
<<医学图像AI>>
医学图像 | DualGAN与儿科超声心动图分割 | MICCA
医学AI论文解读 | 超声心动图在临床中的自动化检测 | Circulation | 2018 | 中英双语
<<小白学图像(网络结构)>>
卷积网络可解释性复现 | Grad-CAM | ICCV | 2017
孪生网络入门(下) Siamese Net分类服装MNIST数据集(pytorch)
孪生网络入门(上) Siamese Net及其损失函数
图像分割必备知识点 | Unet++ 超详解+注解
图像分割必备知识点 | Unet详解 理论+ 代码
图像分割必备知识点 | Dice损失 理论+代码
3D卷积入门 | 多论文笔记 | R2D C3D P3D MCx R(2+1)D
小白学论文 | EfficientNet强在哪里
小白学论文 | 神经网络初始化Xavier
小白学论文 | 端侧神经网络GhostNet(2019)
小白学目标检测 | RCNN, SPPNet, Fast, Faster
小白学图像 | BatchNormalization详解与比较
小白学图像 | Group Normalization详解+PyTorch代码
小白学图像 | 八篇经典CNN论文串讲
图像增强 | CLAHE 限制对比度自适应直方图均衡化
小白学卷积 | 深入浅出卷积网络的平移不变性
小白学卷积 | (反)卷积输出尺寸计算
损失函数 | 焦点损失函数 FocalLoss 与 GHM
<<小白学机器学习>>
小白学ML | 随机森林 全解 (全网最全)
小白学SVM | SVM优化推导 + 拉格朗日 + hingeLoss
小白学LGB | LightGBM = GOSS + histogram + EFB
小白学LGB | LightGBM的调参与并行
小白学XGB | XGBoost推导与牛顿法
评价指标 | 详解F1-score与多分类F1
小白学ML | Adaboost及手推算法案例
小白学ML | GBDT梯度提升树
小白学优化 | 最小二乘法与岭回归&Lasso回归
小白学排序 | 十大经典排序算法(动图)
杂谈 | 正态分布为什么如此常见
Adam优化器为什么被人吐槽?
机器学习不得不知道的提升技巧:SWA与pseudo-label
决策树(一)基尼系数与信息增益
决策树(二)ID3,C4.5和CART
五分钟理解:BCELoss 和 BCEWithLogitsLoss的区别
<<小白面经>>
秋招总结 | 一个非Top学校的跨专业的算法应届研究生的几十场面试
【小白面经】快手 AI算法岗 附答案解析
【小白面经】 拼多多 AI算法岗 附带解析
【小白面经】八种应对样本不均衡的策略
【小白面经】之防止过拟合的所有方法
【小白面经】梯度消失爆炸及其解决方法
【小白面经】 判别模型&生成模型