润风拂过存甘霖

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

在科研中，有时看到两个研究类似问题的工作，会希望看看是否有后续工作对二者进行了比较和评价。比如，我听说XLNet和RoBERTa是两个很牛的预训练模型，但不知道他们孰强孰弱。那我们就想找找同时引用了它们的论文，看看别人是怎么评价比较他们的？然而，Google Scholar这类的流行的搜索引擎并不直接提供找到同时引用了两篇特定文章A,B的论文，这样的搜索功能，那么我们怎么实现这一点呢？

如何搜索同时引用了两篇特定文章的论文？

huggingface的transformers在我写下本文时已有39.5k star，可能是目前最流行的深度学习库了，而这家机构又提供了datasets这个库，帮助快速获取和处理数据。这一套全家桶使得整个使用BERT类模型机器学习流程变得前所未有的简单。

使用huggingface全家桶(transformers, datasets)实现一条龙BERT训练(trainer)和预测(pipeline)

在NLP领域，常识知识的使用越发成为热点，因为其有希望帮助克服现有模型的局限：它们仅从训练数据中学到的有偏的、浅薄的知识，而并不擅长像人一样进行真正的推理。

conceptnet-numberbatch: 结合常识知识的词向量 - 概述及使用

近年来，常识知识(commonsense knowledge)越发成为NLP领域，乃至多模态，跨学科的研究热点。尽管以BERT为代表的的预训练语言模型已经在实体识别、机器翻译、情感分析等任务上取得了亮眼的表现，它们在面对一些人类可以使用常识轻易解决的问题时仍然表现不佳，面对对抗样本时也极为脆弱。似乎这些模型知识只是学到了一些浅层线索和语义，而与人类的知识体系并不相同。因此，将常识知识融入机器学习中就成为了一个充满前景的解决方案。不过，如何抽取常识知识，如何利用常识知识，乃至如何定义“常识本身”依然是有待研究的难题。
 交大ADAPT实验室近年来正将研究兴趣专注于这一领域。在此过程中，我们也将自己的阅读加以筛选、归类和统计，整合成了一份论文列表，在GitHub上开源。

交大ADAPT实验室 | 常识知识论文列表

经典的深度学习引擎，如tensorflow和pytorch，其自身版本与CUDA版本有着严格的对应关系，一点点的不符都会使得程序无法运行。

tensorflow/pytorch临时指定CUDA版本，解决版本适配问题

在写AI/机器学习相关的论文或者博客的时候经常需要用到LaTex的公式，然而作为资深“伸手党”的我在网上搜索的时候，居然没有找到相关现成资源@-@

AI/机器学习常用公式的LaTex代码汇总

文字一般使用unicode等编码的形式在计算机中表示，但是其形态本身也很有价值。如果能够把文字转为图片，就可以做一些应用，比如：

python文字转图片（二值、RGB）以及numpy数组

发现网络上流传的关于困惑度(perplexity)大多数都是利用了N-gram或者主题模型的例子来阐述的。但是现在这个年代来学习这个指标的人多半都是想研究神经网络的，而两者的对困惑度的计算方法又很不同，这就不能不让人对“困惑度”感到“困惑”了。本人虽然才疏学浅，还是斗胆在这里尝试写一篇文章，试图用简洁的方式来梳理清楚其中的困惑。

困惑度(perplexity)的基本概念及比较多种模型下的计算（N-gram, 主题模型/LDA, 神经网络/RNN）

处理1需要文本清洗，处理2需要挖掘出人物别名，HarvestText提供了能够方便处理这些问题的接口：

用HarvestText自动识别实体及人物别名，用于实体链接分析

在做文本分类的实验时，找到一个微博的情感分析语料，但是其中保留了很多微博中的特殊符号，对于算法的训练来说不太有利。
 

Python正则表达式清洗微博文本特殊符号(网址, @, 表情符等)

使用nvidia-smi指令查看显卡信息，发现在最后出现了infoROM is corrupted at gpu这样的警告。

infoROM is corrupted at gpu解决方法

VS Code jupyter报错Error starting original kernel

sklearn: TfidfVectorizer 中文处理及一些使用参数

NeuralCoref: python的共指消解工具，向代词指代的问题进军！

NeuralCoref: 用指代消解来做一个“能多轮对话的问答对话机器人”

更少标注的机器学习方法——主动学习(python示例)

jupyter notebook黑科技——制作PPT式的演示文稿

深度学习哪家强？用数据来一较高下吧

在探索知识图谱的过程中，发现它可以做一个有趣的应用——文本自动注释。在此整理并分享给大家。为了具体说明它的效果，让我们先来看一个例子：

基于知识图谱的文本自动注释(python+html)

这一回，我们的目标是用pyDatalog与“知识图谱”交互。知识图谱是个很复杂的概念，但一般其中的知识都是以RDF三元组的形式存储的，所以我在这里实际上演示的是pyDatalog与RDF类三元组的交互。官网上没有提供这类问题的“标准解法”，下面的例子是我的一些思考，我也从中发现了用Datalog管理和维护知识图谱的一些特有优势：

pyDatalog: python的逻辑编程引擎【五：与“知识图谱”的交互】

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了润风拂过存甘霖专栏，为你提供了润风拂过存甘霖的相关文章，致力于帮助开发者快速成长与发展。

润风拂过存甘霖-腾讯云开发者社区

润风拂过存甘霖

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐