前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >非常实用!大数据分析中,如何做文献精准检索?

非常实用!大数据分析中,如何做文献精准检索?

作者头像
Mark Chen
发布2020-11-17 15:42:25
1.7K0
发布2020-11-17 15:42:25
举报
文章被收录于专栏:聊点学术

关键词:SCI论文;大数据分析;文献检索

最近后台请我们做大数据分析的留言非常多。

其实,我们每次做临床科室大数据解析的时候,都战战兢兢、如履薄冰。因为担心会有漏检,或者出现错误。

很多朋友也发信问,我们如何做大数据分析。其实大数据分析只是手段,分析的内容是PubMed检索结果

就如我们说meta分析是trash in, trash out。如果分析的原始文献做的很差,那么meta分析技术再好,分析结果也是不可靠的。

大数据分析也是如此,检索是最重要的环节。如果检索不规范,那么分析结果也只能增添笑料。

所以我们就以正在进行的针对“内分泌科”的检索为例,说明我们检索中遇到的问题和处理方法。

1,检索过程中,遇到最常见问题是:作者姓名和单位拼写不统一。

论文发表时作者及其单位的标记方式不准确或者不统一,是检索过程中遇到最多的问题,导致检索报告中不能认为这是一个单位或者一个人。

1),姓名拼写不一致。

大都是在名为两个字时,英文拼写名字是否加横杆,造成了不一致。比如张三丰,英文拼写为Zhang, Sanfeng,还是Zhang San-feng,少见情况下还有Zhang San Feng。

比如之前在解析放射科时,有群友留言:徐辉雄教授也非常有名。我们复查时发现,徐教授有两个英文拼写方法和单位,分别是:

Xu, Hui-Xiong,单位是The First Affiliated Hospital, Sun Yat-Sen University, The Center of Guangdong Province for the Study of Diagnostic Ultrasound and Interventional Therapy;检索到42篇论文,积分98.6分。

Xu, Huixiong,单位是Shanghai Tenth People's Hospital Tongji University School of Medicine Shanghai;检索到9篇论文,积分91分。

合起来排名会非常高,进入到前三名。但是分开就会落在后面。

姓名如何拼写是标准的?

这个问题,我们在20年前丁香园论坛里就做了好久的讨论,当时比较一致的意见是“Zhang San-feng”。我当时就支持和采用了这种拼法,所以早期发表的SCI论文都是有一个“-”,但是现在看,这个拼法是不规范的。

正确的方式,是护照的拼写规范:Zhang Sanfeng。

2),单位的英文拼写问题非常多。

比如我们之前的追问“浙江大学医学院附属第一医院究竟有几种英文写法?”。其大学、医院、英文网站、logo等都不统一。

正确的方法应该是,采用机构给出的统一规范的英文拼写。

2,以内分泌的检索时遇到的问题为例。

在初检中,我们发现瑞金医院内分泌科的论文发表数量连国内前十名都排不进。这和我们的感觉很不一致。我们做了如下调整:

1),完善“内分泌科”的检索词。

我们做的第一步是从科室的名称入手,完善检索词。特别针对如瑞金医院内分泌科是“内分泌代谢病学科”这些科室信息,做了补充。

其他检索,通常只需要一个检索词,如Radiology;但是针对内分泌科,我们最后不得不用了如下检索词:

"Endocrine"[Affiliation] OR "Endocrinology"[Affiliation] OR "metabolic diseases"[Affiliation] OR "Diabetes"[Affiliation]

2),排除干扰检索词。

我们在核对大数据分析结果是,发现应用上述检索词,中国内分泌科最知名教授中排名第一的是:

Qiao, Jie,Department of Obstetrics and Gynecology, Beijing Key laboratory of Reproductive Endocrinology and Assisted Reproductive Technology and Key Laboratory of Assisted Reproduction, Ministry of Education, Center for Reproductive Medicine, Peking University Third Hospital

这显然不对。

仔细看,哦,Qiao, Jie的科室中有生殖内分泌学(Reproductive Endocrinology)。

所以,我们针对检索结果进一步把“Reproductive”等干扰词汇排除出去。

尽管如此,我们发现瑞金医院发表的论文数量还是远远低于其他医院。

3),合并“医院”的检索词。

找一个医院发表论文时的单位拼写方法,以一个代表性专家是最有效的。所以我们就以“ning, guang[Author]”做了检索,结果让人大吃一惊。

瑞金医院在我们的文献鸟App中竟有16个不同的英文拼写方法。

其实文献鸟单位拼写都是来自于Medline数据库,这意味着在Medline数据库中,瑞金医院的表达方式也多种多样

所以我们的同事对这些不同的拼写的输出结果做了合并。

4),排除非SCI期刊。

考虑到Medline最近几年把中华系列杂志收录进去,大部分中华写了的中文期刊大不被是SCI收录。所以在进一步的检索中尽可能排除中华系列杂志。

4),双重核对。

尽管完成了上述3步,仍然显示瑞金医院内分泌发表的SCI论文不是很突出。

所以我们再次通过PubMed检索平台进行检索,看看2018年之后与北京协和医院相比,瑞金医院发表的论文总数。

结果显示,2018年之后,北京协和医院内分泌科发表了510篇SCI论文,而瑞金医院大概发表了285篇SCI论文。 之所以用大概,是因为我们可以合并我们的文献鸟App中瑞金医院的不同英文拼写,却无法修改Medline数据库中瑞金医院的不同英文拼写。

然后,再次用文献鸟进行核对。对检出的结果按照第一单位区分,发现其中的152篇标记为瑞金医院为第一单位。

这个结果,与我们最后进行分析的论文数量一致。说明我们没有漏检。

在这个检索基础上,我们就可以继续进行大数据分析了。

Ending

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 聊点学术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档