主流or非主流,用户来投票!
伴随着生物科学相关领域的技术进步和不断发展,生物信息学领域涌现出海量的数据分析软件工具。这些软件类工具的出现,无外乎以下几类:
(1)追求更高的分析准确度
(2)追求更快的运行速度
(3)追求性能
(4)大神出品
(5)追求高分文章
百花齐放,欣欣向荣。
近日,著名的基因组研究类期刊《Genome Biology》就发表了一份研究报告,利用大数据分析,系统评估各类工具的表现,给广大生信分析者提供了重要的参考。
研究者选取了大量独立软件进行基准测试,以评估上述的软件速度与软件准确性间的平衡,并针对一些外部因素(诸如速度、准确性、作者声誉、期刊影响、新近度和开发团队影响力)是否对软件的选择及准确性造成影响进行了分析评价。
研究结果发现,高引用率、高使用率等关键性指标与作者、杂志影响因子高低等并不相关。查看github上面的版本更新频率、用户留言(issue)数目是优秀软件的关键指标;而软件工具发表的文章档次反而不重要,即用户会自主根据使用效果进行投票——充分的市场竞争。
图片说明:研究者以heatmap图和小提琴图分别展现了数据分析软件工具的准确性与一些引用指标、外界因素和速度之间的相关关系(A图),及不同软件的特征(B图)。
研究还发现运行缓慢、准确不高的生物信息学软件工具使用频率也不高,表明科研工作者都是理性的使用群体,效率是当前的最重要考虑因素之一。
图片说明:研究者以heatmap图和小提琴图指示软件在可能的精确度与速度排名范围内的相对匮乏或丰富程度(A图)以及Z-值评价比较结果。
结论:专业研究结果表明,准确的生物信息学软件是需要长期更新,不断升级开发的产物。此外,研究假设生物信息学软件存在发表偏见——在速度和准确性方面处于中等水平的软件可能难以发布——这可能是由于作者,编辑和审阅者的实践经验选择偏好。这在文献中留下了一个不幸的漏洞,因为理想的工具可能没有被纳入分析或因为各种原因未能有报导。如果精度高的工具速度较慢,则很有可能并不被选用,而如果软件的结果不够准确,则即便其运行速度快,也没有什么应用价值。
领取专属 10元无门槛券
私享最新 技术干货