首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据与理论

今日读到陕西师范大学董艳丽的硕士论文《大数据的哲学研究》,她在论文中论述了“数据和理论”的关系:

在科学实践活动中,一方面,从科学研究发展的逻辑来看,理论往往源于对科学数据的精确分析及客观把握,高质量的数据往往能获得最接近真理的理论,数据成为人们认识世界的一种工具、方法或途径,由此,存在"理论源于数据"的观点。另一方面,理论对于数据研究的作用往往也不可小颇,理论虽然不能预测数据本身,但是可^^科学的预测数据的发展走向,有效地指导数据分析及其应用,如物理学研究领域中,理论对于参数P的长时间渗透作用。由此,相关学者提出了"数据渗透理论"的观点。实在论认为,很多科学理论近似为真或者逐步接近真理,很大程度上源于更多更好不断精确的数据的作用。证伪主义则认为,科学理论的发展模式是一种不断精致化、逐步完善的过程,从而涵盖更多的现象W及数据。在西斯蒙多来看,数据和理论之间的关系处于科学的核心、,数据的精确性特征将成为理论确立的可靠基础和依据,数据的精确性程度决定了理论接近于真的程度。他曾就数据与理论关系问题,总结了不同哲学学派的相关观点,不管是基于经验数据对理论的建构,还是基于理论数据对理论的理性拒绝,实证主义和证伪主义都认为,科学么所称其为科学,其典型特征在于,理论和数据之间具有某种形式关系。西斯蒙多对于数据与理论之间关系的分析,很大程度上是基于数据对于理论的功能性价值,确立了数据对于理论的基础性地位,在一定程度肯定了数据在认识事物过程中的客观性及可依靠性。关注、认识并理清数据与理论之间的相互关系,对于构建理论、认识数据意义重大。一般而言,在数据的收集W及处理的过程中,已有的理论W及假设中所掺杂的主观性成分,往往会影响数据的准确性W及客观性,因此,主体在数据产生过程中的作用值得探讨。从原始数据到衍生数据再到知识数据,对于研究主体理论基础的依靠将是逐步増强,因此,有必要谈论数据对于理论的依赖性。物理学研究领域中的著名实例,弱相互作用研究过程中,参数P随着年代逐渐发生变化,这在很大程度上源于理论数据对于实验数据的指导作用。在物理学科W及生物学科等逐渐进入精密化、微观化时代,数据源的大体量性、多元化成为必然趋势,对各种类型数据进行处理,理论的指导作用功不可没。因此,数据对于理论的依赖性不言而喻。一般而言,科学共同体对于一个科学理论的认可,很大程度源于数据与其间的某种稳定可靠联系。在实际的科学研究中,数据与理论之间的关系,的确也是相互依赖,互为基础,互相促进,不可分割的。

她的上述论述,让我想起了美国经济学家布鲁斯·考德威尔的《哈耶克评传》中论述的“理论与事实”的关系:

施莫勒说:创立一种能够把我这种事实演绎性理论结构的希望,只能留给遥远的未来。现在最紧迫的任务是仔细考察和搜集事实。这个事实是,现实世界是如此复杂。

马克思·韦伯在“客观性”一文中,同意施莫勒的观点,我们面对的现实“呈现无以复加的复杂性,各种事情相继发生、消失或同时存在。可是得出的结论大不相同。面对无限复杂的事实,我们不应当简单地搜集事实,而是必须从现实中选择我们感兴趣的部分:在当前的具体现实中,只有一小部分被染上了我们价值决定的兴趣色彩,只有对我们才是重要的。完全是由于这一点,也只有这一点,她的个别特点才值得我们知道。可是,我们无法通过对经验材料进行“没有预设”的研究,去发现对我们有意义的东西。。了解它对于我们的意义,是它成为研究对象的前提。

韦伯说:我们的观察必然受到兴趣和理论框架的干扰。甚至“纯粹的观察”也总是从某种角度的观察,根本不存在“事实本身”这种东西。用现代术语来说,我们当做事实的东西本身就“包含着理论”,因为他们反映着我们的自己事先的兴趣。

“可以从事实本身推导出观点——这种想法的一再出现,应当归因于专家们幼稚的自欺欺人。他们不知道它是来自评价性的观点,他是在不自觉地用这种观点研究自己的主题,他是从绝对无限的事物中选取了他所关心的一点儿事情进行研究。

请记住:卡尔·门格尔在描述”精确模型“和“真实模型”的区别时,也提出了类似的主张:这两种取向都包含着对先前就有的理论运用。可见,在承认所有概念化必然包含着理论抽象的运用这一点上,韦伯和门格尔站在了一起。

韦伯建议,门格尔所说的精确模型,最好用一个概念来代替,就是“理想模型”。理想模型从无限丰富的事实中选取研究者感兴趣的典型点。理想模型不是对客观事实的描述,而是韦伯所谓的“乌托邦”或者一种“纯粹理想的有限概念,用来与现实条件进行对比。

现实无限复杂,研究者的兴趣各不相同,而且因时而异,所以既定的现象能够导致无限多的理想模型建构。

门格尔说过,理论从来都是观察具体现象的一个方面,而精确理论是要考察它最典型或者最本质的方面。韦伯借助于李凯尔特关于面对无限而非理性现实时的概念形成的意识,超越了门格尔,他主张所有的描述都包含着理论。他也用理想模型取代了精确模型,它不看重现象的本质的方便,而是挑选出研究者最感兴趣的方面。

韦伯坚持认为:他的另一个主张也同样重要:一切观察都是以事先就有的理论为前提。这种”理论涵摄其中“的假说,由于库恩主义的革命,在二十世纪后半叶,成了科学哲学的共识。其实,在库恩之前的波普尔的著作里就有论述,波普尔有个著名的做法,他让自己的学生观察教师,并写下来他们看到的东西,他发现,如果不做知道,他们看到的东西是不一样的。

笔者认为,理论在伽达默尔那里就成了“前见”、"先见"、“前把握”,这些东西是认识和理解的前提。

伽达默尔说:诠释学循环的可能性和自由在如下情况一下才得到真实的理解,这就是解释的理解首要经常的和最终的任务始终是不让向来就有的“前见”和“前把握”以偶发奇想和流俗之见的方式出现,而是从事情 本身出发处理这些前见和前把握,从而保持论题的科学性。

对前筹划的每一次修正是能够预先做出一种新的意义筹划,在意义的统一体明确之前,各种相互竞争的筹划可以彼此同时出现,解释开始于前把握,而且前把握可以被更合适的把握所代替,证实这种不断进行的新筹划过程,构成了理解和解释的意义运动。谁试图去理解,谁就面临了那种并不是由事情本身而来的前见解的干扰,理解的经常任务就是做出正确的符合事物的筹划,这种筹划就是预期,而预期应当是“由事物本身”才得到证明。

如何理解前见?

比如说:哪儿有一棵树。

这句话如果说给我这个山东聊城东阿人,我首先想到的可能是我们老家司空见惯的杨树、柳树或者枣树。

但是,如果这句话说给一个东北人,他首先想到的是应该是林海雪原里的松树。

如果说给一个海南人,她想到的可能是椰子树。

这些都是他们对“树”这个概念的“前见解”。

但是,当他们发现摆在他们面前的是一棵松树的时候,他们就修正了自己的见解,将自己心目中“树”的概念的外延进行扩大,然后形成新的前见,继续进行理解和认识。

启蒙运动试图消除这种前见。

伽达默尔说,消除一切前见,这一启蒙运动的总要求本身就被证明是一种“前见”,这一前见不仅统治了我们人类的天性,而且同样支配了我们的历史认识,而扫除这一前见就必然为某种正当理解有限性开辟了道路。

伽达默尔说,前见是理解的条件。

为何这么说?

比如,犯罪分子涉嫌虚开发票犯罪,我虽然不知道他是如何虚开的,但是,我研究了虚开犯罪的行为方式,我对此犯罪分子的虚开犯罪了解一些,或者我做了一些调查工作,取得了一些进展,但是没有完全查清楚,此时就是“灰箱”。

我想让犯罪分子当警察侦查案件最合适了。

比如,高明的杀手,让他当警察侦破杀人案最好了。

警察的经验和知识具有滞后性。比如,警察办理了五起杀人案,手法各不相同,警察的知识和经验也就是从这五起案件通过归纳法获得的经验。此时,警察的经验和知识总是滞后于犯罪分子。

警察根据这五起案件,开发了一个“数据模型”用于侦查其他杀人案件,但是,其他杀人案件的杀人手法发生了重大的变化,数据模型不一定能够识别得了其他杀人案件。

这个数据模型,就是一个“理论“,或者是一个”前见“。人们分析数据都会带着“理论”,笔者认为,理论就是分析数据的“眼光”或者“着眼点”。

比如,我们调取了一个虚开案的各种数据,这些数据摆在了侦察员面前,如何去分析?

侦察员办过一系列的虚开案,发现这些虚开的共同点就是资金有回流。

此时,我们做出假设:这起案件的资金也应该有回流。

这个假设就是“理论”,就是”前见“,就是“眼光”,也是人工智能的“算法”或者“模型”,也可称为办理案件的“着眼点”。

这个“理论”的获得,是侦察员通过归纳获得,这是个归纳法问题。

警察办理的五起案件自己有回流,于是我们可以得出结论:虚开案件的资金一般来说都有回流。

此时,一个理论就形成了。

理论,是伽达默尔所说的“先见”。

有人说,数据是中性的,如果数据是中性的,你从哪里着手分析数据?

当数据进入人们的视野,数据就带上人们的价值观、各种偏见、或者先见等等。

此时,数据就不是它了。

笔者曾经写过一篇文章《当事物进入人类的视野,它就不是它了》。

因此,任何对事物的认识都包含理论,也不能排除前见,只是在这种理论或者前见的指导下,去认识并理解事物,当遇到新情况的时候,会形成新的理论和前见,从此循环往复,从而形成一个“诠释学循环”。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201001A07SSG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券