
DOE(Design of Experiments)是一种实验设计方法,用于探索和验证因素对结果的影响。在DOE中,通常会将实验分为多个组合,每个组合都会控制一个因素,并测量其对结果的影响。通过这种方式,可以更全面地了解因素对结果的影响,并确定最佳因素组合。
下面是DOE的基本步骤:
①确定实验目标和因素:确定实验的目标和要探索的因素。这些因素可以是自变量,也可以是因变量。
②设计实验设计:根据实验目标和因素,设计实验方案,包括对比组、试验处理、因素水平等。
③选择试验处理:选择适当的试验处理方法,包括平行组、重复组等。
④进行试验:按照设计好的实验方案进行试验,并记录数据。
⑤分析数据:对试验数据进行分析,包括统计方法、图表制作等。
⑥得出结论:根据分析结果,得出关于因素对结果影响的结论。
⑦优化实验设计:根据结论和实验数据,优化实验设计,以提高实验的准确性和可靠性。
⑧重复实验:在得出结论后,重复进行实验,以验证结论的准确性和可靠性。
著名DOE专家乔治·博克斯说:“如果能使我们的工程师开始学习运行一个简单的实验,将会极大地刺激他们的胃口。哪怕这是他们唯一掌握的数据驱动的方法,也将极大提升实验的效率、创新的速率以及整个国家的竞争力。”
DOE是一门复杂的高级统计技术,了解基本的统计知识是必要的;
课程提供了详实清晰的实现DOE的路线图和说明,你必须了解其中的要求和准则;
以探究和互动的方式来推动学习,提倡多提问,但不是质疑统计学以及应用准则,你可问“为什么”?
带着问题学习,最好能事行准备工厂数据到课堂来讨论;
携带电脑,安装MINITAB——以帮助学员进行DOE计算与建立分析模型,并加深统计学原理,解决实际问题。
第一单元 实验设计原理
第二单元 正交实验设计与Minitab
第三单元 全因子实验设计
第四单元 部分因子实验设计
第五单元 响应曲面实验设计
第六单元 筛选实验设计
第七单元 DOE归纳与提升
制程中复杂的自变量X与输出响应Y是怎样地发生作用的?哪些X对Y影响大?哪些对Y影响小?
制程参数应如何设定才能获得最理想的过程输出Y的最佳值?
长期的品质问题得不能解决,同类质量问题反复发生,原因到底是什么?有什么可行的方法能够解决企业质量问题的“顽疾”?
答案是肯定的,那就是DOE。
DOE:Design of Exprements 实验设计,在质量控制的整个过程中扮演了非常重要的角色,它是改进产品质量、产品设计开发和工艺流程改善的重要工具。
实现设计由于其强大有效的功能,已广泛运用于冶金、制造、化工、电子、医药、食品等行业,直至航天业。
它是一种安排实验和分析实验数据的数理统计方法。
计划安排一批试验,并按照计划在设定的条件下进行这些试验,通过改变过程的输入变量,获得新数据,然后对之进行分析,获得我们所需要的信息,从而得出科学的结论,并据此作出合理有效的决策。
1920年,实验设计技术最早是由英国统计学大师费歇尔(R.A.Fisher)所创立,首先将其应用在农业试验,目的是为提高农业产量。
1947年印度的劳博士(Rao,D,R)发明并建议使用正交表规划具有数个参数的实验计划。
英国统计学家乔治·博克斯(George Box)发展了响应曲面方法(RSM),使得DOE的应用步入一个黄金时代。
二战后,日本质量管理大师田口玄一研究开发出“田口品质工程方法”,简称田口方法。从而极大提升了日本产品品质及日本产业界的研发设计能力,成为日本质量管理最重要的工具。
实验设计是检测、筛选、证实原因的高级统计工具,是利用整个统计领域的知识来理解流程中普遍存在的复杂关系。
它不仅能识别单个因素影响,而且能识别多个因子的交互影响。
DOE通过安排最经济的试验次数来进行试验,以确认各种因素X对输出Y的影响程度,并且找出能达成品质最佳因子组合。
DOE是进行产品和过程改进最有效的强大武器!
原来大学教授传授一种试验方法,至今仍被传统的工程师所沿用。在这种老式的试验中,一次只有一个变量变动,而其他变量均保持恒定。
①试验周期过长,需要花费大量时间和金钱;
②致命弱点是不能把主效应从交互效应中分离开;
③结果是不断受挫折、恶性循环和增加成本。
①可同时变动和测试多个变量的影响;
②实验次数少 L8(2^7)=128次(全部组合);
③效果最好最可靠;实验周期最短;成本最低。
概念:一个处理施于多个单元。简单讲,就是指相同的试验条件需要重复进行2次或以上的实验。
作用:估计随机误差
常用的策略是采用中心点。
------------------------------
概念:以完全随机的方式安排试验的顺序。
目的:防止出现系统差异的影响。
------------------------------
概念:一组同质齐性的实验单元(运行)称作一个区组,将全部实验单元划分为若干区组的方法称为区组化。
作用:区组也是一个变量因子,使实验分析更为有效。
例子:上午与下午有差异、跨度很长的时间分段……
目的:检测因子(自变量)对响应Y的影响程度——祛除非显著因子,保留显著因子。
方法:筛选设计、分部设计
------------------------------
目的:特征化处理,检测因子的主效应和交互作用,建立Y对X的关系式——回归方程。
方法:2^k析因设计
------------------------------
目的:寻找“最佳区域”,确定使响应Y值最佳时X的设置条件(因子水平的最佳组合)
方法:响应曲面设计RSM
①新产品研制开发;
②产品设计参数优化;
③为产品选择最合理的配方;
④过程设计与优化,寻找最佳生产条件;
⑤提高老产品质量或产能;
⑥用于质量改进,解决长期质量问题。
它是实验中产生结果的一项经济有效的方法。
实验设计是一项安排,以便于实验的进行。而实验则是一项研究方法,择定数项独立变量做随机变动,从而确定其效应。一项良好的实验,可以使实验的结果获得简明的解释,可以确定各项因素的主效应,也可据此确定各个因素间的交互作用。
一般情况下,实验计划由正交表实现。

3因子2水平实验计划表(比如+表示是、正确等,-表示非、错误等)
------------------------------
响应:亦称指标、质量特性,是在实验设计中可以测量的系统输出,一般以Y表达。
输出响应Y可以是计量型指标和计数型指标两种表达方式。
------------------------------
因子:指系统或过程输入变量。是工程师需要研究或设定的对象,借以说明响应的大小。
因子有两种分类方法:
定性因子的水平被限制为个数,没有什么固定顺序,如操作者或材料等;
定量因子则可取连续值(如温度、压力)的因子。
水平:在进行每一次实验时,每一因子至少应从两个层次进行研究,称其为因子的水平。例如温度可能其应用的范围是210℃~230℃,这两个值可以作为因子温度的水平。
重要提示:因子的水平数至少应取2个
表达方式:
若为2个水平:高水平+1;低水平-1;
若为3个水平:由低到高,依次用1、2、3表达。
------------------------------
主效应:一个因素对输出响应的影响。

交互作用:两种或以上的因素共同对输出响应值的影响。

因子的交互作用:一文轻松看懂交互作用。
如何正确的选择因子及水平,完全依赖于工程师的经验以及他对过程的理解。
在头脑风暴/鱼骨图分析的基础上,选择所有主要的因子,而放弃哪些显然不重要的因素。
因子水平取值应尽可能地分散,但不要过于分散,以便对分析造成不利影响。
水平取值的建议:以现行操作值为中心点,再来确定控制范围内的最大值和最小值。


DOE提供了一套组织和表达数据的方法——结构化的矩阵表,按此方式提供数据:试验条件X和实验结果Y;同时为建立数学模型下达指令:要考察哪些因素,而哪些因素则不需要列入模型。
第Ⅰ类错误:记为α,也称显著性水平。拒绝一个正确的假设或结论的概率。
第Ⅱ类错误:记为β。接受一个错误的假设或结论的概率。
置信度:记为1-α。
α一般取值:0.01、0.05、0.10,系统默认值0.05。
------------------------------
正态分布又称高斯分布,它是质量工程中运用最广泛的连续分布,是质量管理最核心的统计基础。
正态分布图形/概率密度函数:


详细的正态分布介绍:https://zhuanlan.zhihu.com/p/128809461。
小明每天上学的通勤时间是一个随机变量X,这个变量服从正态分布。统计他过去20天的通勤时间(单位:分钟):26、33、65、28、34、55、25、44、50、36、26、37、43、62、35、38、45、32、28、34。现在我们想知道他上学花30~45分钟的概率。
首先,我们将问题转化为数学表达式,计算其上学花30~45分钟的概率,就是求P(30 < X < 45)。一个变量服从正态分布,立马考虑到它的均数和标准差是多少。这里我们简化一下用他过去20天的样本数据来代替。所以,我们首先计算这20天通勤时间的样本均数及标准差。以下通过Excel计算:样本均数=38.8(分钟),标准差=11.4(分钟)。

然后,我们进行标准化,这一步很重要,也称Z变换。通过标准化,所有服从一般正态分布的随机变量都变成了服从均数为0,标准差为1的标准正态分布。对于服从标准正态分布的随机变量,专门用Z表示。因此,求P(30 < X < 45),就转换成了求P(-0.77 < Z < 0.54),标准化的具体计算如下。
经过标准化后,原来的曲线的形状不会变化,也不会改变胖瘦,只是位置发生平移。
------------------------------
一组数据用图形来表示,就叫做分布。用正态分布来描述一个过程。

分布的3个特征是帮助我们理解过程的关键!
------------------------------
虽然理论上正态随机变量可以取无数个值,定义域是整个实数轴,但实际上在[-1,1]这个区间就包含了它可以取的68%的值,[-2,2]区间包含了95%的值,[-3,3]包含了它可能取的99.73%的值。


------------------------------
包括系统误差与随机误差
试验总误差=条件误差+试验误差
条件误差:指由于试验条件(因子及水平)的变化引起的误差。
试验误差:除试验条件以外不可控的偶然因素引起的误差。
------------------------------
(1)方差分析(ANOVA)
它是假设检验的扩展,主要用于分析实验结果,它将所有组间误差与试验误差分离开来,然后分析检验其统计的显著性:因子显著性;拟合回归的显著性。
----------------
(2)方差分析的基本模式

显著性检定指标——P value
DOE分析的一个主要目的就是要区分哪些因子是关键的,哪些是次要的。这需要复杂的统计计算与检测,但Minitab给我们一个简便的方法——P值判定。

通过P value,我们还可以判断:
该项是否属关键因子(P<0.05=是)?
该模型是否属呈现弯曲(P<0.05=是)?
该模型拟合是否有效(P<0.05=是)?

------------------------------
回归分析:一种统计方法,它通过计算变量之间的相关系数进而估计X与Y之间的联系公式。
直线回归方程的一般形式是Y=a+bx
Y不但与多个自变量X1、X2……有关,还与AB、AA等类型有关,实际运用中令这些项为新的自变量,就可以化为多元线性回归方程。
因子试验设计应用的是一次线性回归方程,其基本表达式为:

其中将二阶项AA或交互项AB等,都看成是一个新的自变量X……
响应曲面设计应用的是二次曲面回归方程,其基本表达式为:

它是日本战后质量管理的重要工具,上世纪70年代传入我国,在冶金、化工、电子、机械、纺织、医药等行业得到广泛应用。
主要手段是运用正交表。
目的:进行工艺参数设计与优化及其质量改进
优点:运用范围广;因子及水平数不受约束;方法简单易行,可手工操作,也可电脑操作。
它是一种规格化的表格,也是实验计划,从一般意义讲,只要掌握正交表的运用方法就可达到DOE目的。表达方式如下。

关于正交的详细描述移步:信号与系统3-傅里叶变换与频域分析有关内容。

正交表案例:正交实验设计过程。
------------------------------
分布均匀:任一列中,任一因素的水平(状态)出现的次数相同。
整齐可比:任两列中,任意一个水平组合出现的次数相同。
如果上述条件中的任一条不满足,则不再是正交表。正交表的获得有专门的算法,对应用者来说,不必深究。
磁鼓电机是彩色录像机的关键部件之一,国外同类产品的力矩指标规定大于210g·cm。某厂工程师以这个水平做依据,对电机质量进行调查,不合格率为23%。决定利用试验设计,提高电机的输出力矩。
一切从简单入手:正交设计是DOE体系中简单实用的一种方法,通过本案例——了解DOE的基本概念、机理和操作步骤。
步骤1:明确品质改善和试验目的,本试验目的是提高磁鼓电机的输出力矩,属于单响应正交实验设计。
步骤2:选择响应变量(即品质特性)。
注意区分指标的三种情形——望小、望大、望目,这是正交实验也是田口方法的特点。
本例用输出力矩作为考察指标,是一个望大特性,要求越大越好。
步骤3:确定因子及水平
工程人员分析认为,影响输出力矩要有3个因素:充磁量、定位角度及线圈匝数,根据以往经验,分别确定了三个水平。此3个因素的排列组合为3*3*3=27种。通过Excel制作的因子水平表如下。

步骤4:制定实验计划(选择正交表)
打开Minitab建立正交表。



步骤5:进行试验,测定试验结果
(1)按照表2.2.2做试验

通过直观法可以确定实验号5的效果最好,但看不出影响的程序,即哪个显著、哪个次之,不能明确效应大小。将实验结果填入Minitab的C4列,如下图所示。

填入实验结果的正交表
正交表移步:https://download.csdn.net/download/liht_1634/88056440。
----------------
(2)试验要点
①试验的顺序应当随机化;
②每次试验的环境条件基本相同;
③确定样本大小:计量数据3个,离散数据50;
④不仅记录响应数据,还应包括环境数据;
⑤确保计量系统可信(MSA);
⑥填列数据时要仔细,不要错位。
步骤6:建立模型,分析数据
分析数据就要事先建立数学模型——这是DOE方法的基本策略;
本步骤要做两件重要的工作:
A、通过计算整理,编制“均值分析表”;
B、手工绘制一份“主效应图”。
均值分析:计算各因子每一个水平对Y的贡献(均值)

通过Excel进行均值计算:

本结构化矩阵表下载移步:DOE实验设计结构化矩阵表。27个排列组合中取出9个组合,其有一定的局限性。
R/效应的计算:因子的主效应=因子为高水平时输出的平均值-因子为低水平时输出的平均值。
通过Minitab产生均值响应表与主效应图:





确定后即可生成均值响应表与主效应图:


效应:某因子由于其水平的变化而给Y带来的影响,以其平均值的极差表示。
步骤7:分析数据,作出试验结论
(1)选优准则
若是望大特性:则取最大响应所对应的水平;
若是望小特性:则取最小响应所对应的水平;
若是望目特性:则取适中响应所对应的水平。
(2)工程推断
显著因子排列:B - A - C,参照均值分析表;
最优因子水平组合:A2 B2 C3,参照效应分析图。
最佳工艺设置:充磁量1100;定位角度11;线圈匝数90。
充磁量、角度、匝数三个试验因素对输出力矩的影响在统计学上是不是显著,那么接下来需要进行方差分析。



最简单直接的解读方法是直接看最后一列,概率p值。发现仅角度的p值小于0.05,也就是说统计上认为角度对试验指标转化率有显著影响,统计上有意义。其他两个因素影响相对较小。
现在角度在统计上认为是一个相对很重要的因素,它下设3个水平,请问这3个水平差异表现如何?该选谁作为优水平呢?所以,需要多重比较。
Minitab是美国MINITAB公司发明的当今世界功能最为强大的统计软件。
Minitab统计软件为质量改善和概率应用提供准确和易用的工具。它被许多世界一流的公司所采用,包括通用电器、福特汽车、通用汽车、3M、LG、东芝以及Six Sigma顾问公司等。
作为统计学入门教育方面技术领先的软件包,Minitab也被4000多所高等院校所采用。
------------------------------
实现六西格玛改进的工具;打开统计奥秘之门的钥匙;运用软件让我们成为专家。

------------------------------




全因子设计:指所有因子及水平的所有组合都要至少要进行一次试验。
将k个因子的二水平试验记作2^k试验。
当k=4时,试验次数m=2^4=16次
当k=5时,试验次数m=2^5=32次
当k=7时,试验次数m=2^7=128次
……
全因子设计是DOE方法体系中的典型代表。
运用了两大统计功能——方差分析和回归分析
方差分析——检测并区分组间误差与试验误差,借以确定因子的显著性——自变量X对Y的影响。
回归分析——建立回归方程Y=f(x)进行方案选优。
------------------------------
最重要的目的——用于全面分析系统(产品或过程)中所有因素的主效应和交互作用;也是选优的有效工具。
1)约束条件
因子总数≤5个;
因子水平数且只能是2个,即(-)和(+);
中心点设置好:2~4个(不是必须的,试验次数也将相应增加)。
代码 | 低-1 | 高+1 | 中心0 |
|---|---|---|---|
实际值 | 200℃ | 300℃ | 250℃ |
设置中心点的意义:
“重复试验”的要求,增加中心点是一个较好的试验安排。
增强了统计分析能力(评估实验误差及弯曲趋势的能力)
------------------------------
中心点设置次数:2~4个
根据实验目的和实验成本综合考虑。
系统自动生成水平代码值(-1、0、1)
好处:有连续变量和无量纲特点,有利于统计分析和建立回归方程
低水平L | 中心值 | 高水平H | |
|---|---|---|---|
真实值 | 100 | 150 | 200 |
代码值 | -1 | 0 | +1 |


第一次建模:(拟定初选模型)
考察所有的因子,但不考虑三阶(如ABC)及以上的项,此法则适用于所有模型。
第二次建模:(简化模型)
利用初级模型分析的结果,删除非显著因子,只使用显著因子来构建较小的更好的模型;
是建立Y对X的回归方程和优化器分析的基础。
------------------------------
Minitab回归分析与方差分析,生成供我们分析的信息——工程师要学会解释这些数据并作出正确的决策。
包括6项分析指标:
①总效果【H1:模型有效 P<0.05】
②弯曲【H0:无弯曲 P>0.05】
③失拟【H0:无失拟 P>0.05】
④拟合相关系数 R-Sq及R-Sq(adj)(预测的)越接近1越好;二者之差越小越好
⑤标准差S分析 越小越好
⑥因子效应显著性
P值判定【H1:模型有效 P<0.05】
图形判定(正态效应图/帕累托效应图)
目的是探讨工艺条件对产品强度的影响,并试图提高产品强度。计划在试验中安排4次中心点,因子水平表如下:

步骤1:确定设置试验计划

步骤2:安排试验-实验计划与数据表

步骤3:一次建模——拟合模型

如何构筑模型(第一次/全模型)
T设置:将需要考察的项目列入模型——包括所有的主效应和二阶项,如A B C AB AC BC,但不考察三阶及以上的项,如ABC。

一般情况下,均不考察三阶及以上的项!本法则适合于任何设计模型。



什么是残差?
残差是响应观察值与模型预测值之差别。
为什么要进行残差分析?
只是进行ANOVA和回归分析并不能保证模型符合实际情况,只有残差分析正常,才能判断模型有效。
如何进行残差分析?
残差分析是通过4个图形工具来进行的。










举个生活中的例子,相信大家都吃过爆米花,但是大家是否都了解爆米花的制作过程?在品尝爆米花的时候,不知道您是否注意到有很多爆米花没有爆开,也有很多被爆焦。这两种情况都是生产过程中的质量缺陷。
主要因子:
1 )加工爆玉米花的时间(介于 3 至 5 分钟之间);
2 )微波炉使用的火力(介于 5 至 10 档之间);
3 )使用的玉米品牌( A 或 B )。
响应:玉米的 " 爆开个数 " 或“爆开率”。
在爆玉米花时,我们希望所有(或几乎所有)的玉米粒都爆开了,没有(或很少)玉米粒未爆开,这是最终关注的重点。
试验设计的主线是根据因子的取值范围,进行多种参数组合,如下图为两水平试验组合,形成多次试验的方案,依次进行试验后,通过试验结果分析,确定哪一种参数组合是最优的。
利用最小二乘法等拟合方法,建立响应与多个因子之间的数学模型,亦称响应面模型。


最终通过试验设计确定:使用 A 品牌,加工 5 分钟,并将火力调为 6.96 级。试验预测在此种设置下加工,产出的玉米粒 445 个全部都爆开了。
本文的试验既可以是实物试验,也可以是仿真,在可靠性设计分析中,试验设计常用于解决无法建立显式的可靠性模型等问题,起到事半功倍的作用。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。