如果给出一个调查来确定总体客户满意度,并且有20个一般性问题和一个最终总结问题:“您的总体满意度1-10是多少”,如何确定哪些问题与总结问题的答案最相关?
简而言之,哪些问题实际上很重要,哪些问题只是在调查中浪费空间……
发布于 2013-01-18 04:13:28
关于某些特征的相关性的信息由与这些特征相关联的线性分类和回归权重给出。
对于您的特定应用,您可以尝试训练L1或L0正则化回归器(http://en.wikipedia.org/wiki/Least-angle_regression,http://en.wikipedia.org/wiki/Matching_pursuit)。这些正则化器强制许多回归权重为零,这意味着可以有效地忽略与这些权重相关联的特征。
发布于 2013-01-18 03:43:32
有许多不同的方法来回答这个问题,并且有不同的复杂程度。我会从计算所有两两组合的答案的相关矩阵开始,从而指出哪些单独的问题与总体满意度得分最相关(或最负相关)。在使用the Analysis ToolPak.的Excel中,这非常简单
接下来,我将研究集群技术,从简单开始,只有在必要时才会更复杂。不知道任何关于这个调查数据应用的领域,很难说哪种算法是最有效的,但是对于初学者来说,如果你的集群可能都是相似大小的,我会看看k-means和变体。但是,如果绝大多数响应非常相似,我会考虑基于期望最大化的算法。用于探索数据和测试各种算法有效性的一个很好的开源工具包称为Weka。
https://stackoverflow.com/questions/14386335
复制相似问题