我正在尝试使用统计模型为熊猫数据框架中的每个“组”运行单独的逻辑回归,并保存每个观察值(row)的预测概率。每个“组”代表大约2500名受访者或观察者;我希望获得每个受访者的预测概率-类似于使用SPSS在运行逻辑回归时可以“保存”预测概率。
我读过其他人尝试过的方法,但似乎都不起作用。我正在使用SPSS来检查Python中的循环操作是否工作正常-预测的概率应该是相同的(SPSS有一个拆分函数,这使得这一点非常容易)。
import pandas as pd
import numpy as np
from statsmodels.formula.api import lo
我有一只熊猫,它看起来像:
location skills
0 Washington excel
1 Chicago
2 West Lebanon r excel
3 Midland
4 Washington sql java
5 Cincinnati sql java scala python.
6 Dover sas sql r spss
7 Dover sas c++ spss
当然还有更多的行。我想得到每个位置的“技能”列中每个唯一字符串的频率。
例如
我的背景是数据库和SQL编码。我用过一点SPSS中的CTABLES特性,主要是用来计算百分位数,这在sql中很慢。但现在我有了一个数据集,其中我需要计算加权平均值的百分位数,这并不简单,而且我不知道这在SPSS中是否可行。
我有类似于下面的数据
Country Region District Units Cost per Unit
USA Central DivisionQ 10 3
USA Central DivisionQ 12 2.5
USA Central DivisionQ 25
我有一个混合的SPSS数据文件,其中一部分是英语(windows-1252)编码,另一部分是土耳其语(windows-1254)编码。可以更改SPSS文件的编码吗?例如,我想将所有数据文件的编码更改为土耳其语(windows-1254)。
我知道SET LOCALE命令。我可以在打开文件之前更改区域设置。但在数据文件打开期间不能更改区域设置。因此,我没有看到使用SPSS语法以不同编码保存数据文件的选项。
* Change SPSS locale to Turkish (windows-1254).
* Only for SPSS 13.0 and above.
new file.
set lo
我试图在SPSS中创建一个小型python程序来编辑表的值。我把一段代码写在下面。这个问题发生在GetValueChar方法上。它一直给我“变量不在活动数据集中”,我找不到原因。为了测试,把这两行评论和尝试,它是有效的。现在,我确信数据集中有一个名为'Estado‘的变量。我再次对这两行进行了注释,出现了错误。有人知道是怎么回事吗?
BEGIN PROGRAM.
import spss, spssaux
for i in range(spss.GetVariableCount()):
print(spss.GetVariableName(i))
cur=spss.Cursor