我有一个50行的dataframe (每个美国州有一行),以及大约20个具有不同属性和状态相关数据的列。我希望建立一个线性回归模型来预测疾病的流行,考虑到不同状态的属性和发病率。
例如,预测变量是抑郁流行率,而我用来预测的变量是每年晴天数和平均年降水量。假设1州有18%的抑郁率,每年有200个晴天,每年有10英寸的降水量。状态2有8%的抑郁率,每年300天的晴天和3英寸的年降水量等。如果趋势是晴天多,降水少与低抑郁发生率相关,我会用晴天数和降水英寸来预测抑郁症的患病率。
我拥有的唯一数据是每个州,但我正在使用与状态相关的数据:( a)查看与天气和心理健康的相关性;( b)根据天气特征预测疾病的发病率。
我对机器学习和建模非常陌生,我不确定为这么少的行创建一个培训/测试集是否会提供准确的结果。我想做的事会有用吗?做这件事最好的方法是什么?任何帮助都将不胜感激!
用我的尝试,我的线性回归模型看起来不太准确(但我可能只是在构建错误的模型)。
https://datascience.stackexchange.com/questions/116554
复制相似问题