首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【译】用于时间序列预测的Python环境

    让我们开始吧。 为什么是Python? Python是一种通用的解释性编程语言(不同于R或Matlab)。 主要是因为语言的重点在于可读性,所以学习和使用很容易。...pandas pandas 库提供了Python中加载和处理数据的高性能工具。...重采样、下采样和聚集等重采样方法 statsmodels statsmodels库提供统计建模的工具。...重采样方法估计一个不可视的数据模型的性能,特别是TimeSeriesSplit。 Python环境安装 本节将为您提供有关设置Python环境,并将之用于进行时间序列预测的一般建议。...我建议你使用与安装SciPy一样的方法来安装scikit-learn: 查阅安装scikit-learn的说明,但仅适用于使用Python pip包管理器安装。

    2.3K20

    CentOS安装Python3详细教程 | 一步步指南

    安装开发工具和依赖包安装编译Python所需的开发工具和依赖项:sudo yum groupinstall "Development Tools" -ysudo yum install gcc openssl-devel...# 激活虚拟环境source my_project_env/bin/activate# 在虚拟环境中安装包pip install django pandas numpyhttp://www.chanpinxuanchuan.com...# 退出虚拟环境deactivate⚠️ 常见问题解决问题:找不到python3命令解决方案: 创建符号链接sudo ln -s /usr/local/bin/python3.12 /usr/bin/python3...命令而不是python来明确使用Python 3重要系统工具可能依赖Python 2,不要删除系统自带的Python 2为每个项目使用独立的虚拟环境使用pip freeze > requirements.txt...保存项目依赖定期更新Python版本以获得安全补丁和新功能

    3.9K20

    用于时间序列预测的Python环境

    让我们开始吧。 为什么是Python? Python是一种通用的解释性编程语言(不同于R或Matlab)。 主要是因为语言的重点在于可读性,所以学习和使用很容易。...pandas pandas 库提供了Python中加载和处理数据的高性能工具。...重采样、下采样和聚集等重采样方法 statsmodels statsmodels库提供统计建模的工具。...重采样方法估计一个不可视的数据模型的性能,特别是TimeSeriesSplit。 Python环境安装 本节将为您提供有关设置Python环境,并将之用于进行时间序列预测的一般建议。...我建议你使用与安装SciPy一样的方法来安装scikit-learn: 查阅安装scikit-learn的说明,但仅适用于使用Python pip包管理器安装。

    3.5K80

    类别不均衡问题之loss大集合:focal loss, GHM loss, dice loss 等等

    解决不均衡问题一般从两方面入手:  数据层面:重采样,使得参与迭代计算的数据是均衡的; 模型层面:重加权,修改模型的 loss,在 loss 计算上,加大对少样本的 loss 奖励。 1....数据层面的重采样 关于数据层面的重采样,方式都是通过采样,重新构造数据分布,使得数据平衡。一般常用的有三种: 欠采样; 过采样; SMOTE。  1....SMOTE:一种近邻插值,可以降低过拟合风险,但它是适用于回归预测场景下,而 NLP 任务一般是离散的情况。 ...if self.reduction == "mean": return loss.mean() 总结 本文主要讨论了类别不均衡问题的解决办法,可分为数据层面的重采样及模型...的代码仅为逻辑参考,完整的代码及相关参考论文都在: https://github.com/shuxinyin/NLP-Loss-Pytorch 转自:PaperWeekly 最近文章 EMNLP 2022 和

    6.2K32

    NLP类别不均衡问题之loss大集合

    来源:PaperWeekly本文约2300字,建议阅读9分钟本文主要讨论了类别不均衡问题的解决办法,可分为数据层面的重采样及模型 loss 方面的改进。...解决不均衡问题一般从两方面入手:  数据层面:重采样,使得参与迭代计算的数据是均衡的; 模型层面:重加权,修改模型的 loss,在 loss 计算上,加大对少样本的 loss 奖励。 1....数据层面的重采样 关于数据层面的重采样,方式都是通过采样,重新构造数据分布,使得数据平衡。一般常用的有三种: 欠采样; 过采样; SMOTE。  1....SMOTE:一种近邻插值,可以降低过拟合风险,但它是适用于回归预测场景下,而 NLP 任务一般是离散的情况。 ...        if self.reduction == "mean":             return loss.mean() 总结 本文主要讨论了类别不均衡问题的解决办法,可分为数据层面的重采样及模型

    79510

    干货推荐 | 掌握这几点,轻松玩转 Bokeh 可视化 (项目实战经验分享)

    从上述图表来看,我们看到到达延迟几乎正态分布,右侧有轻微的正偏斜或重尾。 当然,其实有更简单的方法可以在 Python 中创建基本直方图,比如可以使用几行 matplotlib 代码完成相同的结果。...CDS 是一个专门用于绘图的对象,包括数据以及多个方法和属性。 CDS 允许我们为图形添加注释和交互性,并且可以从pandas 的 dataframe 构建。...下面是制作数据集的完整代码,该函数接收我们想要包括的航空公司列表,要绘制的最小和最大延迟,以及以分钟为单位的指定 bin 宽度。...为了练习,我们将添加两个额外的控件:一个 Slider,用于选择直方图的 bin 宽度;一个 RangeSlider,用于设置要显示的最小和最大延迟。...从这个项目中,我们可以总结出几个关键点,以适用于许多类似的数据科学项目: 在开始数据科学任务(Bokeh 或其他任何东西)之前,拥有适当的框架/结构至关重要。

    3.2K40

    【干货】​在Python中构建可部署的ML分类器

    文中以“红酒质量预测”作为二分类实例进行讲解,一步步构建二分类器并最终部署使用模型,事先了解numpy和pandas的使用方法能帮助读者更好地理解本文。...由于数据框架,矩阵和阵列操作都涉及到,所以在任何ml模型设计中,我们总是需要numpy和pandas。...df["quality_bin"] = np.zeros(df.shape[0]) df["quality_bin"] = df["quality_bin"].where(df["quality"]>=...由于数据实例的数量较少,所以我们将进行过采样。 但重要的是,过采样应该总是只在训练数据上进行,而不是在测试/验证数据上进行。 现在,我们将数据集划分为模型构建的训练和测试数据集。...现在我们有588个劣质和531个优质的样本。 仍有267个质量差和213个质量好的样本用于测试。 然后就该对训练数据进行重新采样来平衡它,这样模型就不会出现偏差。

    2.5K111

    干货:可视化项目实战经验分享,轻松玩转Bokeh(建议收藏)

    从上述图表来看,我们看到到达延迟几乎正态分布,右侧有轻微的正偏斜或重尾。 当然,其实有更简单的方法可以在 Python 中创建基本直方图,比如可以使用几行 matplotlib 代码完成相同的结果。...CDS 是一个专门用于绘图的对象,包括数据以及多个方法和属性。CDS 允许我们为图形添加注释和交互性,并且可以从pandas 的 dataframe 构建。...下面是制作数据集的完整代码,该函数接收我们想要包括的航空公司列表,要绘制的最小和最大延迟,以及以分钟为单位的指定 bin 宽度。...为了练习,我们将添加两个额外的控件:一个 Slider,用于选择直方图的 bin 宽度;一个 RangeSlider,用于设置要显示的最小和最大延迟。...从这个项目中,我们可以总结出几个关键点,以适用于许多类似的数据科学项目: 在开始数据科学任务(Bokeh 或其他任何东西)之前,拥有适当的框架/结构至关重要。

    3.8K20

    一日一学--如何对数值型特征进行分桶

    分桶的数量和宽度可以根据业务领域的经验来指定,但也有一些常规的做法: 等距分桶。...容器宽度呈指数增长,从O(10)、O(100)到O(1000)和以上。要从计数映射到bin,取计数的log值。 对数变换是处理具有重尾分布的正数的有力工具。...(重尾分布在尾部范围内的概率比高斯分布的概率大)。它将分布在高端的长尾压缩成较短的尾部,并将低端扩展成较长的头部。...等频分桶 对于等频分桶,也称为按分位数分桶,为了计算分位数和映射数据到分位数箱,我们可以使用 Pandas 库。...pandas.DataFrame.quantile 和 pandas.Series.quantile 用于计算分位数。pandas.qcut 将数据映射到所需数量的分位数。

    9.5K30

    原来使用 Pandas 绘制图表也这么惊艳

    同时 .plot 也是 Pandas DataFrame 和 series 对象的属性,提供了 Matplotlib 可用的一小部分绘图功能。...探索和可视化数据了,开始吧 折线图 plot 默认图就是折线图,它在 x 轴上绘制索引,在 y 轴上绘制 DataFrame 中的其他数字列。...让我们绘制一个折线图,看看微软在过去 12 个月的表现如何: df.plot(y='MSFT', figsize=(9,6)) Output: figsize 参数接受两个参数,以英寸为单位的宽度和高度...宽度和高度的默认值分别为 6.4 和 4.8。 通过提供列名列表并将其分配给 y 轴,我们可以从数据中绘制多条线。...首先,我们需要按月末重新采样数据,然后使用 mean() 方法计算每个月的平均股价。

    6.3K50

    【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧

    在【Python篇】详细学习 pandas 和 xlrd:从零开始我们讲解了Python中Pandas模块的基本用法,本篇将对Pandas在机器学习数据处理的深层次应用进行讲解。...第二部分:时序数据处理 Pandas 对 时间序列数据 的支持非常强大,尤其适用于金融数据、股票分析、气象数据等需要处理时间的场景。...我们可以使用 Pandas 的时间序列工具进行索引、重采样、平滑处理等。...2.1 时间索引与重采样 Pandas 提供了非常灵活的时间索引,支持将字符串转换为日期格式,并使用 resample() 函数进行时间重采样。...# 创建时间索引 df['Date'] = pd.to_datetime(df['Date']) df.set_index('Date', inplace=True) # 按月份重采样并计算平均值 df_monthly

    1.9K10
    领券