给定对象,如
objA{
name: "A Name"
subObj: {
name: "A Sub Name"
}
}
什么是最好的方式来储存这个迅速?我会考虑创建一个对象A的类,然后在包含subObj的类中有一个值。但是,subObj是否也应该有自己的类呢?这种方法似乎会导致大量给定大数据结构的类声明。
使用pypdf2和urllib模块,我计划对.pdf中的许多.pdf文件进行相当大规模的(文本)分析。我的当前计划是使用urllib下载文件,将它们保存到我的计算机上,然后使用pypdf2打开/提取文本。
.pdf文件的大小范围在10-500 MB之间,这意味着项目的规模将在GB到TB的范围内(因为有16000 .pdf文件)。提取的数据不会很大,只是一个带有标记的单词关联集/计数,但是.pdf文件本身将是一个问题。
我不打算一次全部下载,而是反复下载,这样我的系统就不会不堪重负。下面是一个高级工作流:
for pdf_url in all_list:
download_using_
我最近购买了一个120 my的SSD安装在我的桌面上。我目前有两个2TBHDD通过SATA连接,一个更旧的500 an硬盘通过PATA连接。我的计划是等到12.04发布,然后在SSD上重新安装。在这一点上,我有几个问题,关于设置我现有驱动器的最佳实践。
1) 2TBHDD中的一个分区为40 2TB for /,其余为/home。我的计划是将SSD划分为40 to for /,其余部分用于/home。然后,我想删除HDD上的/分区(可能还有MBR,对吧?)并收回储存的空间。我也想擦除我的视频和音乐文件夹驱动器上的一切,基本上只使用它作为媒体存储。这有可能在不丢失硬盘上的数据的情况下实现吗?
(