开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >我可以在Python中从html文件中抓取表格吗？

问我可以在Python中从html文件中抓取表格吗？
EN

Stack Overflow用户

提问于 2020-05-17 13:29:29

回答 1查看 181关注 0票数 0

我想要从这个文本文件text_file中抓取表格，而我想要的表格是SUMMARY CONSOLIDATED FINANCIAL AND OTHER DATA。BeautifulSoup.content给我的代码看起来像这样的The Origin Code。我的代码是附加的，有人能告诉我哪里出了问题吗？

url = r'https://www.sec.gov/Archives/edgar/data/1181232/000104746903038553/a2123752z424b4.htm'

filing_url = requests.get(url)
content = filing_url.text
soup = BeautifulSoup(content, 'lxml') 

tables = soup.find_all(text=re.compile('SUMMARY CONSOLIDATED FINANCIAL AND OTHER DATA'))

n_columns = 0
n_rows = 0
column_names = []
for table in tables:
    for row in table.find_next('table').find_all('tr'):

        # Determine the number of rows in the table
        td_tags = row.find_all('td')
        if len(td_tags) > 0:
            n_rows += 1
            if n_columns == 0:
                # Set the number of columns for the table
                n_columns = len(td_tags)

        # Handle column names if find them
        th_tags = row.find_all('th')
        if len(th_tags) > 0 and len(column_names) == 0:
            for th in th_tags:
                column_names.append(th.get_text())

        # Safeguard on Column Titles
    if len(column_names) > 0 and len(column_names) != n_columns:
        raise Exception("Column titles do not match the number of columns")

    columns = column_names if len(column_names) > 0 else range(0, n_columns)
    df = pd.DataFrame(columns=columns,
                      index=range(0, n_rows))
    row_marker = 0
    for row in table.find_all('tr'):
        column_marker = 0
        columns = row.find_all('td')
        for column in columns:
            df.iat[row_marker, column_marker] = column.get_text()
            column_marker += 1
        if len(columns) > 0:
            row_marker += 1

    print(df)

screen-scraping

EN

回答 1

Stack Overflow用户

发布于 2020-05-17 15:39:24

在这种情况下，您可以使用pandas将其大大简化：

import pandas as pd
url = 'https://www.sec.gov/Archives/edgar/data/1181232/000104746903038553/a2123752z424b4.htm'

tables = pd.read_html(url)
#there are more than 100 tables on that page, so you have to narrow it down

targets = []
for t in tables:
    if 'Unaudited' in str(t.columns):
        targets.append(t)
targets[0] #only two meet that requirement, and the first is your target

输出是您的目标表。

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61852584

复制

相关文章

我应该使用 PyCharm 在 Python 中编程吗？

python 网站数据库

Python 是一种广泛使用的编程语言，以其简单、多功能和庞大的开发人员社区而闻名。这个社区不断创建新的库和工具，以提高Python编程的效率和便利性。选择正确的环境来编写和调试 Python 代码可能具有挑战性，但 PyCharm 是一个很好的选择，从其他选项中脱颖而出。

很酷的站长

2023/02/20

4.7K0

我应该使用 PyCharm 在 Python 中编程吗？

在推荐系统中，我还有隐私吗？联邦学习：你可以有

联邦学习机器学习迁移学习神经网络深度学习

随着互联网覆盖范围的扩大，越来越多的用户习惯于在网上消费各种形式的内容，推荐系统应运而生。推荐系统在我们的日常生活中无处不在，它们非常有用，既可以节省时间，又可以帮助我们发现与我们的兴趣相关的东西。目前，推荐系统是消费领域最常见的机器学习算法之一[1]。以网络新闻为例，由于每天都有大量的新闻文章发布在网上，在线新闻服务的用户面临着严重的信息过载。不同的用户通常喜欢不同的新闻信息。因此，个性化新闻推荐技术被广泛应用于用户的个性化新闻展示和服务中。关于新闻的推荐算法 / 模型研究已经引起了学术界和产业界的广泛关注。

机器之心

2020/12/03

4.8K0

在推荐系统中，我还有隐私吗？联邦学习：你可以有

html中表格整体居中,html中怎么把表格居中

css https java 网络安全 html

html中把表格居中的方法：首先创建一个HTML示例文件；然后使用table标签创建一个两行两列的表格；接着给table标签添加一个class属性；最后将margin属性设置为“0 auto”即可。

全栈程序员站长

2022/07/22

14.6K0

html中表格整体居中,html中怎么把表格居中

网站抓取引子 - 获得网页中的表格

爬虫是都不陌生的一个概念，比如百度、谷歌都有自己的爬虫工具去抓取网站、分析、索引，方便我们的查询使用。在我们浏览网站、查询信息时，如果想做一些批量的处理，也可以去分析网站的结构、抓取网页、提取信息，然后就完成了一个小爬虫的写作。网页爬虫需要我们了解URL的结构、HTML语法特征和结构，以及使用合适的抓取、解析工具。我们这篇先看一个简单的处理，给一个直观的感受：一个函数抓取网页的表格。以后再慢慢解析如何更加定制的获取信息。 HMDB (人类代谢组数据库)收录了很多代谢组的数据，用于代谢组学、临床化学、生物

生信宝典

2018/02/05

3.1K0

网站抓取引子 - 获得网页中的表格

HTML表格中<td scope="col">与<td scope="row">的含义

HTML表格中<td scope="col">与<td scope="row">的含义

wfaceboss

2019/04/08

2.4K0

使用Python操作PowerPoint文件中的表格

首先安装扩展库python-pptx，然后下面的代码用来创建PowerPoint演示文档并创建幻灯片，插入表格，写入单元格数据，然后再打开该演示文档并输出表格中的内容。运行程序后，得到的Power

Python小屋屋主

2018/04/16

3.8K0

使用Python操作PowerPoint文件中的表格

抓取html页面中的json数据

爬虫 ide json html

抓取html页面中的json数据

Java架构师必看

2021/08/03

3.4K0

我可以在不source脚本的情况下将变量从Bash脚本导出到环境中吗

bash export 变量函数脚本

有没有一种方法可以通过只执行 export.bash 而不 source 它获取 $VAR？

程序熵

2023/09/25

3800

我可以在不source脚本的情况下将变量从Bash脚本导出到环境中吗

R语言XML包获得html文件中的表格小实例

html python r 语言 http

使用snpEff软件对vcf格式文件进行注释后会生成一个snpEff_summary.html;这个文件是对vcf格式文件中的内容进行的统计，结果会以表格和图片的形式在html文件里展示。我现在想把html中的数据提取出来，自己来做图。

用户7010445

2020/03/03

2.3K0

Python这么火，我可以学吗？

python 机器学习爬虫运维

越来越多行业都在应用的Python，主要的应用领域有哪些呢？Python每个人都可以学吗？今天我们就来详细看一下。

老九君

2020/03/11

1.2K0

在vue中的html标签{{}}内可以调用函数方法

今天领导提个需求，要求在金额上强制保留两位小数，本想着后台直接返回数据时，带着两位的小数，前端只是做个显示作用，后台说保留了小数但在传输过程中去掉了，可能他们做了格式转化。没办法了只能又是我们前端操作了，牵扯价钱的太多了，很多时候又有for 循环，怎么办呢？

honey缘木鱼

2019/02/26

31K0

python抛出异常和捕获异常_在try块中可以抛出异常吗

python https 网络安全

2.解析关键字try 以及except是使用Python 解释器主动抛出异常的关键， Python解释器从上向下执行当运行try中的某行代码出错,会直接进入except中执行下方代码 try中错行下方的代码不会被运行 except…as… 是固定的语法格式打印traceback信息 finally 后的代码不管是否抛出异常都会执行 except 的原理调用sys中 exc.info 方法返回基本信息所以抛出异常的第一步拓展可以在这里开始注意每个关键字下方的代码都是独立的(所有的变量都是局部变量)

全栈程序员站长

2022/11/02

4.6K0

从 LSASS 进程中抓取 NTLM 哈希

将 DLL 上传到目标机器。然后它使远程注册表能够修改 AutodialDLL 条目并启动/重新启动 BITS 服务。Svchosts 将加载我们的 DLL，再次将 AutodiaDLL 设置为默认值并执行 RPC 请求以强制 LSASS 加载与安全支持提供程序相同的 DLL。一旦 DLL 被 LSASS 加载，它将在进程内存中搜索以提取 NTLM 哈希和密钥/IV。

Khan安全团队

2023/02/23

9730

从 LSASS 进程中抓取 NTLM 哈希

Java 在PDF中添加表格

java maven pdf 编程表格

本文将介绍通过Java编程在PDF文档中添加表格的方法。添加表格时，可设置表格边框、单元格对齐方式、单元格背景色、单元格合并、插入图片、设置行高、列宽、字体、字号等。通过maven导入地址代码如下：

崔笑颜

2020/06/08

4.7K0

python生成html表格

最近做一个小工具，需要将统计数据生成html表格。在网上搜罗一圈后发现用pandas生成表格非常好用。代码如下：

py3study

2020/01/13

7.2K0

Python骚操作，提取pdf文件中的表格数据！

python 编程算法

在实际研究中，我们经常需要获取大量数据，而这些数据很大一部分以pdf表格的形式呈现，如公司年报、发行上市公告等。面对如此多的数据表格，采用手工复制黏贴的方式显然并不可取。那么如何才能高效提取出pdf文件中的表格数据呢？

诸葛青云

2019/03/31

7.5K0

Python骚操作，提取pdf文件中的表格数据！

Python Numpy 从文件中读取数据

测试文件内容(test1.txt) hello,123,nihao 8,9,10 io,he,no 测试代码 import numpy # dtype：默认读取数据类型，delimiter：分隔符 world_alcohol = numpy.genfromtxt("test1.txt", dtype=str, delimiter=",") # 数据结构 print(type(world_alcohol)) # 数据内容 print(world_alcohol) # 帮助文档 print(help(nump

山海散人

2021/03/03

4.3K0

Python 抓取邮件中表格到Excel

上代码 import imapclient # 这个包导不进来，先导入 pyzmail36，下载好后再改回 pyzmail 即可 import pyzmail from bs4 import BeautifulSoup import pandas as pd import xlsxwriter import html5lib # 提取邮件里面的表格 class my_eamil(): """ 构造函数，创建一个类的入口 self指的是类实例对象本身

Java架构师必看

2021/08/09

1.3K0

点击加载更多

相似问题

可以从Python中的Inspect元素中抓取HTML吗？

12

Python -从复杂的HTML中自动抓取表格

124

用Python从网页中抓取表格

43

我可以使用DOM从HTML表格中获取文本吗？

12

在Xamarin UI测试中，我可以通过内部HTML抓取html元素吗

11

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例