通过Python/Requests登录《华尔街日报》

文章/答案/技术大牛

发布

1回答

、、、、

我从事一个学术项目，该项目需要使用由Requests和BeautifulSoup库提供支持的Python脚本来抓取互联网上的各种新闻文章。最近，我的任务是从“华尔街日报”上抓取文章，并给了我一个订阅登录来使用。然而，在过去的任务中，我从来不需要在浏览实际文章之前登录网站。我遵循了通过请求和POST登录的基本逻辑，但看起来WSJ的登录并不遵循该协议-我仍然收到“未订阅”的文章页面。此外，previous question asked h

浏览 17提问于2019-10-18得票数 0

回答已采纳

1回答

抓取WSJ文章并仅检索文本

、

我试图从“华尔街日报”的一篇文章中抓取文本(实际上，我需要多篇文章，但目前我只是试图从这篇WSJ文章中抓取文本)。我使用Python3.x，我使用下面的代码：from bs4 import BeautifulSoup url = 'https://www.wsj.com/articlesMozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:80.0) Gecko/20100101 Firefox&

浏览 6提问于2021-12-14得票数 0

1回答

使用Python请求登录WSJ

、、、

我正在尝试使用Python模块requests登录到“华尔街日报”的网站。我知道这里的其他人已经成功地使用了Selenium来完成同样的任务。但是，我想了解这个过程的工作流程。我找到了带有requests_oauthlib的包，但当我手动登录到WSJ时，我很难将这些包与Chrome控制台中的内容相匹配。

浏览 18提问于2022-05-11得票数 0

回答已采纳

2回答

获取用于制作应用程序的API

、

ESPNGridLoyalty BubbleMotion 提前鸣谢！

浏览 3提问于2012-03-05得票数 0

回答已采纳

1回答

如何使用RCurl从WSJ下载文章

、、

我正在尝试使用RCurl和XML一起从华尔街日报( WSJ )下载和撰写文章。但是，每当我从getURL中使用RCurl时，我都会得到该文章的版本，该版本可供公共查看器使用。我想我必须传递登录凭证，当我调用函数getURL时，我不知道如何这样做。我是否需要“认证”--不管有什么不同(在目的上)是什么？如果有人能解释一下像“华尔街日报”这样的网站如何使用登录信息来获取数据，以及如何调整RCurl以考虑这些信息，我将不胜感激。

浏览 3提问于2012-10-19得票数 2

1回答

使用Beautiful Soup从华尔街日报中抓取债券数据

、、

我试图从华尔街日报市场页面刮一些数据使用美丽的汤，但总是得到状态Code=404页面未找到的消息。我的代码在其他网站上运行良好，那么出了什么问题呢？import requestsurl='https://www.wsj.com/market-data/quotes/bond/BX/TMBMKJPmod=md_bond_govt_bonds_quote' page=requests</

浏览 13提问于2020-05-18得票数 1

回答已采纳

2回答

WSJ WebScraping

、、

我正试图从“华尔街日报”的网页上获得这个价值：我正在使用这段代码，但是它不能正常工作，我得到了一个无结果，我不知道为什么：from bs4 import BeautifulSoup10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36" page = requests.get

浏览 5提问于2020-12-07得票数 0

回答已采纳

3回答

在python中创建一个包含日期的bins列

、、、

在python中，我的数据看起来像这样，有500.000行：1/1-1900 10:41:00 -01-01 3/1-1900 09:54:

浏览 3提问于2015-05-10得票数 3

1回答

用于脱机阅读新闻订阅的Android应用程序？

、

我已经订阅了几个新闻网站，比如“华尔街日报”、“纽约时报”等。我正在寻找一款Android应用程序：允许我输入这些订阅的登录信息。

浏览 0提问于2018-05-23得票数 1

1回答

使用HttpClient登录https://id.wsj.com/access/50f57264bd7fb2d2f6629af6/latest/login_standalone.html

、、、

我正在尝试用HttpClient登录https://id.wsj.com/access/50f57264bd7fb2d2f6629af6/latest/login_standalone.html的网址。但是客户端在通过代码调用时不会从加载css。我使用Fiddler调试了代码。httpclient.getConnectionManager().shutdown(); e.printStackTrace(

浏览 4提问于2014-03-30得票数 0

1回答

如何抓取需要登录才能使用python查看完整内容的文章？

、、

我试图从“华尔街日报”上抓取一篇文章，它需要登录才能查看整个内容。因此，我使用Python请求编写了如下代码：import requestsimport reimportjson password= <password> ses

浏览 4提问于2022-05-20得票数 0

1回答

标出一大串文字

、、

我能够将自动生成的封闭标题文本提取为CLOB，如下所示：我是新来的NLP (你可以猜到)，谁能

浏览 0提问于2018-10-26得票数 0

回答已采纳

1回答

BeautifulSoup在任何soup命令上返回‘`NoneType`’

、、

我正在使用BeautifulSoup抓取“华尔街日报”，但它似乎永远找不到id=的“顶部新闻”元素，它总是可以在主页上找到。这是我的代码：from bs4 import BeautifulSouppage = requests.get(URL) soup = BeautifulSoup(page.content, 'html

浏览 3提问于2021-05-27得票数 1

回答已采纳

1回答

在WSJ股票网站上从多个以前的日期收集数据

、

我正在从“华尔街日报”最大赢家网站上搜集数据。我是Python的新手，所以我相信这很简单。我就是找不到一个明确的答案。我使用的是Python3.4.3和bs4。import requests url = 'http://online.wsj.com/mdc/public/page/2_3021-gainny

浏览 3提问于2015-08-08得票数 3

1回答

WSUS将9更新转换为“可选更新”。

、、、

我似乎找不到与这个问题有关的其他人，但我正在通过WSUS向我的客户部署Internet 9。他们中的一些人接受它并将其安装为一个正常的更新，但另一些人则随机地在“可选更新”部分获取它，而从不安装它。在“华尔街日报”里，我似乎找不到一条路--汤姆，让它变得不受欢迎。有什么想法吗？谢谢。

浏览 0提问于2011-10-10得票数 0

回答已采纳

2回答

顶部菜单中的Opencart 3.0.2.0和Journal 3主题客户名称

、

我想添加杂志主题顶部菜单模块的客户名字。我在顶层菜单中添加了{{ text_logged }}，但它无法从控制器获取text_logged。如何从catalog/controller/common/header.php获取text_logged？ {% if logged %}{% endif %} $data['text_logged'] = sprintf($this->language->get('text_logged'), $this->url->link('account

浏览 18提问于2019-08-28得票数 1

回答已采纳

1回答

Web-使用python3.7中的优美汤从“华尔街日报”上抓取文章？

、、

我正试图用Python中的Beautifulsoup从“华尔街日报”()上摘取文章。但是，我正在运行的代码正在执行，没有任何错误(退出代码0)，但没有结果。我不明白发生了什么？import time fo

浏览 0提问于2019-05-30得票数 2

回答已采纳

1回答

使用BeautifulSoup获取“华尔街日报”的新闻

我正在尝试从“华尔街日报”网站(特别是)获得主要新闻。from bs4 import BeautifulSoupfrom datetime import date, time, datetime, timedelta response=requests.get(url) soup=BeautifulSoup(response.content,

浏览 1提问于2021-05-04得票数 1

回答已采纳

1回答

python:使用lxml xpath从更改span类中获取数据

、、、

我想从“华尔街日报”的网站上提取“资产回报率”。但是，我的代码不够健壮，无法在不同的条件下工作。我能够使用下面的代码提取代码为代码“SCGM”的数据，但作为<span class="marketDelta deltaType-negative">的“‘AASIA”失败import requestsStockData =['SCGM','AASIA'] page_wsj1 = requests.get(&#x

浏览 4提问于2016-11-08得票数 0

回答已采纳

1回答

用BS4实现WSJ档案的Web抓取

、、

下面是我正在做的事情： import requestsfrom bs4 import BeautifulSoup url = 'https://www.wsj.com/news/archive/2020/08/28' response = requests.get(url)--2vWCTk2s WSJTheme--border-bottom--

浏览 10提问于2020-08-29得票数 1

回答已采纳

点击加载更多