我正在使用selenium和scrapy实现一个TikTok爬虫
start_urls = ['https://www.tiktok.com/trending']
....
def parse(self, response):
options = webdriver.ChromeOptions()
from fake_useragent import UserAgent
ua = UserAgent()
user_agent = ua.random
options.add_argument(f'user-agent={user_agent}')
options.add_argument('window-size=800x841')
driver = webdriver.Chrome(chrome_options=options)
driver.get(response.url)
爬虫打开Chrome,但不加载视频。图像加载
同样的问题在使用火狐不使用Firefox加载页面时也会发生。
使用使用Selenium的简单脚本的相同问题
from selenium import webdriver
import time
driver = webdriver.Firefox()
driver.get("https://www.tiktok.com/trending")
time.sleep(10)
driver.close()
driver = webdriver.Chrome()
driver.get("https://www.tiktok.com/trending")
time.sleep(10)
driver.close()
发布于 2020-03-21 10:29:23
您是否尝试在selenium浏览器窗口中进一步导航?如果在以下站点上出现错误404,则我有一个解决方案对我有效:
我只是将我的用户代理更改为"Naverbot“,这是Tik的robots.txt文件”允许的“。
更改后,所有网站和视频正确加载。
如果您想要添加一个轮转,在“允许”段下列出的其他用户代理也应该工作。
发布于 2019-12-23 14:09:53
您可以使用Windows IE。而不是铬或火狐
视频将加载到IE中,但IE显示提要的布局与chrome和firefox有所不同。
原因,为什么您的页面,没有加载。
很少有先进的web应用程序检查您的浏览器历史记录、配置文件数据和缓存以检查用户的身份验证。您还可以做的另一件事是在selenium中运行默认配置文件,这将是有帮助的。
https://stackoverflow.com/questions/59277001
复制相似问题