首页
学习
活动
专区
圈层
工具
发布

很多人不知道什么是大数据,分享2019年我用Python爬虫技术做企业大数据的那些事儿

什么是大数据和人工智能,分享2019年我用Python爬虫技术做企业大数据的那些事儿 因为一直从事php+python+AI大数据深度挖掘的技术研发,当前互联网已经从it时代发展到data时代,人工智能...我那时候主要是从事PHP开发,解决过一天上千万级访问量的电商网站技术问题,那时候的PHP开发工作特别枪手,然而从2016年左右电商时代就开始走下坡了,主要是做的人越来越多,竞争越来越大,最终形成了像淘宝...自从2018年开始大数据和人工智能就火起来了,可以说2019年是大数据的发起年,因为我一直从事Python+AI+网络爬虫技术的深度研发,很多朋友都找我帮忙通过我的爬虫技术解决数据源的问题,我们知道不管是做人工智能还是做大数据前提就是需要有数据...,需要足够多的服务器和大数据搜索引擎架构,首先我对企业进行了按城市维度进行分库,全国每个城市都建立一个自己的数据库,然后自己利用Python爬虫技术+企业词库+代理IP池+分布式多进程的技术架构开发了一套...时间有限,先分享到这里,我得写代码去..........

3.1K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【python系统学习05】input函数——实现人机交互

    请输入:” 此时我输入了123,还是纯数字键盘输入的123喔。 然后观察print的result类型,发现是,字符串格式。...说明用户不输入,result接收的、或者说input返回的值是一个字符串形式的空串。 至于函数相关内容。我学过js接受起来很方便。可能零基础看起来就不爽了。 什么是参数、什么是返回值。。。...TypeError的错误,具体错误分析就去这里看,不赘述。 但是简而言之呢,就是说咱们截图中输入的 12 ,他是个字符串。 而到了下边if、else里,age和数字24来做判断。...python作为强类型语言对这样写法是零容忍的,所以就报错了。 说了这么多废话呢,就一句话概括: 针对input的返回值使用时,注意进行类型转换。 需要把字符串转换成你需要的其他类型再进行if判断。...所以还是那句话,涉及到和用户打交道的时候,你必须得做容错处理。即你得把所有可能性都想到,因为你不能保证用户输入啥! 我觉得这也是前端苦逼的地方之一吧。

    1.3K20

    Python程序设计——供水调度项目总结

    只是我当时根本不知道遗传算法是个什么东西,所以没有GET到我导的意思。 现在看来,我导对大方向的把握真是有点东西,如果一开始就按照我导的思路做,也许我们能减少很多无用功了。...但是实际上前端团队并不是这样做的,而是边与用户沟通加入新的需求边与模型端沟通确定写入数据格式。...所以说,选择与靠谱的团队进行合作还是很重要的。 嘴上说,心里想, 不如手上做 Quote / 参考 不知道什么行不行,那就先动手试试,不动手永远不知道结果。动手了还真可能一个个慢慢就解决了。...如果一项技术的科学研究已经发展到了98%,那么能将其30%成功应用到实际就很不错了, 科学与技术之间还是有很多隔阂的。...这个时候就凸显了注释和结构的重要性。 这里所说的结构化其实并不一定要按照Python编程规范或者说某一种固定的格式来编写代码。我个人觉得是最起码你自己要有一套自己的规范(如果你是单打独斗的话)。

    52510

    接口测试基础知识

    如果是在做Python的时候,它会显示Http Request或者是Python Request,它不会显示浏览器。假装我是个浏览器就在头部里面加个User-Agent这样的东西。...(输入正确的用户名和错误的密码,服务器也返回200。意思是你的请求我接收到了,但是不好意思的你的密码错误,虽然你的请求我接收到了,但是你还是登录失败了)。...和403是一样的。 403 你没有权限访问这个路径。 404 资源找不到。地址错了或页面不存在了。 500 内部服务器错误。 504 超时。 502 网端错误。...响应正文一般来说有这几种常见的格式:Html,Xml,Json等,比较常见的有Html和Json Json就是Python里面的字典,格式一样的。 Html就是标签开头的。 ?...前提是公司得项目有做这个超时判断。 Session id每次都是变化得,它是个变化得值,而且是由服务器提供得。所以每次都得拿过来再传给服务器,这个是我刚刚得Session id。

    1.5K30

    零基础学AI大模型之LangChain Output Parser

    比如你让它列3个水果,它可能回复“常见水果有苹果、香蕉,还有橙子哦~”——这种非结构化文本,想提取成Python列表得自己写正则,太麻烦了。...Output Parser的核心价值就是: 统一输出格式:让大模型按我们规定的格式(列表、JSON)输出,不用猜; 自动格式校验:如果大模型输出格式错了,解析器能提示(部分能自动重试); 降低开发成本:...解析器的核心是“让大模型知道该输出什么格式”,这个“格式要求”不是我们手动写的,而是通过解析器的get_format_instructions()方法自动生成的。...六、避坑指南:大模型输出格式错了怎么办? 前面提到过一个关键问题:即使加了解析器,大模型也可能输出格式错误的内容(比如JSON少个括号、列表多了个顿号),这时候解析器会报错。...方案1:加强Prompt格式约束(从源头避免) 在Prompt里明确“格式错误的后果”,比如: template="请生成用户信息,必须严格按JSON格式输出,缺少括号/逗号会导致系统报错!

    11810

    移动端造json假数据时的坑(转义符问题)

    emmm,虽然说好像造假数据也不是什么很难的事,但问题是,我是做 Tv app 的,手机 app 首页的 json 数据结构怎么样我不清楚,但 Tv 应用的主页复杂的要命,服务端下发的 json 数据格式是一层嵌套一层...emmm,大伙不要鄙视我问这么基础的问题,慢慢看下去,你们就清楚我本篇想讲的是什么了。...测试结果.png 果然出错了,bbb 解析失败,那么,想明白为什么会出错了么? 哎,其实,还是自己对 json 不够了解,如果对 json 格式比较熟悉的话,一眼就看出在哪里出错了。...然后,服务端也得背点锅,因为你们给我的示例数据里就是没有转义符的,我当然以为你们是对的!!!...所以,我的大脑就这样进入死锁了,加上冒号,插件验证格式错误,测试也通不过,去掉冒号,插件验证格式正确,但测试却还是通不过。哎,在这里卡了好久的。 以上,仅记录下来,提醒自己不要再犯傻了~~~

    1.8K50

    Python抛出异常_python抛出异常的作用

    在python中不同的异常可以用不同的类型(python中统一了类与类型,类型即类)去标识,不同的类对象标识不同的异常,一个异常标识一种错误 AttributeError #试图访问一个对象没有的树形...#Python代码非法,代码不能编译(个人认为这是语法错误,写错了) TypeError #传入对象类型与要求的不符合 UnboundLocalError #试图访问一个还未被设置的局部变量...解释器去执行程序,检测到了一个错误时,触发异常,异常触发后且没被处理的情况下,程序就在当前异常处终止,后面的代码不会运行 #一个简单得例子, >>> Print("Hello World") Traceback...,同时 Python 还会打印出检测到的错误发生的位置。...#我们平时用if做的一些简单的异常处理 num1=input('>>: ') #输入一个字符串试试 if num1.isdigit(): int(num1) #我们的正统程序放到了这里,其余的都属于异常处理范畴

    3.7K70

    Python3 与 C# 面向对象之~异常相关

    就会这么屁点东西还好意思秀,切~ 我给你把 格式补全” 于是乘着小明上厕所的时候,擦掉小明的Code,自己写了一段高大上的Code: # 异常捕获全格式 def test(input_str):...小明心想,咦~难道我写错了?...小明走前还不忘说一句:“简写的时候注意格式哦,是 元组 不是逗号分隔” 老师这堂课很轻松,大家都预习了而且内容也比较简单。 接着以提问的方式问道:“小潘同学,你知道异常的基类是什么吗?...如果要捕获所有异常该怎么做呢?”...可以参考我之前写的 vscode设置python3调试环境的扩充部分 来个通用异常捕获的简写(官方不推荐使用简写): # 直接except就行了 def main(): try:

    70230

    我尝试了芦笋

    这句话说出了一个道理,即不同媒介形式传播信息的效率有显著差异。 在教学工作中,我也发现有些内容用视频来做讲解,效率远远高于图文。...例如 2017 年,我曾经写过一篇文章《 如何用 Python 做词云? 》,颇受 Python 初学者的欢迎。不过许多小伙伴儿看完图文照着尝试,却总在其中遇到各种稀奇古怪的错误。...到最后那一遍,你往往感受不到任何分享的快乐,留下的都是痛苦和麻木,讲解效果难免大打折扣。 后来我发现,这种粗暴处理方式,绝对不是正道。 录错了,剪掉就好。...是不是得重新录制?或者分成两段录制,分别下载下来,再用本地剪辑工具合成导出? 不,都不用。 录错了内容没关系,把讲错的那一句再用正确的方式说一遍,继续录制。 芦笋的剪辑,集成在了云环境。...仅满足于单向接受信息,学习效果是有限的。如果学生转换角色,尝试利用芦笋来录制视频,把他学到了什么、创作了什么展示出来,则可以将知识技能掌握得更牢靠。学习过程也更有趣味。

    2.4K10

    Python编程遇问题,文科生怎么办?

    但至少你得承认,相当多的文科专业同学,还是对技术不够熟悉,有抵触甚至是恐惧心理的。 我收到了不少读者留言和来信,提出了许多疑问。其中有很大一部分,是在实践编程环节,遇到了错误提示,向我求助。...我只想给文科生一些建议,因为他们的情况比较特殊。 对他们来说,直接列一个清单,说明如何除错是不够满足需求的。咱们得结合具体的场景来谈。 文科生遭遇Python编程问题的场景该如何分类呢?...例如说,你打算用决策树做分类,于是找到了我这篇《贷还是不贷:如何用Python和机器学习帮你决策?》,开始实践,重现结果。 前面还好,一直很顺利。你的信心在逐渐积累。...他看了我那篇《如何用Python做舆情时间序列可视化?》之后,完全重现了结果。然后灌入了自己的数据。我展示的样例用的是饭馆点评信息,他用的是外卖评论信息。 这是我原文中读入后数据的样例: ?...这个时候似乎手头没有葫芦可以照着画,你得自己找葫芦。 例如读完了我那篇《如何用Python做词云?》后,有读者在微信公众号后台留言,询问我如何在绘制词云的时候,把词云变成需要的形状。 ?

    1.1K20

    python记录_day019 类的约束

    一 、约束 python中约束有两种 第一种,通过抛异常进行约束,这种是子类不按我要求的来,我就给你抛异常(推荐) 操作:提取一个父类. 在父类中给出一个方法。...: try:   代码块 except  错误名 as 别名:   出现该错误时做什么 except 错误名 as  别名:   出现该错误时做什么 ... else:   不出错时执行这里 finally...当测试代码的时候把堆栈信息打印出来. 但是当到了 线上的生产环境的时候把这个堆栈去掉即可 三、日志(不用记,知道怎么用就行) 当出现任何错误的时候. 我们都可以去日志系统里去查. 看哪里出了问题....向日志里写错误信息. 1 #参数解释 2 # filename: 文件名 3 # format: 数据的格式化输出....最终在日志文件中的样子 4 # 时间-名称-级别-模块: 错误信息 5 # datefmt: 时间的格式 6 # level: 错误的级别权重, 当错误的级别权重大于等于leval的时候才会写入文件

    53620

    Python异常处理小结

    想分享的东西很多,但是不知道怎么规划,只能想起一个写一个了。今天分享一下我对Python异常的理解,希望能对大家有所启发。 首先需要知道什么是异常?...因为今天我遇到了让我很无语的问题!跑了半个月的程序,也有了结果,而且结果也还不错,But,这个程序就是 有问题 问题 题!!!...因为在读取输入数据的时候没有做随机处理,导致输入的数据一直没变,所以虽然最后结果还可以,但是这可能是过拟合的结果!且不说模型没保存,就有了想屎的心,如果最后得到了一堆废柴!哎,除了教训,只能是无语!...输出的信息就是捕获异常之后输出的用来指出发生了什么样的错误。下面把Python中捕获异常的六种方法总结一下。 1....图9里面把Python中常见的错误都列举到了,可以重点关注一下!!! # coding:utf-8 #raise NameError ("这是一个名称错误 !")

    1.5K70

    为什么要对程序进行调试

    让我们从一段简单的 Python 代码开始,这段代码的功能是计算一组数字的平均值。...学会查看报错信息 有的同学经常会拿着一个无法运行的程序来问我:“老师,这个程序没办法运行。” 我通常会问:“为什么没法运行?你看过报错信息吗?” 大部分同学会摇头。...所以这个问题我通常无法直接回答,因为缺少最基本的调试信息。而如果你把调试信息提供到位,基本也就不需要我回答了。归根结底,是从来没有人告诉过初学者,你得先调试。...其实,报错信息就是程序的“病历”,它能告诉我们程序哪里出错了,为什么出错了。 让我们再回到上面的例子。只需要仔细阅读这些信息,就能找到问题所在。...即使英语不好,也尝试着去看,关注的信息无非是“为什么报错,哪里错了”,看几次大概就熟悉了。还可以将报错信息复制到搜索引擎或者大模型中,搜索一下,看看有没有人遇到过类似的问题。

    36210

    那个让Claude直接操控我电脑的MCP协议,到底是个什么鬼东西?

    这年头,概念造得比母猪下崽还快,今天Agent,明天RAG,后天又来个什么Chain。咱们干运维的,最怕这种听着高大上、落地一地鸡毛的玩意儿。 但是! 这次好像真不一样。...当我第一次在Claude Desktop里,直接让它“读取我本地的Nginx日志并分析502错误原因”,然后它真的直接读了我硬盘里的文件并且给出分析结果时,我承认,我有点起鸡皮疙瘩了。...# 按CPU使用率降序排序 procs.sort(key=lambda x: x['cpu_percent'], reverse=True) # 咱们搞得人性化一点,格式化一下输出...这里面有个特别关键的点,就是 @mcp.tool() 这个装饰器。 你不需要写任何Prompt告诉AI“我有这个工具,参数是什么什么”。...这东西对运维意味着什么? MCP这东西,可能会彻底改变我们做运维工具的方式。 以前我们做个运维平台,得画前端页面,得写后端API,得做鉴权,得写文档教同事怎么用。 以后呢?

    14110

    有了链路日志增强,排查Bug小意思啦

    东找找西找找,好不容易找到了报错的信息,却不知道当时的参数信息是什么,也不太好复现,太难了。。 改完还得写故障报告,美好的一天又没了。...不然报错了你得去多台服务上找错误信息,效率太低了。...如果我是订单服务的负责人,当我去排查问题的时候根据日志就知道当前这个错误是上游哪个系统和哪个接口调用导致的。 日志中还带上了用户信息,知道是哪个用户的请求。...只能说这些操作对我们的问题排查起了一半的帮助作用,比如说我现在收到一个告警,然后我去日志平台查了相关的日志,发现某行报错了。...这个时候也只能是猜测这个地方是有问题的,因为我不知道当时是什么参数导致这行报错了。所以如果能在报错的时候将当前报错方法的参数打印到日志中,也就相当于保留了出问题时的现场,解决起问题来就是分分钟的事。

    70220

    谷歌新AI工具杀疯了?免费,但有点坑!Gemini CLI 抢先实测

    1、基础问答 输入提示词: 你好,请问你能做些什么?有什么优势? 结果没想到,一上来就报错了?而且各种胡言乱语,李在赣神魔?...过了一会儿,终于满屏飘红了,看报错的意思是我没开启 API 权限: 直接访问错误信息中的网址,就能去控制台开启 API 权限了,开一下开一下: 再来!...感觉这个工具还是得给程序员用,要稍微加一些引导,比如我们让 AI 利用 Python 脚本实现任务: 帮我把所有的表情包尺寸放大 1 倍,并且转换为 WEBP 格式,然后将所有表情包组合在一起生成为 GIF...,使用 Python 脚本实现 可以看到 AI 安装了图像处理库,然后创建了一个虚拟环境,你别说它对安全性的考虑还是 ok 的: 然后编写脚本并执行: 任务成功完成,看下效果: 尺寸确实放大了,格式也转换成功了...然后我让 AI 帮我打开文档文件: 本来是想让 AI 直接打开 Markdown 阅读软件的,但没想到它直接给我输出了一堆无关的内容,我表示不理解。

    64110

    python global关键字_python中global是什么意思

    大家好,又见面了,我是你们的朋友全栈君。 终于下定决心学习Python了。既然从头开始,就需要认认真真。...首先需要说的是,我是初学Python,这篇文章只是用于展示global和nonlocal关键字的区别,是很简单的知识点,如果你已经学过,可以绕道。...因为不经常写博客,而且是个Python小白,所以内容有些啰嗦。。。 注意:我使用的是Python3.6.3,可能和Python2不同的地方,并未确认。...接下来是得到结论的过程,有兴趣的可以浏览一下。 我们先来看一个代码片段,看看默认情况下输出结果是什么(不敢恭维CSDN显示代码的格式,这里使用图片,如果要验证,得麻烦各位动动指头了)。...输出结果: 可以看到在func函数中修改x后,x被标识成局部变量,它的改变并没有影响全局变量x,但嵌套函数ifunc中的x受到了影响,显示ifunc中的x是func函数中的局部变量。

    1.6K20
    领券