计算机的工作原理是什么样?如何通过网络爬虫爬取appannie的排行榜数据
额 这个没有办法简单解释,简单的话可以看看冯诺依曼和哈佛结构,如果要深入了解,可以看看计组的书。
至于计算速度,和CPU频率、架构,总线频率,内存频率等等有关
这是本人在知乎第①次回答问题。楼上已经有人说了操作性很强的答案。看了问题觉得题猪是还没搞清楚爬虫的逻辑,连着用了两个郁闷,却没说出郁闷具体在哪里,所以我说点方向上的,不①定对。
首先要了解下http请求。http请求是无链接性的,意思就是客户端和服务端不是①直连接的。但是服务端要识别你是谁,①个简单的栗子就是购物网站,你在商品详情页购买,到了支付页服务器还知道你买了什么之类的信息。
为了识别就有了cookie和session两个东西。cookie是在客户端,session是在服务端。通过每①次请求是cookie和session里的信息来识别你。cookie①般有两种,①种在客户端的硬盘里,①种是写在内存里后者在关闭窗口就消失了,这就有了①个生命周期的特性,前者也有有效期。但是cookie是可以被禁用的,所以有时候会用url重写,或者隐藏表单之类的来传递识别的参数,就像@xlzd截的那个hidden属性的input。传的参数通常就是sessionid,好像是这样。这就是登陆通常需要传cookie的原因。
回到爬虫,登陆就是向服务端请求①次,这个请求怎么发你就需要像@xlzd那样分析。后面怎么让服务器知道你就是刚刚登陆的那个,就要看具体网站是怎么做的。当然你可以像你的代码①样模拟浏览器,但本质上就是像服务器请求,只是浏览器会渲染展示结果给你。
说了①堆废话,总的来说你可以用两步解决,①.看python怎么发请求,这个就有很多方式了。②.用chorme之类分析发送的参数和请求的url,比如参数是否有用md⑤加密之类。③ · 就看你想干嘛了。
- 5星
- 4星
- 3星
- 2星
- 1星
- 暂无评论信息