一直卡在了 Scanning files to index....
状态之后会出现提礻框,也就是提示说给phpstorm分配的内存太少但是,自己要知道并不是分配的内存少哦。
本文将介绍 1: 网络爬虫的是做什么嘚? 2: 手动写一个简单的网络爬虫;
1: 网络爬虫是做什么的? 他的主要工作就是 跟据指定的url地址 去发送请求,获得响应, 然后解析响应 , 一方面从响应中查找出想要查找的数据,另一方面从响应中解析出新的URL路径,
然后继续访问,继续解析;继续查找需要的数据和继续解析出新的URL路径 .
这就是网络爬虫主要干的工作. 下面是流程图:
通过上面的流程图 能大概了解到 网络爬虫 干了哪些活 ,根据这些 也就能设计出一个简单的网络爬虫出来.
3: 对 过滤出嘚数据 进行存储 的功能 ;
下面就上代码: