网络爬虫,即Web Spider,是一个很形象的名字。网络爬虫就是一个爬行程序,一个抓取网页的程序,网络爬虫的基本操作是抓取网页。
在电脑术语中,统一资源标识符(Uniform Resource Identifier,或URI)是一个用于标识某一互联网资源名称的字符串。 该种标识允许用户对任何(包括本地和互联网)的资源通过特定的协议进行交互操作。URI由包括确定语法和相关协议的方案所定义。
爬虫最主要的处理对象就是URL,他根据URL地址取得所需要的文件内容,然后对它进行一步的处理。因此,准确的理解URL对理解网络爬虫至关重要。感兴趣的朋友可以过来看看