Linux系统 2023-07-14

Linux利用爬虫技术实现网页数据库的抓取 (linux抓取网页数据库)

随着互联网的不断发展和普及，网页数量和种类不断增加，越来越多的信息需要被收集和整理。而网页抓取技术正是用来实现这一目标的工具之一。Linux作为当今更受欢迎的操作系统之一，拥有强大的命令行界面和丰富的开源软件，其应用领域也变得越来越广泛。本文将介绍如何在Linux环境下使用爬虫技术实现网页数据库的抓取。

一、常用的网页抓取工具

在Linux系统下，有许多强大的开源工具可以用来实现网页抓取。以下列举几种常用的工具：

1. wget

wget是一种常用的命令行工具，用来从网络上下载文件。它不仅可以下载整个网站，还可以指定下载某些文件或文件类型。wget不支持JavaScript和动态网页抓取。

2. curl

curl是另一种常用的命令行工具，用来处理URL（Uniform Resource Locator）和相关的协议。它支持多种协议，包括HTTP、FTP、TP等。curl也支持JavaScript和动态网页抓取。

3. scrapy

scrapy是一个Python开源的web爬虫框架，可以用来抓取各种网站。它的核心是一个调度器，可以根据需求自行定义抓取规则，支持多线程抓取。

二、网页抓取的基本流程

网页抓取的基本流程如下：

1. 获取网页源码

获取网页源码是网页抓取的之一步。在Linux系统中，可以使用wget或curl命令来获取网页源码。如下所示：

使用wget命令获取网页源码：

wget http://www.bdu.com

使用curl命令获取网页源码：

curl http://www.bdu.com

2. 解析网页源码

获取网页源码后，需要对其进行解析。解析网页源码的主要方式是使用正则表达式或XPath语法来提取所需的信息。对于难以解析的网页，可以使用一些开源的HTML解析包来处理。Linux环境下的HTML解析包有BeautifulSoup、lxml等。

3. 存储数据

网页抓取完成后，需要将抓取到的数据存储到数据库中。常用的数据库系统有MySQL、PostgreSQL等。

三、使用scrapy实现网页抓取

为了更方便地进行网页抓取，可以使用Python开源的web爬虫框架scrapy。以下是使用scrapy实现网页抓取的步骤：

1. 创建项目

使用如下命令创建一个名为myproject的scrapy项目：

scrapy startproject myproject

2. 创建spider

Spider是scrapy的核心组件之一，它定义了如何抓取和解析数据。使用如下命令创建一个名为myspider的spider：

scrapy genspider myspider http://www.example.com

其中，http://www.example.com是目标网站的地址。

3. 定义Item

Item是用来存储抓取到的数据的容器。定义Item的方式如下：

import scrapy

class MyprojectItem(scrapy.Item):

title = scrapy.Field()

link = scrapy.Field()

desc = scrapy.Field()

其中，title、link和desc是需要抓取的三个字段。

4. 编写Spider

Spider的作用是根据设定的规则，从指定的URL开始抓取数据。以下是一个简单的Spider示例：

import scrapy

from myproject.items import MyprojectItem

class MyspiderSpider(scrapy.Spider):

name = ‘myspider’

allowed_domns = [‘example.com’]

start_urls = [‘http://www.example.com’]

def parse(self, response):

for sel in response.xpath(‘//ul/li’):

item = MyprojectItem()

item[‘title’] = sel.xpath(‘a/text()’).extract_first()

item[‘link’] = sel.xpath(‘a/@href’).extract_first()

item[‘desc’] = sel.xpath(‘text()’).extract_first()

yield item

其中，allowed_domns是指定的域名，start_urls是起始的URL。

5. 运行Spider

使用如下命令启动Spider：

scrapy crawl myspider

Spider运行后，抓取到的数据将存储在Item Pipeline中。

四、

网页抓取技术在数据收集和整理方面具有重要的作用。Linux系统下有许多开源的工具和框架可供选择，如wget、curl、scrapy等。使用scrapy框架可以更方便地进行网页抓取，并将抓取到的数据存储到数据库中。在使用网页抓取技术时，需要注意合法使用、遵守法律法规和相关规定，不得用于非法用途。

相关问题拓展阅读：

linux环境下python怎样操作mysql数据库
使用PHP的cURL库进行网页抓取
linux下mysql 怎么查询数据库

linux环境下python怎样操作mysql数据库

linux环境下python怎样操作mysql数据库呢？方法如下：

首先在Linux环境下安装mysql-python

1、下载mysql-python

打开终端：

cd /usr/local

sudo wget

官网地址：

2、解压

sudo tar -zxvf MySQL-python-1.2.2.tar.gz

cd MySQL-python-1.2.2

3、在安仔册装前需进行配置

a、修改setup_posix.py中的mysql_config.path为你mysql安装目录的mysql_config路径

b、修改site.cfg中的threadsafe = False，去掉mysql_config前的注释，并改为mysql_config = /usr/local/mysql/bin/mysql_config

c、执行命令：

export LD_LIBRARY_PATH=/usr/local/mysql/lib/mysql

sudo ln -s /usr/local/mysql/lib/mysql/libmysqlclient.so /usr/lib/libmysqlclient.so.14

sudo ldconfig (这个很重要，否则后面会报错ImportError: libmysqlclient.so.14: cannot open shared object file)

4、编译安装

1）python setup.py build

若未成功的话，需手动安装setuptools：

sudo apt-get install python-setuptools

2）sudo python setup.py install

5、测试

python

>>> import MySQLdb

没有错误，则表示安装成功了。

使用python操作MySQL

使用python连接MySQL，创建数据库，创建表格，插入/查询数据。python_mysql.py代码如下：

效果如图：

若出现类似于此的警告：

/usr/local/lib/python2.6/dist-packages/MySQL_python-1.2.2-py2.6-linux-i686.egg/MySQLdb/__init__.py:34: DeprecationWarning: the sets module is deprecated from sets import ImmutableSet

解决办法如下：

找到上面路径MySQLdb下的__init__.py文件

1) 在文件中 “__init__.py”中，注释掉:

from sets import ImmutableSet

class DBAPISet(ImmutableSet):

新增:

class DBAPISet(frozenset):

2) 在文件”converters.py”中，注释掉 from sets import BaseSet, Set 这一句话。

3) 在文件”converters.py”中，修改其中的”Set” 成为念稿宏 “set” ( 只有两个地敬高方需要修改，即大写改小写)

大概 line 45: return Set() 改为 return set()

大概 line 129: Set: Set2Str, 改为 set: Set2Str,

1.引入MySQLdb库

import MySQLdb

2.和数据库建立连接

conn=MySQLdb.connect(host=”localhost”,user=”root”,passwd=”sa”,db=”mytable”,charset=”utf8″)

提供的connect方法用来和数据库建立连接,接收数个参数,返回连接对象.

比较常用的参数包括

host:数据库主机名.默认是用本地主机.

user:数据库登陆名.默认是当前用户.

passwd:数据库登陆的秘密.默认为空.

db:要使用的数据库名.没有默认值.

port:MySQL服务使用的TCP端口.默认是3306.

charset:数据库编码.

然后,这个连接对象也提供了对事务操作的支持,标准的方法

commit() 提交

rollback() 回滚

3.执行sql语句和接收返回值

cursor=conn.cursor()

n=cursor.execute(sql,param)

首先,我们用使用连接对象获得一个cursor对象,接下来,我们会使用cursor提供的方法来进行工作.这些方法包括两大类:1.执行命令,2.接收返回值

cursor用来执行命令的方法:

callproc(self, procname, args):用来执行存储过程,接收的参数为存储过程名和参数列表,返回值为受影响的行数

execute(self, query, args):执行单条sql语句,接收的参数为sql语句本身和使用的参数列表,返回值为受影响的行数

executemany(self, query, args):执行单条sql语句,但是重复执行参数列表里的参数,返回值为受影响的行数

nextset(self):移动到下一个结果集

cursor用来接收返回值的方法:

fetchall(self):接收全部的返回结果行.

fetchmany(self, size=None):接收size条返回结果行.如果size的值大于返回的结果行的数量,则会返回cursor.arraysize条数据.

fetchone(self):返回一条结果行.

scroll(self, value, mode=’relative’):移动指针到某一行.如果mode=’relative’,则表示从当前所在行移动value条,如果mode=’absolute’,则表示从结果集的之一行移动value条.

下面的代码是一个完整的例子.

#使用sql语句,这里要接收的参数都用%s占位符.要注意的是,无论你要插入的数据是什么类型,占位符永远都要用%s

sql=”insert into cdinfo values(%s,%s,%s,%s,%s)”

#param应该为tuple或者list

param=(title,singer,imgurl,url,alpha)

#执行,如果成功,n的值为1

n=cursor.execute(sql,param)

#再来执行一个查询的操作

cursor.execute(“select * from cdinfo”)

#我们使用了fetchall这个方法.这样,cds里保存的将会是查询返回的全部结果.每条结果都是一个tuple类型的数据,这些tuple组成了一个tuple

cds=cursor.fetchall()

#因为是tuple,所以可以这样使用结果集

print cds

#或者直接显示出来,看看结果集的真实样子

print cds

#如果需要批量的插入数据,就这样做

sql=”insert into cdinfo values(0,%s,%s,%s,%s,%s)”

#每个值的为一个tuple,整个参数集组成一个tuple,或者list

param=((title,singer,imgurl,url,alpha),(title2,singer2,imgurl2,url2,alpha2))

#使用executemany方法来批量的插入数据.这真是一个很酷的方法!

n=cursor.executemany(sql,param)

4.关闭数据库连接

需要分别的关闭指针对象和连接对象.他们有名字相同的方法

cursor.close()

conn.close()

以上方法就可以了。

另外，附MySQLdb的相关资料

更多关于MySQLdb的信息可以查这里：

mysqldb

使用PHP的cURL库进行网页抓取

使用模明仿PHP的cURL库可以简单和有效地去抓网页你只需要运行一个脚本然后分析一下你所抓取的网页然后就可以以程序的方式得到你想要的数据了无论是你想从从一个链接上取部分数据或是取一个XML文件并把其导入数据库那怕就是简单的获取网页内容 cURL 是一个功能强大的PHP库本文主要讲述如果使用这个PHP库

　　

启用 cURL 设置

首先我们得先要确定我们的PHP是否开启了这个库你可以通过使用php_info()函数来得到这一信息

﹤?phpphpinfo();?﹥

　　如果你可以在网页上看到下面的输出那么表示cURL库已被开启

　　如果你看到的话那么你需要设置你的PHP并开启这个库如果你是在Windows平台下那么非常简单你需要改一改你的php ini文件的设置找到php_curl dll 并取消前面的分号注释就行了如下所示

//取消下在的注释extension=php_curl dll

　　如果你旦纤是在Linux下面那么你需要重新编译你的PHP了编辑时你需要打开编译参数——在configure命令上加上 –with curl 参数

　　

一个小示例

　　如果一切就绪下面是一个小例程

﹤?php// 初始化一个 cURL 对象$curl = curl_init();

// 设置你需要抓取的URLcurl_setopt($curl CURLOPT_URL //cocre );

// 设置headercurl_setopt($curl CURLOPT_HEADER );

// 设置cURL 参数要求结果保存到字符串中还是输出到屏幕上槐链 curl_setopt($curl CURLOPT_RETURNTRANSFER );

// 运行cURL 请求网页$data = curl_exec($curl);

// 关闭URL请求curl_close($curl);

// 显示获得的数据var_dump($data);

　　

如何POST数据

　　上面是抓取网页的代码下面则是向某个网页POST数据假设我们有一个处理表单的网址// example /sendS php 其可以接受两个表单域一个是号码一个是短信内容

﹤?php$phoneNumber =;$message = This message was generated by curl and php ;$curlPost = pNUMBER=urlencode($phoneNumber) &MESSAGE=urlencode($message) &SUBMIT=Send ;$ch = curl_init();curl_setopt($ch CURLOPT_URL // example /sendS php );curl_setopt($ch CURLOPT_HEADER );curl_setopt($ch CURLOPT_RETURNTRANSFER );curl_setopt($ch CURLOPT_POST );curl_setopt($ch CURLOPT_POSTFIELDS $curlPost);$data = curl_exec();curl_close($ch);?﹥

　　从上面的程序我们可以看到使用CURLOPT_POST设置HTTP协议的POST方法而不是GET方法然后以CURLOPT_POSTFIELDS设置POST的数据

　

　关于代理服务器

　　下面是一个如何使用代理服务器的示例请注意其中高亮的代码代码很简单我就不用多说了

﹤?php $ch = curl_init();curl_setopt($ch CURLOPT_URL // example );curl_setopt($ch CURLOPT_HEADER );curl_setopt($ch CURLOPT_RETURNTRANSFER );curl_setopt($ch CURLOPT_HTTPPROXYTUNNEL );curl_setopt($ch CURLOPT_PROXY fakeproxy :);curl_setopt($ch CURLOPT_PROXYUSERPWD user:password );$data = curl_exec();curl_close($ch);?﹥

　　关于SSL和Cookie

　　关于SSL也就是HTTPS协议你只需要把CURLOPT_URL连接中的//变成//就可以了当然还有一个参数叫CURLOPT_SSL_VERIFYHOST可以设置为验证站点

　　关于Cookie 你需要了解下面三个参数

　　CURLOPT_COOKIE 在当面的会话中设置一个cookie

　　CURLOPT_COOKIEJAR 当会话结束的时候保存一个Cookie

　　CURLOPT_COOKIEFILE Cookie的文件

　　

HTTP服务器认证

　　最后我们来看一看HTTP服务器认证的情况

﹤?php $ch = curl_init();curl_setopt($ch CURLOPT_URL // example );curl_setopt($ch CURLOPT_RETURNTRANSFER );curl_setopt($ch CURLOPT_HTTPAUTH CURLAUTH_BASIC);curl_setopt(CURLOPT_USERPWD : )

$data = curl_exec();curl_close($ch);?﹥

linux下mysql 怎么查询数据库

mysql -u root -p

1：在终端下：mysql -V。以下是代码此没笑片段：

$ mysql -V

2：在mysql中：mysql>察罩 status;

以下是代码森含片段：

关于linux抓取网页数据库的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

数据运维技术 » Linux利用爬虫技术实现网页数据库的抓取 (linux抓取网页数据库)

分享到：

linux环境下python怎样操作mysql数据库

使用PHP的cURL库进行网页抓取

linux下mysql 怎么查询数据库

相关推荐