数据库 2023-07-17

如何实现数据库同步到MongoDB？ (数据库同步到momgodb)

在今天的数据驱动的时代，数据的管理和处理变得越来越重要，因为数据是现代企业成功的关键。因此，越来越多的企业倾向于使用数据库来存储和管理其业务数据。然而，随着业务的发展，这些数据库存储的数据数量也变得越来越庞大，以至于传统的数据库管理方法已经无法满足大规模数据的存储和管理需求。这时，NoSQL数据库的出现成为了一个非常有效的解决方案。MongoDB是一种流行的NoSQL数据库，其具有高可扩展性、高性能和良好的数据处理能力。因此，我们可以考虑将企业中的传统数据库同步到MongoDB，以减轻传统数据库的压力，并更好地管理业务数据。

本文将介绍如何实现数据库同步到MongoDB。人们可以使用不同的技术和工具来实现这个过程，本文将着重介绍其中更流行的技术和工具，包括MongoDB的两种驱动程序、Kafka、Flume和Logstash等。

一、使用MongoDB驱动程序

一个直接的方法是使用MongoDB的驱动程序去从传统数据库中获取数据并将其同步到MongoDB中。MongoDB支持多种语言，包括Java、C++、Python等，因此我们可以使用适合自己编程的语言去实现驱动程序。

1. Java 驱动程序

如果您在使用Java编程语言，则您可以使用Java驱动程序。需要下载MongoDB驱动程序，并将其配置到Java类路径中。一旦配置完成，就可以使用以下代码从传统数据库中获取数据并将其同步到MongoDB中：

“`

import com.mongodb.MongoClient;

import com.mongodb.client.MongoDatabase;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.ResultSet;

import java.sql.Statement;

import org.bson.Document;

public class SyncData {

public static void mn( String args[] ) {

//Connect MongoDB

MongoClient mongoClient = new MongoClient( “localhost” , 27017 );

//Connect traditional database

Connection connection = DriverManager.getConnection(“url”, “username”, “password”);

//Query data from traditional database

Statement stmt = connection.createStatement();

String sql = “SELECT * FROM table_name”;

ResultSet rs = stmt.executeQuery(sql);

//Insert the queried data to MongoDB

MongoDatabase db = mongoClient.getDatabase(“database_name”);

while (rs.next()) {

Document document = new Document();

document.put(“column_1”, rs.getString(“column_1”));

document.put(“column_2”, rs.getString(“column_2”));

db.getCollection(“collection_name”).insertOne(document);

}

//Close resources

rs.close();

stmt.close();

connection.close();

}

“`

2. Python 驱动程序

如果您在使用Python编程语言，则您可以使用Python驱动程序。需要下载Python驱动程序，并将其安装到Python环境中。一旦安装完成，就可以使用以下代码从传统数据库中获取数据并将其同步到MongoDB中：

“`

from pymongo import MongoClient

import pymysql

import pymongo

# Connect MongoDB

client = MongoClient(‘localhost’, 27017)

# Connect traditional database

conn = pymysql.connect(host=’hostname’, user=’username’, password=’password’, db=’database_name’)

cursor = conn.cursor()

# Query data from traditional database

cursor.execute(‘SELECT * FROM table_name’)

results = cursor.fetchall()

# Insert the queried data to MongoDB

db = client[‘database_name’]

collection = db[‘collection_name’]

for row in results:

data_dict = {}

data_dict[‘column_1’] = row[0]

data_dict[‘column_2’] = row[1]

collection.insert_one(data_dict)

# Close resources

cursor.close()

conn.close()

“`

二、使用数据管道

使用驱动程序是一种直接的方式，但对于大规模数据同步和处理，常常需要使用数据管道。数据管道可以将源数据流水上传输到目标数据中。本文将介绍几个常见的数据管道，以帮助读者了解如何实现数据库同步到MongoDB。

1. 使用Kafka

Kafka是一个分布式的流数据平台，最初由LinkedIn开发。它支持数据管道，可以将大规模的数据从源系统发送到目标系统。Kafka采用发布-订阅模式，可以缓解数据流的压力并提高数据处理的吞吐量。

为了将数据从传统数据库同步到MongoDB中，我们需要以下步骤：

– 从传统数据库中获取数据流。

– 将数据写入Kafka topic中。

– 使用Kafka Connect将数据流中的数据传输到MongoDB中。

2. 使用Flume

Flume是Apache的一个分布式、可靠的、可用于处理海量数据的数据管理系统。它可以处理、聚合和传输大量数据。使用Flume将数据从传统数据库同步到MongoDB中，我们需要以下步骤：

– 从传统数据库中获取数据流。

– 将数据写入Flume channel中。

– 将Flume channel中的数据传输到MongoDB中。

3. 使用Logstash

Logstash是一个开源工具，用于收集、聚合和传输数据从各种位置。它可以从传统数据库中收集数据并将其传输到MongoDB中。使用Logstash将数据从传统数据库同步到MongoDB中，我们需要以下步骤：

– 使用JDBC插件连接传统数据库。

– 配置Elasticsearch输出插件以将数据传输到MongoDB中。

本文介绍了如何将传统数据库同步到MongoDB中。我们可以使用MongoDB的驱动程序或者数据管道，包括Kafka，Flume和Logstash等，来实现这个过程。对于大规模数据同步和处理，常常需要使用数据管道。它们可以将源数据流水上传输到目标数据中，缓解数据流的压力并提高数据处理的吞吐量。本文将帮助读者更好地理解如何实现数据库同步到MongoDB，并为互联网+、大数据等领域的开发者提供有益的参考。

相关问题拓展阅读：

怎么实现两个数据库的同步
如何将wireshark抓包的网络数据流数据存入到mongodb数据库中
单机mongodb数据库怎么导入分片集群中

怎么实现两个数据库的同步

问题一定要描述具体一些，数据库种类那么多，数据同步，随便一列都一堆：

1、MySQL同步数据到Oracle

2、MySQL同步数据到PostgreSQL

3、MySQL同步数据到SQL Server

4、MySQL同步数据到MongoDB

5、MySQL同步数据到DB2

6、Oracle同步数据到MySQL

7、Oracle同步数据到PostgreSQL

8、Oracle同步数据到SQL Server

9、Oracle同步数据到MongoDB

10、Oracle同步数据到孝掘DB2

11、SQL Server同步数据巧昌核到MySQL

12、SQL Server同步数据到Oracle

13、SQL Server同步数据到PostgreSQL

14、SQL Server同步数据到DB2

15、……

如果仅仅是数据汇聚方迅稿面的数据同步，可以用TreeSoft ，其他还有阿里的DataX等。

同步两个SQLServer数据库

如何同步两个sqlserver数据库的内容?程序代码可以有版本管理cvs进行同步管理,可是数据库同步就非常麻烦,只能自己改了一个后再去改另一个,如果忘记了更改另一个经常造成两个数据库的结构或内容上不一致.各位有什么好的方法吗?

一、分发与复制

用强制订阅实现数据库同步操作. 大量和批量的数据可以用数据库的同步机制处理:

说明：

为方便操作,所有操作均在发布服务器(分发服务器)上操作,并使用推模式

在客户机器使用强制订阅方式。

二、测试通过

1:环境

服务器环境:

机器名称： zehuadb

操作系统：windows 2023 server

数据库版本：sql 2023 server 个人版

客户端

机器名称：zlp

操作系统：windows 2023 server

数据库版本：sql 2023 server 个人版

2:建用户帐号

在服务器端建立域用户帐号

我的电脑管理->本地用户和组->用户->建立

username:zlp

userpwd:zlp

3:重新启动服务器mssqlserver

我的电脑->控制面版->管理工具->服务->mssqlserver 服务

(更改为：域用户帐号,我们新建的zlp用户 .\zlp,密码:zlp)

4:安装分发服务器

a:配置分发服务器

工具->复制->配置发布、订阅服务器和分发->下一步->下一步(所有的均采用默认配置)

b:配置发布服务器

工具->复制->创建和管理发布->选择要发布的数据库(sz)->下一步->

快照

发布->下一步->选择要发布的内容->下一步->下一步->下一步->完成

c:强制配置订阅服务器(推模式,拉模式与此雷同)

工具->复制->配置发布、订阅服务器和分发->订阅服务器->新建->

sql server

数据库->输入客户端服务器名称(zlp)->使用sql server 身份验证(sa,空密码)->确定->应用->确定

d:初始化订阅

复制监视器->发布服务器(zehuadb)->双击订阅->强制新建->下一步->选择启用的订阅服务器->zlp->下一步->下一步->下一步->下一步->完成

5:测试配置是否成功

复制监视器->发布衿?zehuadb)->双击sz:sz->点状态->点立即运行代理程序

查看：

复制监视器->发布服务器(zehuadb)->sz:sz->选择zlp:sz(类型强制)->鼠标右键->启动同步处理

如果没有错误岁毁数标志(红色叉)，恭喜您配置成功

6:测试数据

在服务器执行:

选择一个表，执行如下sql:insert into wq_newsgroup_s select ‘测试成功’乎首,5

复制监视器->发布服务余斗器(zehuadb)->sz:sz->快照->启动代理程序 ->zlp:sz(强制)->启动同步处理

去查看同步的 wq_newsgroup_s 是否插入了一条新的记录

测试完毕，通过。

7:修改数据库的同步时间,一般选择夜晚执行数据库同步处理

(具体操作略) :d

注意说明：

服务器一端不能以(local)进行数据的发布与分发,需要先删除注册，然后新建注册本地计算机名称

卸载方式：工具->复制->禁止发布->是在”zehuadb”上静止发布,卸载所有的数据库同步配置服务器

注意：发布服务器、分发服务器中的sqlserveragent服务必须启动

采用推模式: “d:\microsoft sql server\mssql\repldata\unc” 目录文件可以不设置共享

拉模式:则需要共享~!

少量数据库同步可以采用

触发器

实现,同步单表即可。

三、配置过程中可能出现的问题

在sql server 2023里设置和使用数据库复制之前，应先检查相关的几台sql server服务器下面几点是否满足：

1、mssqlserver和sqlserveragent服务是否是以域用户身份启动并运行的（.\administrator用户也是可以的）

如果登录用的是本地系统帐户local，将不具备网络功能，会产生以下错误:

进程未能连接到distributor ‘@server name’

(如果您的服务器已经用了sql server全文检索服务, 请不要修改mssqlserver和sqlserveragent服务的local启动。

会照成全文检索服务不能用。请换另外一台机器来做sql server 2023里复制中的分发服务器。)

修改服务启动的登录用户，需要重新启动mssqlserver和sqlserveragent服务才能生效。

2、检查相关的几台sql server服务器是否改过名称(需要srvid=0的本地机器上srvname和datasource一样)

在查询分析器里执行:

use master

select srvid,srvname,datasource from sysservers

如果没有srvid=0或者srvid=0（也就是本机器）但srvname和datasource不一样, 需要按如下方法修改:

use master

— 设置两个变量

declare @serverproperty_servername varchar(100),

@servername varchar(100)

— 取得windows nt 服务器和与指定的 sql server 实例关联的实例信息

select @serverproperty_servername = convert(varchar(100), serverproperty(‘servername’))

— 返回运行 microsoft sql server 的本地服务器名称

select @servername = convert(varchar(100), @@servername)

— 显示获取的这两个参数

select @serverproperty_servername,@servername

–如果@serverproperty_servername和@servername不同(因为你改过计算机名字),再运行下面的

–删除错误的服务器名

exec sp_dropserver @server=@servername

–添加正确的服务器名

exec sp_addserver @server=@serverproperty_servername, @local=’local’

修改这项参数，需要重新启动mssqlserver和sqlserveragent服务才能生效。

这样一来就不会在创建复制的过程中出现18482、18483错误了。

3、检查sql server企业管理器里面相关的几台sql server注册名是否和上面第二点里介绍的srvname一样

不能用ip地址的注册名。

（我们可以删掉ip地址的注册，新建以sql server管理员级别的用户注册的服务器名）

这样一来就不会在创建复制的过程中出现14010、20234、18456、18482、18483错误了。

4、检查相关的几台sql server服务器网络是否能够正常访问

如果ping主机ip地址可以，但ping主机名不通的时候，需要在

winnt\system32\drivers\etc\hosts (win2023)

windows\system32\drivers\etc\hosts (win2023)

文件里写入数据库服务器ip地址和主机名的对应关系。

例如：

127.0.0.localhost

192.168.0.35 oracledb oracledb

192.168.0.65 fengyu02 fengyu02

202.84.10.193 bj_dbbj_db

或者在sql server客户端网络实用工具里建立别名，例如:

5、系统需要的扩展

存储过程

是否存在(如果不存在，需要恢复):

sp_addextendedproc ‘xp_regenumvalues’,@dllname =’xpstar.dll’

sp_addextendedproc ‘xp_regdeletevalue’,@dllname =’xpstar.dll’

sp_addextendedproc ‘xp_regdeletekey’,@dllname =’xpstar.dll’

sp_addextendedproc xp_cmdshell ,@dllname =’xplog70.dll’

接下来就可以用sql server企业管理器里-> 右键选择 ->的图形界面来配置数据库复制了。

下面是按顺序列出配置复制的步骤:

1、建立发布和分发服务器

->->

文件夹

>-> -> ->

上述步骤完成后, 会在当前”@servername” sql server数据库里建立了一个distribion库和一个distributor_admin管理员级别的用户(我们可以任意修改密码)。

服务器上新增加了四个作业:

sql server企业管理器里多了一个复制监视器, 当前的这台机器就可以发布、分发、订阅了。

我们再次在sql server企业管理器里-> 右键选择 ->

我们可以在窗口-> -> -> -> -> / -> -> -> ->

把网络上的其它sql server服务器添加成为发布或者订阅服务器.

新增一台发布服务器的选项：

我这里新建立的jin001发布服务器是用管理员级别的数据库用户test连接的，

到发布服务器的管理链接要输入密码的可选框, 默认的是选中的，

在新建的jin001发布服务器上建立和分发服务器fengyu/fengyu的链接的时需要输入distributor_admin用户的密码。到发布服务器的管理链接要输入密码的可选框，也可以不选，也就是不需要密码来建立发布到分发服务器的链接(这当然欠缺安全，在测试环境下可以使用)。

2、新建立的网络上另一台发布服务器(例如jin001)选择分发服务器

-> 使用下列服务器(选定的服务器必须已配置为分发服务器) -> (例如fengyu/fengyu)

-> ->

-> -> ->

建立一个数据库复制发布的过程:

-> -> 右键选择 ->

-> -> ->

-> -> -> /

-> -> ->

-> -> -> ->

->,默认值是newid()>

(添加新列将: 导致不带列列表的 insert 语句失败,增加表的大小,增加生成之一个快照所要求的时间)

-> -> ->

发布属性里有很多有用的选项：设定订阅到期(例如24小时)

设定发布表的项目属性:

常规窗口可以指定发布目的表的名称，可以跟原来的表名称不一样。

下图是命令和快照窗口的栏目

( sql server 数据库复制技术实际上是用insert,update,delete操作在订阅服务器上重做发布服务器上的事务操作

看文档资料需要把发布数据库设成完全恢复模式，事务才不会丢失

但我自己在测试中发现发布数据库是简单恢复模式下，每10秒生成一些大事务，10分钟后再收缩数据库日志，

这期间发布和订阅服务器上的作业都暂停，暂停恢复后并没有丢失任何事务更改 )

发布表可以做数据筛选，例如只选择表里面的部分列:

例如只选择表里某些符合条件的记录, 我们可以手工编写筛选的sql语句:

发布表的订阅选项，并可以建立强制订阅:

成功建立了发布以后,发布服务器上新增加了一个作业:

分发服务器上新增加了两个作业:

类型

上面蓝色字的名称会根据发布服务器名,发布名及第几次发布而使用不同的编号

repl快照作业是sql server复制的前提条件,它会先把发布的表结构,数据,索引,约束等生成到发布服务器的os目录下文件

(当有订阅的时候才会生成, 当订阅请求初始化或者按照某个时间表调度生成)

repl日志读取器在事务复制的时候是一直处于运行状态。(在合并复制的时候可以根据调度的时间表来运行)

建立一个数据库复制订阅的过程:

-> -> 右键选择 ->

-> -> ->

(输入发布服务器上distributor_admin用户名和密码)

-> -> -> /

-> -> ->

(订阅服务器要能访问发布服务器的repldata文件夹，如果有问题，可以手工设置网络共享及共享权限)

-> -> ->

-> -> -> -> ->

-> -> ->

成功建立了订阅后，订阅服务器上新增加了一个类别是作业(合并复制的时候类别是)

它会按照我们给的时间调度表运行数据库同步复制的作业。

3、sql server复制配置好后, 可能出现异常情况的实验日志:

1.发布服务器断网,sql server服务关闭,重启动,关机的时候,对已经设置好的复制没有多大影响

中断期间,分发和订阅都接收到没有复制的事务信息

2.分发服务器断网,sql server服务关闭,重启动,关机的时候,对已经设置好的复制有一些影响

中断期间,发布服务器的事务排队堆积起来

(如果设置了较长时间才删除过期订阅的选项, 繁忙发布数据库的事务日志可能会较快速膨胀),

订阅服务器会因为访问不到发布服务器,反复重试

我们可以设置重试次数和重试的时间间隔(更大的重试次数是9999, 如果每分钟重试一次,可以支持约6.9天不出错)

分发服务器sql server服务启动,网络接通以后,发布服务器上的堆积作业将按时间顺序作用到订阅机器上:

会需要一个比较长的时间(实际上是生成所有事务的insert,update,delete语句,在订阅服务器上去执行)

我们在普通的pc机上实验的58个事务100228个命令执行花了7分28秒.

3.订阅服务器断网,sql server服务关闭,重启动,关机的时候,对已经设置好的复制影响比较大,可能需要重新初试化

我们实验环境(订阅服务器)从18:46分意外停机以, 第二天8:40分重启动后, 已经设好的复制在8:40分以后又开始正常运行了, 发布服务器上的堆积作业将按时间顺序作用到订阅机器上, 但复制管理器里出现快照的错误提示, 快照可能需要重新初试化,复制可能需要重新启动.(我们实验环境的机器并没有进行快照初试化,复制仍然是成功运行的)

4、删除已经建好的发布和定阅可以直接用delete删除按钮

我们更好总是按先删定阅，再删发布，最后禁用发布的顺序来操作。

如果要彻底删去sql server上面的复制设置, 可以这样操作:

-> 右键选择 ->

-> -> ->

我们也可以用t-sql命令来完成复制中发布及订阅的创建和删除, 选中已经设好的发布和订阅, 按属标右键可以。(这里就不详细讲了, 后面推荐的网站内有比较详细的内容)

当你试图删除或者变更一个table时，出现以下错误

server: msg 3724, level 16, state 2, line 1

cannot drop the table ‘object_name’ because it is being used for replication.

比较典型的情况是该table曾经用于复制，但是后来又删除了复制。

处理办法：

select * from sysobjects where replinfo >’0′

sp_configure ‘allow updates’, 1

reconfigure with override

begin transaction

update sysobjects set replinfo = ‘0’ where replinfo >’0′

commit transaction

rollback transaction

sp_configure ‘allow updates’, 0

reconfigure with override

实现两个数据库

同构同步

：属于数据库复制同步工具（

如甲骨文OGG/北京灵蜂Beedup

)

单向同粗闭雀步如 SQLServer A 到SQLServer B（SQLServer自带仅适用于自身）

双向同步如 SQLServer A 到 SQLServer B / SQLServer B 再到SQLServer A （SQLServer自带未有）

实现两个数据库

异构同步

：属于ETL转换工具岩早范畴（

如 Informatica / Beeload/BeeDI

)

单向同步如Oracle 到 SQL Server ……

如何将wireshark抓包的网络数据流数据存入到mongodb数据库中

定时生成文本文件，直接存入mongo

　　MongoDB是一个面向文档的数据库，目前由10gen开发并维护，它的功能丰富，齐全，所以完全可以替代MySQL。

　　与MySQL等关系型数据库相比，MongoDB的优点如下：

　　①弱一致性，更能保证用户的访问速度。

　　②文档结构的存储方式，能够更便捷的获取数据。

　　③内置GridFS，支持大容量的存储。

　　④内置Sharding。

　　⑤第三方支持丰富。慎凳(这是与其他宽羡旅的NoSQL相比，MongoDB也具有派孝的优势)

　　⑥性能优越：

单机mongodb数据库怎么导入分片集群中

准备工作：在导入数据前，先配置好要分片的数据库及表。

不然导入完成后，发现数据库，表没有同步到另外一个集群。

我这里做了从原单机数据库数据导出后，再分片集群库中导入操作握并。

当设置了要分段隐迹片的库，及表后，系统会自动帮你添加库及表。

设置完成后，就可以导入数据了。

use admin

db.runCommand({enablesharding:”ip”})

db.runCommand({shardcollection:”ip.ipaddress”,key:{ip1:1}})

./mongorestore -h 192.168.20.11 –portd ip /opt/携肢backup/ip/ip

./mongorestore -h 192.168.20.11 –portd dmp /opt/backup/dmp/dmp

1. 导出需要迁移的数据；

/usr/local/mongo/bin/mongodump –host 172.16.8.134:d 201 -o /data/data/mongo/tmp/ –directoryperdb

并且将该数据同步到131的/慧禅迟data/data/mongodb/tmp目录中

2. 建立之一个副本集

2.1 建立之一个袭银副本集前李shard1，不带分片的

server1:

/usr/local/mongo/bin/mongod –replSet shard1 –portdbpath=/data/data/mongodb/shard11 –logpath=/data/log/shard11.log –logappend –fork

server2:

/usr/local/mongo/bin/mongod –replSet shard1 –portdbpath=/data/data/mongodb/shard12 –logpath=/data/log/shard12.log –logappend –fork

server3:

/usr/local/mongo/bin/mongod –replSet shard1 –portdbpath=/data/data/mongodb/shard13 –logpath=/data/log/shard13.log –logappend –fork

2.2 初始化之一个副本集shard1

./mongo –port 29017

config={_id : ‘shard1’,members : }

rs.initiate(config)

数据库同步到momgodb的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于数据库同步到momgodb,如何实现数据库同步到MongoDB？,怎么实现两个数据库的同步,如何将wireshark抓包的网络数据流数据存入到mongodb数据库中,单机mongodb数据库怎么导入分片集群中的信息别忘了在本站进行查找喔。

数据运维技术 » 如何实现数据库同步到MongoDB？ (数据库同步到momgodb)

分享到：

怎么实现两个数据库的同步

如何将wireshark抓包的网络数据流数据存入到mongodb数据库中

单机mongodb数据库怎么导入分片集群中

相关推荐