要实现一整套能用于大用户量、高并发场景下的IM群聊,技术难度远超IM系统中的其它功能,原因在于:IM群聊消息的实时写扩散特性带来了一系列技术难题。
举个例子:如一个2000人群里,一条普通消息的发出问题,将瞬间写扩散为2000条消息的接收问题,如何保证这些消息的及时、有序、高效地送达,涉及到的技术问题点实在太多,更别说个别场景下万人大群里的炸群消息难题了更别说个别场景下万人大群里的炸群消息难题了。
这也是为什么一般中大型IM系统中,都会将群聊单独拎出来考虑架构的设计,单独有针对性地进行架构优化,从而降低整个系统的设计难度。
本文将分享的是一套生产环境下的IM群聊消息系统的高可用、易伸缩、高并发架构设计实践,属于原创第一手资料,内容较专业,适合有一定IM架构经验的后端程序员阅读。
推荐:如有兴趣,本文作者的另一篇《一套原创分布式即时通讯(IM)系统理论架构方案》,也适合正在进行IM系统架构设计研究的同学阅读。
一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践
2019-04-02 01:59:06百度App网络深度优化系列《二》连接优化
2019-03-31 13:56:32连接优化需要解决两个核心问题
1. 连接建立耗时较长,导致请求的总时长变长,进而影响用户体验。
2. 在多变的网络环境下,连接建立的过程可能会失败,导致成功率下降,进而影响用户体验。
百度App承载着亿级流量,对于每一个请求都需要追求耗时短,成功率高的体验。从协议角度出发,如何才能做到这一点呢?首先我们来看下建立连接耗时的原理。
百度App网络深度优化系列《一》DNS优化
2019-03-31 13:53:53网络优化是客户端几大技术方向中公认的一个深度领域,所以百度App给大家带来网络深度优化系列文章,其中包含系列《一》DNS优化,系列《二》连接优化,系列《三》弱网优化,希望对大家在网络方向的学习和实践有所帮助。
百度起家于搜索,整个公司的网络架构和部署都是基于标准的internet协议,目前已经是全栈HTTPS,来到移动互联网时代后,总的基础架构不变,但在客户端上需要做很多优化工作。
DNS(Domain Name System),它的作用是根据域名查出IP地址,它是HTTP协议的前提,只有将域名正确的解析成IP地址后,后面的HTTP流程才能进行,所以一般做网络优化会首选优化DNS。
二、背景
DNS优化核心需要解决的问题有两点:
1.由于DNS劫持或故障造成的服务不可用,进而影响用户体验,影响公司的收入。
2.由于DNS调度不准确导致的性能退化,进而影响用户体验。
百度App承载着亿级流量,每年都会遇到运营商DNS劫持或运营商DNS故障,整体影响非常不好,所以DNS优化刻不容缓,通过下图会更直观的了解运营商劫持或故障的原理。
ZooKeeper 一致性协议 ZAB 原理
2019-03-27 12:58:35致性协议中生产环境中应用最多的了。为什么呢?因为他是为 Zookeeper 设计的分布式一致性协议!
一、什么是 ZAB 协议? ZAB 协议介绍
1、ZAB 协议全称:Zookeeper Atomic Broadcast(Zookeeper 原子广播协议)。
2、Zookeeper 是一个为分布式应用提供高效且可靠的分布式协调服务。在解决分布式一致性方面,Zookeeper 并没有使用 Paxos ,而是采用了 ZAB 协议。
3、ZAB 协议定义:ZAB 协议是为分布式协调服务 Zookeeper 专门设计的一种支持 崩溃恢复 和 原子广播 协议。下面我们会重点讲这两个东西。
4、基于该协议,Zookeeper 实现了一种 主备模式 的系统架构来保持集群中各个副本之间 数据一致性。具体如下图所示:
Linux/Unix下ODBC的安装、配置与编程
2019-03-27 00:04:12ODBC 是Open Database Connect 即开放数据库互连的简称,它是由Microsoft 公司于1991 年提出的一个用于访问数据库的统一界面标准,是应用程序和数据库系统之间的中间件。它通过使用相应应用平台上和所需数据库对应的驱动程序与应用程序的交互来实现对数据库的操作,避免了在应用程序中直接调用与数据库相关的操作,从而提供了数据库的独立性。
ODBC 主要由驱动程序和驱动程序管理器组成。驱动程序是一个用以支持ODBC 函数调用的模块,每个驱动程序对应于相应的数据库,当应用程序从基于一个数据库系统移植到另一个时,只需更改应用程序中由ODBC 管理程序设定的与相应数据库系统对应的别名即可。驱动程序管理器可链接到所有ODBC 应用程序中,它负责管理应用程序中ODBC 函数与DLL 中函数的绑定。
ODBC 使用层次的方法来管理数据库,在数据库通信结构的每一层,对可能出现依赖数据库产品自身特性的地方,ODBC 都引入一个公共接口以解决潜在的不一致性,从而很好地解决了基于数据库系统应用程序的相对独立性,这也是ODBC 一经推出就获得巨大成功的重要原因之一。
从结构上分,ODBC 分为单束式和多束式两类。
- 单束式驱动程序
单束式驱动程序介于应用程序和数据库之间,像中介驱动程序一样数据提供一个统一的数据访问方式。 当用户进行数据库操作时,应用程序传递一个ODBC 函数调用给ODBC 驱动程序管理器,由ODBC API 判断该调用是由它直接处理并将结果返回还是送交驱动程序执行并将结果返回。 由上可见,单束式驱动程序本身是一个数据库引擎,由它直接可完成对数据库的操作,尽管该数据库可能位于网络的任何地方。 - 多束式驱动程序
多束式驱动程序负责在数据库引擎和客户应用程序之间传送命令和数据,它本身并不执行数据处理操作而用于远程操作的网络通信协议的一个界面。 前端应用程序提出对数据库处理的请求,该请求转给ODBC 驱动程序管理器,驱动程序管理器依据请求的情况,就地完成或传给多束驱动程序,多束式驱动程序将请求翻译为特定厂家的数据库通信接口(如Oracle 的SQLNet)所能理解的形式并交于接口去处理,接口把请求经网络传送给服务器上的数据引擎,服务器处理完后把结果发回给数据库通信接口,数据库接口将结果传给多束式ODBC 驱动程序,再由驱动程序将结果传给应用程序。
很多程序员已经体会到了在Windows平台下的ODBC的益处,而在Linux/Unix下进行数据库编程的时候却不得不根据不同的数据库来选择特有的API进行编程,一旦数据库发生了改变,所有与这些API相关的程序都必须进行修改。其实在Linux/Unix下现在也有了自己的ODBC,可以使我们的数据库编程就像在Windows平台下一样简单。
Centos6安装gcc4.8及以上版本
2019-03-15 10:51:40很多场景我们编译C源码,都需要使用gcc4.8及以上版本,比如编译MySQL 8.0、GRPC等,原因是需要支持C++11
。但CentOS 6
其内置版本是gcc4.4。
使用
gcc --version
可以查看版本。
gRPC CentOS 编译安装
2019-03-15 10:17:29编译问题整理
Valgrind memcheck 用法
2019-03-11 06:49:12Valgrind是一组调试(debugging)和剖析(profiling)工具的集合。memcheck是其中应用最广泛的一个,它检查内存有关的问题,包括诸如内存访问越界、内存泄露等。
最适合数据分析师的数据库
2019-01-26 01:54:33CentOS6 在线安装PostgreSQL10
2019-01-26 01:13:40本文主要通过实际案例介绍如何在CentOS6环境中在线安装PostgreSQL10,安装环境需具备能够使用yum在线安装功能。具体安装步骤如下,
1 下载对应版本的PGDG文件
从https://yum.postgresql.org/repopackages.php页面找到对应的版本,
这里使用https://download.postgresql.org/pub/repos/yum/10/redhat/rhel-6-x86_64/pgdg-centos10-10-2.noarch.rpm
2 安装上述PGDG文件
yum install -y https://download.postgresql.org/pub/repos/yum/10/redhat/rhel-6-x86_64/pgdg-centos10-10-2.noarch.rpm
xChart数据可视化工具使用说明
2019-01-17 00:33:13一. xChart说明
xChart 是一个 c++/js/html 开发的数据可视化工具,通过SQL语句直接生成数据图表。xChart 通过对数据与图表间的关系建立相应的模型,
以求通过SQL直接查询数据并以图表形式展示,提供一个简单的方便的数据可视化平台。
xChart 在线测试地址:https://xchart.online/
使用MySQL进行数据统计
2019-01-14 07:42:50mysql是常用数据库,这篇文章主要给大家介绍了关于mysql中数据统计技巧,对MySQL数据统计相关使用技巧进行归纳总结。
倔强的程序员
2018-12-18 06:30:24对于程序员来说,大多数人公司都有技术和管理两条发展路线,通常在同一家公司,管理路线的发展可能性,要相对广阔一些;但是技术路线也有技术路线的好处,比如相对而言更依赖于硬实力,因而工作机会丰富。我相信有不少程序员都和我一样,坚守着技术路线,无论是进还是退,都对管理者的岗位没有什么兴趣。
兴许大家都听到软实力和硬实力的概念。对于一个技术人来说,硬实力大致上可以认为是计算机和软件工程相关的技术能力,1 还是 0,是还是非,会不会算法,懂不懂设计,清清楚楚,明明白白; 而软实力则反过来,听起来挺抽象,挺模糊,比如沟通能力,自我管理能力,但是却扮演者重要的角色,甚至随着职业生涯的发展,它的影响力越来越大。而性格,是软实力中一个很特别的影响因素。
Matrix:Mozilla中心化实时互操作通信标准
2018-10-18 13:15:24矩阵规范
Matrix定义了一组用于分散通信的开放API,适用于通过全局开放式服务器联合安全发布,持久化和订阅数据,而无需单一控制点。用途包括即时消息(IM),IP语音(VoIP)信令,物联网(IoT)通信以及将现有通信孤岛联系在一起 - 为新的开放式实时通信生态系统提供基础。
CentOS 二进制安装MySQL8.0.12
2018-10-17 08:46:01运行环境:centos+mysql8.0.12
1.下载官方打包好的二进制安装包:
#wget https://cdn.mysql.com//Downloads/MySQL-8.0/mysql-8.0.12-linux-glibc2.12-x86_64.tar.xz
可以看到这个版本采用了tar.xz的打包压缩方式,文件只有350M左右,下载还是满方便的。
GIT 学习手册简介
2018-09-27 23:28:54
本文为 Git 学习参考手册。目的是为学习与记忆 Git 使用中最重要、最普遍的命令提供快速翻阅。 这些命令以你可能需要的操作类型划分,并且将提供日常使用中需要的一些常用的命令以及参数。
本手册将从入门到精通指导大家。 首先,我们要从如何以 Git 的思维方式管理源代码开始。
如何以 GIT 的方式思考(这节可以不用看懂,接着看下面的内容,看完就全懂了。)
懂得 Git,第一件重要的事情就是要知道它与 Subversion、Perforce 或者任何你用过的版本控制工具都有着很大的差别。 通常,忘掉你预想的版本控制方式,改以 Git 的方式思考,能够帮助你更好地学习 Git。
让我们从头开始。假设你正在设计一个新的源代码管理系统。在你使用某个工具之前,是如何完成基本的源码版本控制工作的呢? 十有八九,你只是在项目到达某些阶段的时候,对项目做一份拷贝。
$ cp -R project project.bak
这样,你就可以在事情变得一团糟的时候很方便的返回到之前的状态,或者通过对比当前的项目与之前的拷贝,看看自己在之后的工作中,都做了哪些修改。
如果你有点偏执,你可能会经常作上面说的事情,或许还会给项目拷贝加个日期:
$ cp -R project project.2010-06-01.bak
如此,你就有了一堆项目在各个阶段的快照,来作比较、查看。使用这种模式,你还可以有效地与人分享项目变更。 如果你会在项目到达一定阶段的时候给它打个包,丢到自己的网站上,那其他的开发者们,就能很方便地下载它,做点改动,并给你补丁回馈。
$ wget http://example.com/project.2010-06-01.zip
$ unzip project.2010-06-01.zip
$ cp -R project.2010-06-01 project-my-copy
$ cd project-my-copy
$ (做了某些修改)
$ diff project-my-copy project.2010-06-01 > change.patch
$ (通过E-mail发送修改补丁)
以此方式,原先的开发者就能将其他人的改动应用到他的项目中去,其他开发者也能了解你做的变更。其实这便是许多开源项目采用过多年的协作方式。
这办法其实很好使,所以假设我们现在想要写个工具,让这个办法更快、更简单。 我们与其实现一个工具以记录每个文件的版本,可能不如去实现个工具以使创建、储存项目的快照更加方便,不用每次都去人肉作整个项目的拷贝。
这就是 Git 的精要所在。你通过 git commit告诉 Git 你想保存一份项目快照, Git 就会为你的项目中的各个文件的当前状态存一份记录。之后,绝大部分的 Git 命令都围绕这些记录展开。 比如查看它们的区别(diff),提取它们的内容,等等。
超高性能键值存储数据库 Anna
2018-09-17 09:17:38更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
题外话:RISE 实验室的前身是赫赫有名的伯克利 AMP 实验室,该实验室曾开发出了一大批大获成功的分布式技术,这些技术对高性能计算产生了深远的影响,包括 Spark、Mesos、Tachyon 等。如今,原 AMP 实验室博士生,同时也是 Spark 和 Mesos 核心作者之一的 Matei 已经转身去了斯坦福,并于去年年底推出了以普及机器学习实践为目的的开源项目 DAWN(详见 AI 前线报道 ),而 RISE 实验室也在没多久后推出了志在取代 Spark 的新型分布式执行框架 Ray(详见 AI 前线报道)。
linux 下使用 tc 模拟网络延迟和丢包
2018-09-12 08:06:50最容易引起好奇心的是什么?不能太熟悉也不能太陌生
2018-08-31 13:00:39人类有吃吃喝喝的欲望,也有繁殖后代的欲望。而卡耐基梅隆大学的经济学与心理学教授乔治·勒文斯坦(George Loewenstein)指出,好奇心也是如此。我们对学习的无穷欲望,对发明、探索和不断求知的欲望,“理应和其它欲望具有相同的地位”。
但好奇心的奇特之处在于,它似乎不与任何特定奖励有关。勒文斯坦曾经写道:“好奇心的理论之谜在于,人们为何对那些不会带来任何外在利益的信息如此着迷呢?”人们会追求食物、水、性爱、庇护所、休息、财富、或任何让生命多姿多彩、增添兴味的东西。但分析引力的本质、或登上月球,又有什么好处呢?
数据的未来:SQL正在击败NoSQL?
2018-08-11 23:35:37随着计算机的日益普及,各种应用每天产生的数据量呈指数级增长。如何存储这些数据,有效处理分析这些数据,并从中提取有价值的信息,是当下迫切需要解决的问题。在过去的十年里,NoSQL在软件工程师阵营里越来越受欢迎,其中最重要的实现是MapReduce ,Bigtable,Cassandra,MongoDB,等产品。 它主要用于解决SQL的可扩展性问题。
Effective C++读后总结归纳
2018-08-11 13:58:38改善程序与设计的55个具体做法(第3版) 的读书笔记
确保搞砸人工智能项目的十种方法
2018-08-05 11:33:27做成一件事儿不容易,而坑恒在。
鲍捷博士于5月10日在将门创投的线上 talk 中盘点了人工智能项目的大坑小坑,选出了看上去非常反常识的十个经典坑。
这是一篇大实话合集,但别绝望,最后将会放出从二十年踩坑经验中总结出的彩蛋,共勉。
作者介绍
鲍捷博士,文因互联 CEO。拥有20年学术界和工业界的相关经验。美国Iowa State University人工智能博士,RPI博士后,MIT访问研究员,W3C OWL(Web本体语言)工作组成员,前三星美国研发中心研究员,三星问答系统SVoice第二代系统核心设计师。主要研究领域涵盖人工智能的诸多分支,包括机器学习、神经网络、数据挖掘、自然语言处理、形式推理、语义网和本体工程等,发表了70多篇领域内相关论文。是中文信息学会语言与知识计算专委会委员,中国计算机协会会刊编委,W3C顾问会员会代表。2010年以来关注金融智能化的研究和应用,成果有XBRL语义模型,基于知识图谱的基本面分析、金融问答引擎、财务报告自动化提取、自动化监管等。
以下为演讲原文:
xcache系统 操作命令记录
2018-05-24 10:49:51xRedisCluster集群设计分享
2018-05-05 12:59:33几年前redis官方的集群还没有成熟前,自己也尝试设计了一个REDIS集群方案,主要思想是通过添加代理层,对redis数据节点进行管理,并初步的实现了下相关的代码。
不过后来官方的集群出来以后,基于proxy的方案就没有太大优势了,所以就没有继续开发了。
刚好看到以前的文档,就贴出来跟大家分享下。
QUIC协议规范
2018-04-15 13:04:03介绍
QUIC (Quick UDP Internet Connection,快速UDP互联网连接) 是一个新的基于UDP的多路复用且安全的传输协议,它从头开始设计,且为 HTTP/2 语义做了优化。尽管以 HTTP/2 作为主要的应用协议而构建,然而 QUIC 的构建是基于传输和安全领域数十年的经验的,且实现了使它成为有吸引力的现代通用传输协议的机制。QUIC提供了等价于 HTTP/2 的多路复用和流控,等价于 TLS 的安全机制,及等价于 TCP 的连接语义、可靠性和拥塞控制。
<!--more-->
QUIC完全运行于用户空间,它当前作为 Chromium 浏览器的一部分发布给用户,以便于快速的部署和实验。作为基于 UDP 的用户空间传输协议,QUIC 可以做一些由于遗留的客户端和中间设备,或旷日持久的操作系统开发和部署周期的阻碍,而被证明很难在现有的协议中部署的创新。
QUIC 的一个重要目标是通过快速的实验获得更好的传输设计相关的知识。作为结果,我们希望将其中的一些精华的改动迁移进 TCP 和 TLS,后者通常有着长得多的迭代周期。
这份文档描述标准化前 QUIC 协议的概念设计和协议规范。补充资料描述了加密和传输握手 [QUIC-CRYPTO],及丢失恢复和拥塞控制 [draft-iyengar-quic-loss-recovery]。其它资源,包括一份更详细的相关文档,可以在 Chromium 的 QUIC 主页 找到。
基于早期的部署的 QUIC 标准化建议为 [draft-hamilton-quic-transport-protocol],[draft-shade-quic-http2-mapping],[draft-iyengar-quic-loss-recovery],和 [draft-thomson-quic-tls]。
mysql存储过程使用心得
2018-04-11 04:23:40R语言-RMySQL的安装问题
2018-04-11 04:22:24最近想通过R语言做一些数据统计分析的事情,数据主要在MYSQL里,因些需要使用RMySQL, 在安装RMySQL时遇到些问题,
通过网上搜索很多解决方案并不是很有用,很多只说明了操作,并没有说明原因。我最终在WIN7上安装好了RMySQL, 在此把过程记录下来.
首先,一般安装R语言包,都是通过命令 :
install.packages('RMySQL')
但是看网上说的,在WIN下现在好像没有编译好的包了; 因此, 需要通过源码编译安装了。
常用工具安装整理
2018-04-08 08:00:48源码安装tmux2的时候,可能编译时会找不到 Libevent2的库
在编译前加上指定头文件和库文件目录就可以了:
./configure LIBEVENT_CFLAGS="-I/usr/local/include" LIBEVENT_LIBS="-L/usr/local/lib/ -levent"
我的NOSQL-xSkyDB数据库
2018-04-08 07:57:51平时一直在使用REDIS做为NOSQL数据库存储各种数据。
但在使用过程中, 感觉将REDIS做为数据库使用许多的不便, 缺少很多做为数据库
的基本功能,像没有表的概念,各种不同结构的数据存储在一个DB里没有明确的分类,
REDIS里类似功能需要通过自定义前缀来实现。
REDIS另一个不方便的地方,就是各种不同的结构操作采用不同的命令,这样就导致REDIS
的命令特别多,虽然这样可以使得对每个不同的数据结构进行比较细致的区分,在功能实现上也比较容易。
但带来的问题就是使用上不的便,使用中需要经常查询文档。
于是,我就开发了这个NOSQL:
使用REDIS的通信协议进行数据交互, 支持各种语言的CLIENT进行访问。
支持数据表概念,同结构的数据通过表进行管理,支持删除表。
类SQL的查询命令设计。
支持数据落地。
后台多线程。
测试地址:
./redis-cli -h 121.42.10.151 -p 6479
大学期间曾经发表的文章
2018-04-02 08:57:01以前玩安全的时候写过一些文章,发表在黑客防线上,现在看到当年写的东西,虽然很简单,但满满的都是回忆。。。