当前位置:首页 » 服务存储 » blob存储优化
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

blob存储优化

发布时间: 2022-05-17 14:58:01

A. Mysql Innodb存储引擎 select count 太慢,怎么优化

从 MySQL 5.7 开始,开发人员改变了 InnoDB 构建二级索引的方式,采用自下而上的方法,而不是早期版本中自上而下的方法了。在这篇文章中,我们将通过一个示例来说明如何构建 InnoDB 索引。最后,我将解释如何通过为 innodb_fill_factor 设置更合适的值。

索引构建过程

在有数据的表上构建索引,InnoDB 中有以下几个阶段:1.读取阶段(从聚簇索引读取并构建二级索引条目)2.合并排序阶段3.插入阶段(将排序记录插入二级索引)在 5.6 版本之前,MySQL 通过一次插入一条记录来构建二级索引。这是一种“自上而下”的方法。搜索插入位置从树的根部(顶部)开始并达到叶页(底部)。该记录插入光标指向的叶页上。在查找插入位置和进行业面拆分和合并方面开销很大。从MySQL 5.7开始,添加索引期间的插入阶段使用“排序索引构建”,也称为“批量索引加载”。在这种方法中,索引是“自下而上”构建的。即叶页(底部)首先构建,然后非叶级别直到根(顶部)。

示例

在这些情况下使用排序的索引构建:

  • ALTER TABLE t1 ADD INDEX(or CREATE INDEX)

  • ALTER TABLE t1 ADD FULLTEXT INDEX

  • ALTER TABLE t1 ADD COLUMN, ALGORITHM = INPLACE

  • OPIMIZE t1

  • 对于最后两个用例,ALTER 会创建一个中间表。中间表索引(主要和次要)使用“排序索引构建”构建。

  • 算法

  • 在 0 级别创建页,还要为此页创建一个游标

  • 使用 0 级别处的游标插入页面,直到填满

  • 页面填满后,创建一个兄弟页(不要插入到兄弟页)

  • 为当前的整页创建节点指针(子页中的最小键,子页码),并将节点指针插入上一级(父页)

  • 在较高级别,检查游标是否已定位。如果没有,请为该级别创建父页和游标

  • 在父页插入节点指针

  • 如果父页已填满,请重复步骤 3, 4, 5, 6

  • 现在插入兄弟页并使游标指向兄弟页

  • 在所有插入的末尾,每个级别的游标指向最右边的页。提交所有游标(意味着提交修改页面的迷你事务,释放所有锁存器)

  • 为简单起见,上述算法跳过了有关压缩页和 BLOB(外部存储的 BLOB)处理的细节。

  • 通过自下而上的方式构建索引

    为简单起见,假设子页和非子页中允许的 最大记录数为 3

  • CREATE TABLE t1 (a INT PRIMARY KEY, b INT, c BLOB);

  • INSERT INTO t1 VALUES (1, 11, 'hello111');

  • INSERT INTO t1 VALUES (2, 22, 'hello222');

  • INSERT INTO t1 VALUES (3, 33, 'hello333');

  • INSERT INTO t1 VALUES (4, 44, 'hello444');

  • INSERT INTO t1 VALUES (5, 55, 'hello555');

  • INSERT INTO t1 VALUES (6, 66, 'hello666');

  • INSERT INTO t1 VALUES (7, 77, 'hello777');

  • INSERT INTO t1 VALUES (8, 88, 'hello888');

  • INSERT INTO t1 VALUES (9, 99, 'hello999');

  • INSERT INTO t1 VALUES (10, 1010, 'hello101010');

  • ALTER TABLE t1 ADD INDEX k1(b);

  • InnoDB 将主键字段追加到二级索引。二级索引 k1 的记录格式为(b, a)。在排序阶段完成后,记录为:

  • (11,1), (22,2), (33,3), (44,4), (55,5), (66,6), (77,7), (88,8), (99,9), (1010, 10)

  • 初始插入阶段

  • 让我们从记录 (11,1) 开始。

  • 在 0 级别(叶级别)创建页

  • 创建一个到页的游标

  • 所有插入都将转到此页面,直到它填满了

  • 箭头显示游标当前指向的位置。它目前位于第 5 页,下一个插入将转到此页面。

  • 还有两个空闲插槽,因此插入记录 (22,2) 和 (33,3) 非常简单

    对于下一条记录 (44,4),页码 5 已满(前面提到的假设最大记录数为 3)。这就是步骤。

    页填充时的索引构建

  • 创建一个兄弟页,页码 6

  • 不要插入兄弟页

  • 在游标处提交页面,即迷你事务提交,释放锁存器等

  • 作为提交的一部分,创建节点指针并将其插入到 【当前级别 + 1】 的父页面中(即在 1 级别)

  • 节点指针的格式 (子页面中的最小键,子页码) 。第 5 页的最小键是 (11,1) 。在父级别插入记录 ((11,1),5)。

  • 1 级别的父页尚不存在,MySQL 创建页码 7 和指向页码 7 的游标。

  • 将 ((11,1),5) 插入第 7 页

  • 现在,返回到 0 级并创建从第 5 页到第 6 页的链接,反之亦然

  • 0 级别的游标现在指向兄弟页,页码为 6

  • 将 (44,4) 插入第 6 页

  • 下一个插入 - (55,5) 和 (66,6) - 很简单,它们转到第 6 页。

  • 插入记录 (77,7) 类似于 (44,4),除了父页面 (页面编号 7) 已经存在并且它有两个以上记录的空间。首先将节点指针 ((44,4),8) 插入第 7 页,然后将 (77,7) 记录到同级 8 页中。

  • 插入记录 (88,8) 和 (99,9) 很简单,因为第 8 页有两个空闲插槽。

  • 下一个插入 (1010,10) 。将节点指针 ((77,7),8) 插入 1级别的父页(页码 7)。

    MySQL 在 0 级创建同级页码 9。将记录 (1010,10) 插入第 9 页并将光标更改为此页面。

    以此类推。在上面的示例中,数据库在 0 级别提交到第 9 页,在 1 级别提交到第 7 页。

  • 我们现在有了一个完整的 B+-tree 索引,它是自下至上构建的!

  • 索引填充因子

    全局变量 innodb_fill_factor 用于设置插入 B-tree 页中的空间量。默认值为 100,表示使用整个业面(不包括页眉)。聚簇索引具有 innodb_fill_factor=100 的免除项。 在这种情况下,聚簇索引也空间的 1 /16 保持空闲。即 6.25% 的空间用于未来的 DML。

  • 值 80 意味着 MySQL 使用了 80% 的页空间填充,预留 20% 于未来的更新。如果 innodb_fill_factor=100 则没有剩余空间供未来插入二级索引。如果在添加索引后,期望表上有更多的 DML,则可能导致业面拆分并再次合并。在这种情况下,建议使用 80-90 之间的值。此变量还会影响使用 OPTIMIZE TABLE 和 ALTER TABLE DROP COLUMN, ALGOITHM=INPLACE 重新创建的索引。也不应该设置太低的值,例如低于 50。因为索引会占用浪费更多的磁盘空间,值较低时,索引中的页数较多,索引统计信息的采样可能不是最佳的。优化器可以选择具有次优统计信息的错误查询计划。

  • 排序索引构建的优点

  • 没有页面拆分(不包括压缩表)和合并

  • 没有重复搜索插入位置

  • 插入不会被重做记录(页分配除外),因此重做日志子系统的压力较小

  • 缺点

  • ALTER 正在进行时,插入性能降低 Bug#82940,但在后续版本中计划修复。

B. oracle插入blob字段可以批量吗

第一步:创建一个数据库可以访问的目录(注意:这个目录是数据库服务器上的目录,不是客户机上的)
-- Create directory
create or replace directory 图片目录
as 'E:\照片';
第二步:将图片文件放入刚建好的目录下面,不要在新建文件夹,就放在这个根目录
第三步:根据自己的具体需求,编写存储过程,在做之前,我也在网上找了很多,但基本都只是大概说一下,没有找到比较完整的,这里就把自己的项目源码贴出来,供大家学习交流。
CREATE OR REPLACE PROCEDURE PRO_插入图片(V_表名 IN VARCHAR2) IS
P_FILENAME VARCHAR2(50); --照片名,动态拼接得到
P_证件号码 VARCHAR2(50);
P_姓名 VARCHAR2(50);--这个照片名是通过姓名+证件号拼接得到的,因为基础测试数据没有提供真实的证件号码,就选择用手机号来代替
P_查询SQL VARCHAR2(500);
P_更新SQL VARCHAR2(5000);
P_LOB BLOB;
P_FILE BFILE;
TYPE P_REF_CURSOR IS REF CURSOR; --定义动态游标变量类型
P_CURSOR P_REF_CURSOR; --定义动态游标变量,因为一次要插入全表的照片,所以选择用游标来处理
TYPE P_ROW_RECORD IS RECORD(
证件号码 VARCHAR2(50),
姓名 VARCHAR2(50));
C_ROW P_ROW_RECORD;
V_ERR VARCHAR2(300);
BEGIN
P_更新SQL := 'update ' || V_表名 || ' set 证件号码=手机号码 WHERE 证件号码 IS NULL';
--用手机号来代替证件号码为空的数据
EXECUTE IMMEDIATE P_更新SQL;
COMMIT;
P_查询SQL := 'SELECT 证件号码,姓名 FROM ' || V_表名 ||
' WHERE 证件号码 IS NOT NULL and 照片 IS NULL order by 证件号码';
OPEN P_CURSOR FOR P_查询SQL;
LOOP
begin
FETCH P_CURSOR
INTO C_ROW;
EXIT WHEN P_CURSOR%NOTFOUND;
--获取证件号码和姓名,先排除空格等脏数据,然后拼接成文件名;
P_证件号码 := C_ROW.证件号码;
P_姓名 := C_ROW.姓名;
SELECT REPLACE(P_证件号码, ' ', '') INTO P_证件号码 FROM DUAL;
SELECT substr(P_证件号码, 1, 11) INTO P_证件号码 FROM DUAL;
SELECT REPLACE(P_姓名, ' ', '') INTO P_姓名 FROM DUAL;
P_FILENAME := P_证件号码 || P_姓名 || '.jpg';
SELECT REPLACE(P_FILENAME, ' ', '') INTO P_FILENAME FROM DUAL;
--以下便是插入图片的核心代码
INSERT INTO TA_照片总表_TEMP
(证件号码, 姓名, 照片)
VALUES
(P_证件号码, P_姓名, EMPTY_BLOB()) RETURN 照片 INTO P_LOB;
--获取指定目录下的文件
P_FILE := BFILENAME('图片目录', P_FILENAME);
--以只读的方式打开文件
DBMS_LOB.FILEOPEN(P_FILE, DBMS_LOB.FILE_READONLY);
--传递对象
DBMS_LOB.LOADFROMFILE(P_LOB, P_FILE, DBMS_LOB.GETLENGTH(P_FILE));
--关闭原始文件
DBMS_LOB.FILECLOSE(P_FILE);
COMMIT;
--通过更新语句来向目标表插入图片
P_更新SQL := 'UPDATE ' || V_表名 ||
' A SET a.照片=(SELECT 照片 FROM TA_照片总表_TEMP b
WHERE A.证件号码 = B.证件号码 and a.姓名=b.姓名 AND ROWNUM=1)
WHERE EXISTS (SELECT 1 FROM TA_照片总表_TEMP B WHERE A.证件号码 = B.证件号码 and a.姓名=b.姓名)';
EXECUTE IMMEDIATE P_更新SQL;
COMMIT;
EXCEPTION
--处理异常情况,这个可以在出现异常时跳过异常继续跑。正常数据依然可以插入,并且记录异常信息,方便异常处理。这个是因为第一次写的过程一报错就断掉了,本来可以插入的图片也无法继续,然后就做了这个优化。
WHEN OTHERS THEN
rollback;
V_ERR := SUBSTR(SQLERRM, 1, 150) || '照片名:' || P_FILENAME;
--定义一张异常信息记录表,是一个非常好的习惯
INSERT INTO TA_程序运行异常记录
VALUES
(SQ_异常序列.NEXTVAL, 'PRO_插入图片', V_ERR, SYSDATE);
COMMIT;
end;
END LOOP;
CLOSE P_CURSOR;
COMMIT;
DELETE TA_照片总表_TEMP;
COMMIT;
END PRO_插入图片;
然后测试、运行,基本都没问题,不过图片的大小,很影响实际插入的时间,这个时间的优化目前还没有好的对策。

C. mysql数据类型中blob和binary的区别

MySQL 数据类型细分下来,大概有以下几类:

  • 数值,典型代表为 tinyint,int,bigint

  • 浮点/定点,典型代表为 float,double,decimal 以及相关的同义词

  • 字符串,典型代表为 char,varchar

  • 时间日期,典型代表为 date,datetime,time,timestamp

  • 二进制,典型代表为 binary,varbinary

  • 位类型

  • 枚举类型

  • 集合类型

  • 大对象,比如 text,blob

  • json 文档类型

  • 一、数值类型(不是数据类型,别看错了)如果用来存放整数,根据范围的不同,选择不同的类型。


  • 注意:timestamp 代表的时间戳是一个 int32 存储的整数,取值范围为 '1970-01-01 00:00:01.000000' 到 '2038-01-19 03:14:07.999999';datetime 取值范围为 '1000-01-01 00:00:00.000000' 到 '9999-12-31 23:59:59.999999'。

  • 综上所述,日期这块类型的选择遵循以下原则:

  • 1. 如果时间有可能超过时间戳范围,优先选择 datetime。2. 如果需要单独获取年份值,比如按照年来分区,按照年来检索等,最好在表中添加一个 year 类型来参与。3. 如果需要单独获取日期或者时间,最好是单独存放,而不是简单的用 datetime 或者 timestamp。后面检索时,再加函数过滤,以免后期增加 SQL 编写带来额外消耗。

  • 4. 如果有保存毫秒类似的需求,最好是用时间类型自己的特性,不要直接用字符类型来代替。MySQL 内部的类型转换对资源额外的消耗也是需要考虑的。

    示例 5

  • 建立表 t5,对这些可能需要的字段全部分离开,这样以后写 SQL 语句的时候就很容易了。

  • 当然了,这种情形占用额外的磁盘空间。如果想在易用性与空间占用量大这两点来折中,可以用 MySQL 的虚拟列来实时计算。比如假设 c5 字段不存在,想要得到 c5 的结果。mysql-(ytt/3305)->alter table t5 drop c5, add c5 year generated always as (year(c1)) virtual;Query OK, 1 row affected (2.46 sec)Records: 1 Duplicates: 0 Warnings: 0



  • 五、二进制类型

  • binary 和 varbinary 对应了 char 和 varchar 的二进制存储,相关的特性都一样。不同的有以下几点:

  • binary(10)/varbinary(10) 代表的不是字符个数,而是字节数。

  • 行结束符不一样。char 的行结束符是 ,binary 的行结束符是 0x00。

  • 由于是二进制存储,所以字符编码以及排序规则这类就直接无效了。

  • 示例 6

    来看这个 binary 存取的简单示例,还是之前的变量 @a。

    切记!这里要提前计算好 @a 占用的字节数,以防存储溢出。


  • 六、位类型

  • bit 为 MySQL 里存储比特位的类型,最大支持 64 比特位, 直接以二进制方式存储,一般用来存储状态类的信息。比如,性别,真假等。具有以下特性:

  • 1. 对于 bit(8) 如果单纯存放 1 位,左边以 0 填充 00000001。2. 查询时可以直接十进制来过滤数据。3. 如果此字段加上索引,MySQL 不会自己做类型转换,只能用二进制来过滤。

  • 示例 7

  • 创建表 c1, 字段性别定义一个比特位。mysql-(ytt/3305)->create table c1(gender bit(1));Query OK, 0 rows affected (0.02 sec)



  • mysql-(ytt/3305)->select cast(gender as unsigned) 'f1' from c1;+------+| f1 |+------+| 0 || 1 |+------+2 rows in set (0.00 sec)


  • 过滤数据也一样,二进制或者直接十进制都行。mysql-(ytt/3305)->select conv(gender,16,10) as gender -> from c1 where gender = b'1';+--------+| gender |+--------+| 1|+--------+1 row in set (0.00 sec)mysql-(ytt/3305)->select conv(gender,16,10) as gender -> from c1 where gender = '1';+--------+| gender |+--------+| 1|+--------+1 row in set (0.00 sec)


  • 其实这样的场景,也可以定义为 char(0),这也是类似于 bit 非常优化的一种用法。

  • mysql-(ytt/3305)->create table c2(gender char(0));Query OK, 0 rows affected (0.03 sec)


  • 那现在我给表 c1 简单的造点测试数据。

  • mysql-(ytt/3305)->select count(*) from c1;+----------+| count(*) |+----------+| 33554432 |+----------+1 row in set (1.37 sec)


  • 把 c1 的数据全部插入 c2。

  • mysql-(ytt/3305)->insert into c2 select if(gender = 0,'',null) from c1;Query OK, 33554432 rows affected (2 min 18.80 sec)Records: 33554432 Duplicates: 0 Warnings: 0


  • 两张表的磁盘占用差不多。root@ytt-pc:/var/lib/mysql/3305/ytt# ls -sihl总用量 1.9G4085684 933M -rw-r----- 1 mysql mysql 932M 12月 11 10:16 c1.ibd4082686 917M -rw-r----- 1 mysql mysql 916M 12月 11 10:22 c2.ibd


  • 检索方式稍微有些不同,不过效率也差不多。所以说,字符类型不愧为万能类型。


  • 七、枚举类型

  • 枚举类型,也即 enum。适合提前规划好了所有已经知道的值,且未来最好不要加新值的情形。枚举类型有以下特性:

  • 1. 最大占用 2 Byte。2. 最大支持 65535 个不同元素。3. MySQL 后台存储以下标的方式,也就是 tinyint 或者 smallint 的方式,下标从 1 开始。4. 排序时按照下标排序,而不是按照里面元素的数据类型。所以这点要格外注意。

  • 示例 8

  • 创建表 t7。mysql-(ytt/3305)->create table t7(c1 enum('mysql','oracle','dble','postgresql','mongodb','redis','db2','sql server'));Query OK, 0 rows affected (0.03 sec)



  • 八、集合类型

    集合类型 SET 和枚举类似,也是得提前知道有多少个元素。SET 有以下特点:

  • 1. 最大占用 8 Byte,int64。2. 内部以二进制位的方式存储,对应的下标如果以十进制来看,就分别为 1,2,4,8,...,pow(2,63)。3. 最大支持 64 个不同的元素,重复元素的插入,取出来直接去重。4. 元素之间可以组合插入,比如下标为 1 和 2 的可以一起插入,直接插入 3 即可。

  • 示例 9

    定义表 c7 字段 c1 为 set 类型,包含了 8 个值,也就是下表最大为 pow(2,7)。

  • mysql-(ytt/3305)->create table c7(c1 set('mysql','oracle','dble','postgresql','mongodb','redis','db2','sql server'));Query OK, 0 rows affected (0.02 sec)


  • 插入 1 到 128 的所有组合。

  • mysql-(ytt/3305)->INSERT INTO c7WITH RECURSIVE ytt_number (cnt) AS ( SELECT 1 AS cnt UNION ALL SELECT cnt + 1 FROM ytt_number WHERE cnt < pow(2, 7) )SELECT *FROM ytt_number;Query OK, 128 rows affected (0.01 sec)Records: 128 Duplicates: 0 Warnings: 0

  • 九、数据类型在存储函数中的用法

    函数里除了显式声明的变量外,默认 session 变量的数据类型很弱,随着给定值的不同随意转换。

  • 示例 10

  • 定义一个函数,返回两个给定参数的乘积。定义里有两个变量,一个是 v_tmp 显式定义为 int64,另外一个 @vresult 随着给定值的类型随意变换类型。


    简单调用下。

  • mysql-(ytt/3305)->select ytt_sample_data_type(1111,222) 'result';+--------------------------+| result |+--------------------------+| The result is: '246642'. |+--------------------------+1 row in set (0.00 sec)


  • 总结

    本篇把 MySQL 基本的数据类型做了简单的介绍,并且用了一些容易理解的示例来梳理这些类型。我们在实际场景中,建议选择适合最合适的类型,不建议所有数据类型简单的最大化原则。比如能用 varchar(100),不用 varchar(1000)。

D. 浏览器端生成的blob数据怎么上传给服务器端的TP处理

1. 首先嘛,你得在浏览器里输入要网址:

2. 浏览器查找域名的IP地址

导航的第一步是通过访问的域名找出其IP地址。DNS查找过程如下:
浏览器缓存 – 浏览器会缓存DNS记录一段时间。 有趣的是,操作系统没有告诉浏览器储存DNS记录的时间,这样不同浏览器会储存个自固定的一个时间(2分钟到30分钟不等)。
系统缓存 – 如果在浏览器缓存里没有找到需要的记录,浏览器会做一个系统调用(windows里是gethostbyname)。这样便可获得系统缓存中的记录。
路由器缓存 – 接着,前面的查询请求发向路由器,它一般会有自己的DNS缓存。
ISP DNS 缓存 – 接下来要check的就是ISP缓存DNS的服务器。在这一般都能找到相应的缓存记录。
递归搜索 – 你的ISP的DNS服务器从跟域名服务器开始进行递归搜索,从.com顶级域名服务器到Facebook的域名服务器。一般DNS服务器的缓存中会有.com域名服务器中的域名,所以到顶级服务器的匹配过程不是那么必要了。
DNS递归查找如下图所示:

DNS有一点令人担忧,这就是像wikipedia.org 或者 facebook.com这样的整个域名看上去只是对应一个单独的IP地址。还好,有几种方法可以消除这个瓶颈:
循环 DNS 是DNS查找时返回多个IP时的解决方案。举例来说,Facebook.com实际上就对应了四个IP地址。
负载平衡器 是以一个特定IP地址进行侦听并将网络请求转发到集群服务器上的硬件设备。 一些大型的站点一般都会使用这种昂贵的高性能负载平衡器。
地理 DNS 根据用户所处的地理位置,通过把域名映射到多个不同的IP地址提高可扩展性。这样不同的服务器不能够更新同步状态,但映射静态内容的话非常好。
Anycast 是一个IP地址映射多个物理主机的路由技术。 美中不足,Anycast与TCP协议适应的不是很好,所以很少应用在那些方案中。
大多数DNS服务器使用Anycast来获得高效低延迟的DNS查找。

3. 浏览器给web服务器发送一个HTTP请求

因为像Facebook主页这样的动态页面,打开后在浏览器缓存中很快甚至马上就会过期,毫无疑问他们不能从中读取。
所以,浏览器将把一下请求发送到Facebook所在的服务器:
GET HTTP/1.1
Accept: application/x-ms-application, image/jpeg, application/xaml+xml, [...]
User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; [...]
Accept-Encoding: gzip, deflate
Connection: Keep-Alive
Host: facebook.com
Cookie: datr=1265876274-[...]; locale=en_US; lsd=WW[...]; c_user=2101[...]
GET 这个请求定义了要读取的URL: “”。 浏览器自身定义 (User-Agent 头), 和它希望接受什么类型的相应 (Accept and Accept-Encoding 头). Connection头要求服务器为了后边的请求不要关闭TCP连接。
请求中也包含浏览器存储的该域名的cookies。可能你已经知道,在不同页面请求当中,cookies是与跟踪一个网站状态相匹配的键值。这样cookies会存储登录用户名,服务器分配的密码和一些用户设置等。Cookies会以文本文档形式存储在客户机里,每次请求时发送给服务器。
用来看原始HTTP请求及其相应的工具很多。作者比较喜欢使用fiddler,当然也有像FireBug这样其他的工具。这些软件在网站优化时会帮上很大忙。
除了获取请求,还有一种是发送请求,它常在提交表单用到。发送请求通过URL传递其参数(e.g.: )。发送请求在请求正文头之后发送其参数。

像“”中的斜杠是至关重要的。这种情况下,浏览器能安全的添加斜杠。而像“http: //example.com/folderOrFile”这样的地址,因为浏览器不清楚folderOrFile到底是文件夹还是文件,所以不能自动添加 斜杠。这时,浏览器就不加斜杠直接访问地址,服务器会响应一个重定向,结果造成一次不必要的握手。

4. facebook服务的永久重定向响应

图中所示为Facebook服务器发回给浏览器的响应:
HTTP/1.1 301 Moved Permanently
Cache-Control: private, no-store, no-cache, must-revalidate, post-check=0,
pre-check=0
Expires: Sat, 01 Jan 2000 00:00:00 GMT
Location:
P3P: CP="DSP LAW"
Pragma: no-cache
Set-Cookie: made_write_conn=deleted; expires=Thu, 12-Feb-2009 05:09:50 GMT;
path=/; domain=.facebook.com; httponly
Content-Type: text/html; charset=utf-8
X-Cnection: close
Date: Fri, 12 Feb 2011 05:09:51 GMT
Content-Length: 0
服务器给浏览器响应一个301永久重定向响应,这样浏览器就会访问“” 而非“”。
为什么服务器一定要重定向而不是直接发会用户想看的网页内容呢?这个问题有好多有意思的答案。
其中一个原因跟搜索引擎排名有 关。你看,如果一个页面有两个地址,就像 和,搜索引擎会认为它们是两个网站,结果造成每一个的搜索链接都减少从而降低排名。而搜索引擎知道301永久重定向是 什么意思,这样就会把访问带www的和不带www的地址归到同一个网站排名下。
还有一个是用不同的地址会造成缓存友好性变差。当一个页面有好几个名字时,它可能会在缓存里出现好几次。
5. 浏览器跟踪重定向地址

现在,浏览器知道了“”才是要访问的正确地址,所以它会发送另一个获取请求:
GET HTTP/1.1
Accept: application/x-ms-application, image/jpeg, application/xaml+xml, [...]
Accept-Language: en-US
User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; [...]
Accept-Encoding: gzip, deflate
Connection: Keep-Alive
Cookie: lsd=XW[...]; c_user=21[...]; x-referer=[...]
Host:
头信息以之前请求中的意义相同。
6. 服务器“处理”请求

服务器接收到获取请求,然后处理并返回一个响应。
这表面上看起来是一个顺向的任务,但其实这中间发生了很多有意思的东西- 就像作者博客这样简单的网站,何况像facebook那样访问量大的网站呢!
Web 服务器软件
web服务器软件(像IIS和阿帕奇)接收到HTTP请求,然后确定执行什么请求处理来处理它。请求处理就是一个能够读懂请求并且能生成HTML来进行响应的程序(像ASP.NET,PHP,RUBY...)。
举 个最简单的例子,需求处理可以以映射网站地址结构的文件层次存储。像这个地 址会映射/httpdocs/folder1/page1.aspx这个文件。web服务器软件可以设置成为地址人工的对应请求处理,这样 page1.aspx的发布地址就可以是。
请求处理
请求处理阅读请求及它的参数和cookies。它会读取也可能更新一些数据,并讲数据存储在服务器上。然后,需求处理会生成一个HTML响应。
所 有动态网站都面临一个有意思的难点 -如何存储数据。小网站一半都会有一个SQL数据库来存储数据,存储大量数据和/或访问量大的网站不得不找一些办法把数据库分配到多台机器上。解决方案 有:sharding (基于主键值讲数据表分散到多个数据库中),复制,利用弱语义一致性的简化数据库。
委 托工作给批处理是一个廉价保持数据更新的技术。举例来讲,Fackbook得及时更新新闻feed,但数据支持下的“你可能认识的人”功能只需要每晚更新 (作者猜测是这样的,改功能如何完善不得而知)。批处理作业更新会导致一些不太重要的数据陈旧,但能使数据更新耕作更快更简洁。
7. 服务器发回一个HTML响应

图中为服务器生成并返回的响应:
HTTP/1.1 200 OK
Cache-Control: private, no-store, no-cache, must-revalidate, post-check=0,
pre-check=0
Expires: Sat, 01 Jan 2000 00:00:00 GMT
P3P: CP="DSP LAW"
Pragma: no-cache
Content-Encoding: gzip
Content-Type: text/html; charset=utf-8
X-Cnection: close
Transfer-Encoding: chunked
Date: Fri, 12 Feb 2011 09:05:55 GMT

2b3Tn@[...]
整个响应大小为35kB,其中大部分在整理后以blob类型传输。
内容编码头告诉浏览器整个响应体用gzip算法进行压缩。解压blob块后,你可以看到如下期望的HTML:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"">
<html xmlns="" xml:lang="en"
lang="en" id="facebook" class=" no_js">

...
关于压缩,头信息说明了是否缓存这个页面,如果缓存的话如何去做,有什么cookies要去设置(前面这个响应里没有这点)和隐私信息等等。
请注意报头中把Content-type设置为“text/html”。报头让浏览器将该响应内容以HTML形式呈现,而不是以文件形式下载它。浏览器会根据报头信息决定如何解释该响应,不过同时也会考虑像URL扩展内容等其他因素。
8. 浏览器开始显示HTML
在浏览器没有完整接受全部HTML文档时,它就已经开始显示这个页面了:

9. 浏览器发送获取嵌入在HTML中的对象

在浏览器显示HTML时,它会注意到需要获取其他地址内容的标签。这时,浏览器会发送一个获取请求来重新获得这些文件。
下面是几个我们访问facebook.com时需要重获取的几个URL:
图片


CSS 式样表


JavaScript 文件


这些地址都要经历一个和HTML读取类似的过程。所以浏览器会在DNS中查找这些域名,发送请求,重定向等等...
但 不像动态页面那样,静态文件会允许浏览器对其进行缓存。有的文件可能会不需要与服务器通讯,而从缓存中直接读取。服务器的响应中包含了静态文件保存的期限 信息,所以浏览器知道要把它们缓存多长时间。还有,每个响应都可能包含像版本号一样工作的ETag头(被请求变量的实体值),如果浏览器观察到文件的版本 ETag信息已经存在,就马上停止这个文件的传输。
试着猜猜看“fbcdn.net”在地址中代表什么?聪明的答案是"Facebook内容分发网络"。Facebook利用内容分发网络(CDN)分发像图片,CSS表和JavaScript文件这些静态文件。所以,这些文件会在全球很多CDN的数据中心中留下备份。
静态内容往往代表站点的带宽大小,也能通过CDN轻松的复制。通常网站会使用第三方的CDN。例如,Facebook的静态文件由最大的CDN提供商Akamai来托管。
举例来讲,当你试着ping static.ak.fbcdn.net的时候,可能会从某个akamai.net服务器上获得响应。有意思的是,当你同样再ping一次的时候,响应的服务器可能就不一样,这说明幕后的负载平衡开始起作用了。
10. 浏览器发送异步(AJAX)请求

在Web 2.0伟大精神的指引下,页面显示完成后客户端仍与服务器端保持着联系。
以 Facebook聊天功能为例,它会持续与服务器保持联系来及时更新你那些亮亮灰灰的好友状态。为了更新这些头像亮着的好友状态,在浏览器中执行的 JavaScript代码会给服务器发送异步请求。这个异步请求发送给特定的地址,它是一个按照程式构造的获取或发送请求。还是在Facebook这个例 子中,客户端发送给ajax/chat/buddy_list.php一个发布请求来获取你好友里哪个 在线的状态信息。
提起这个模式,就必须要讲讲"AJAX"-- “异步JavaScript 和 XML”,虽然服务器为什么用XML格式来进行响应也没有个一清二白的原因。再举个例子吧,对于异步请求,Facebook会返回一些JavaScript的代码片段。
除了其他,fiddler这个工具能够让你看到浏览器发送的异步请求。事实上,你不仅可以被动的做为这些请求的看客,还能主动出击修改和重新发送它们。AJAX请求这么容易被蒙,可着实让那些计分的在线游戏开发者们郁闷的了。(当然,可别那样骗人家~)
Facebook聊天功能提供了关于AJAX一个有意思的问题案例:把数据从服务器端推送到客户端。因为HTTP是一个请求-响应协议,所以聊天服务器不能把新消息发给客户。取而代之的是客户端不得不隔几秒就轮询下服务器端看自己有没有新消息。
这些情况发生时长轮询是个减轻服务器负载挺有趣的技术。如果当被轮询时服务器没有新消息,它就不理这个客户端。而当尚未超时的情况下收到了该客户的新消息,服务器就会找到未完成的请求,把新消息做为响应返回给客户端。

E. 含有blob字段的表查询特别慢,怎么优化SQL

sql语句是:
insert
into
db2.b
select
blob
from
db1.a
如果你的db2.b表不止一个字段,那么请把字段列在后面,并且其它字段要运行为空或者自动编号,例如:
insert
into
db2.b(blob)
select
blob
from
db1.a

F. mysql插入单笔数据耗时为10s如何优化

2个办法,
1、blob拆到另外一个表中,针对7W多数据,不是每条数据都有blob情况。
2、另外一方法,将blob彻底不用数据库存储,拆到硬盘目录下的文件方式存储