从字体裁剪到汉字文化探微:简体、繁体、日文汉字的Web优化实践
Web字体为何需要「瘦身」?
在网页设计中,CJK(China Japan Korea)字体的加载始终是网页性能优化的“顽疾”。一套完整的CJK字体(如思源黑体)往往包含近5万多个字符,体积高达10MB+,而在实际页面可能仅需几百字。对于繁体中文和日文网页,情况更为复杂:三者共享部分汉字(如“人”“山”),但字形细节、字符编码(Unicode分区)及高频用字存在显著差异。
传统方案如全量加载或静态子集化(Static Subsetting)难以应对多语言场景的灵活性需求,例如一个同时包括简体中文,繁体中文,日文汉字的页面,若统一使用全量字体文件,将浪费大量带宽(即使使用CDN,也会造成一定的渲染拥塞);若手动拆分简/繁/日子集,又需反复维护字符映射表。动态子集化(Dynamic Subsetting)是个好选择,但是又会需要使用三方库,造成对老平台的兼容性和可开发性困难。
共通汉字库 由此成为可用选项——但实现这一目标,首先需要回答一个根本问题:如何定义“常用汉字”?
汉字常用字标准的「战国时代」
简体字
由教育部发表的《通用规范汉字表》(2013版)收录8105字,分为三级:一级字表(3500字)覆盖99%书面语使用场景,但依据对实际当前简中部分门户网页的分析,前1500字即可满足90%以上需求。然而,无法避免偶尔在文本中会遇到的少见字无法覆盖的问题,比如'鎏金',所以还是需要对8105字完整保留。
繁体字
台湾地区教育部发表的《常用国字标准字体表》(4808字)与香港教育局发布的《常用字字形表》(4759字)看似数量接近,实则差异显著。例如'爲/為','裡/裏',加之香港保留部分粤语用字(如'咗','哋'),导致字符集无法直接并用。
日语汉字
日本《常用汉字表》(2136字)与JIS X 0213标准(约1万字)形成“核心+扩展”结构。但日文汉字存在独特的简笔字(如'桜→樱')、和制汉字(如'畑'),进一步的增加了子集化复杂度。