字体文件提取对应字符关系

申明:本文没有放字体源文件和处理源码,以防止对源网站进行非法操作,出于交流目的可以联系作者。

近期最到一个需求:网页上的字体使用了自定义字体来显示不常用字体,来达到数据变向加密效果,我们就需要从字体文件里提取出来特殊字符并生成和真实显示效果语义的对应关系。
先看下截图:

  • 利用百度的文字识别接口把步骤3生成的大图里的文字进行识别
  • 把步骤4识别到的结果人工简单对比下(我这里的结果里少识别了一个字符)并和步骤3的顺序对应上
  • 经过上面的步骤我们就可以得到一个unicode码和真实对应字符之间的对应关系