你们区分得出入职/⼊职吗?

@Ta 2022-07-18 278点击

好厉害啊,这都能找到个这么像的字,

要是用到老虎林的昵称里,@老虎会游泳 是不是要重新收缩字符集范围了

在手机上编辑帖子,标题上看还是能区分出来

帖子内容里就看不出来了。。

入职
⼊职

回复列表(13|隐藏机器人聊天)
  • @Ta / 2022-07-18 / /

    @老虎会游泳,上次好像搜集过一些,现在又发现了新的:

    内部
    內部

    耳朵
    ⽿朵

    凉爽
    凉爽

    试卷
    试巻

  • @Ta / 2022-07-18 / /

    @无名啊,标题看不出来,内容就能看出来

  • @Ta / 2022-07-18 / /

    Unicode规范化(兼容性拆分+规范组合,Normalizer::FORM_KC)解决了大部分问题。剩下的就是简体中文、繁体中文和日语汉字的字形差异,差异非常明显,不需要解决(如果要解决,需要使用简繁转换,这样@老虎會游泳就将无法幸存)。

    Screenshot_20220718_202828.jpg

    <?php
    $arr = [
      '入职', '⼊职',
      '内部', '內部',
      '耳朵', '⽿朵',
      '凉爽', '凉爽',
      '试卷', '试巻',
    ];
    
    for ($i=0; $i<count($arr); $i+=2) {
      $a = $arr[$i];
      $b = $arr[$i + 1];
      $c = Normalizer::normalize($a, Normalizer::FORM_KC);
      $d = Normalizer::normalize($b, Normalizer::FORM_KC);
    
      $au = json_encode($a);
      $bu = json_encode($b);
      $cu = json_encode($c);
      $du = json_encode($d);
    
      echo "$a ($au) -> $c ($cu)\n";
      echo "$b ($bu) -> $d ($du)\n";
      echo "    相同?   ", $a == $b ? '✓' : '×',
              "             ",
              $c == $d ? '✓' : '×', "\n";
    }
    
  • @Ta / 2022-07-18 / /

    @无名啊
    昵称用不了,,,我试过。。。
    昵称码点范围在 \u4e00-\u9fa5之间,\u4dff和\u9fa6都用不了,,
    坏孩子,其实你很好,但是还不够好

  • @Ta / 2022-07-19 / /

    @乄杺,我记得 @老虎会游泳 最近将昵称允许范围,扩大至整个 CJK 字符集了?

  • @Ta / 2022-07-19 / /

    @老虎会游泳,下次在微博想用类似招数时,会不会变成零宽字符啥的了

  • @Ta / 2022-07-19 / /

    @无名啊,微博和我有什么关系

  • @Ta / 2022-07-19 / /

    @老虎会游泳,没有关系,只是这个“分不清入职/⼊职”,是微博上的一个事件引起的

    觉得有意思,就来这侃侃

  • @Ta / 2022-07-19 / /

    @无名啊,哦。微博可以使用Unicode规范化(兼容性拆分+规范组合)来解决该问题。

  • @Ta / 2022-07-19 / /

    ⼊(U+2F0A)是一个康熙部首。

    https://unicode-table.com/cn/2F0A/

    Screenshot_20220719_170914.jpg

  • @Ta / 2022-07-19 / /

    @老虎会游泳, 我去试下先,,,,还是上次想换个牛13点的名字时,提示不在允许范围内,,然后才发现字符集限制在[\u4e00-\u9fa5]内
    坏孩子,其实你很好,但是还不够好

  • @Ta / 2022-07-19 / /

    @无名啊,之前没看到那篇帖子,
    坏孩子,其实你很好,但是还不够好

添加新回复
回复需要登录