你们区分得出入职/⼊职吗？

无名啊

@Ta 2022-07-18 278点击

好厉害啊，这都能找到个这么像的字，

要是用到老虎林的昵称里，@老虎会游泳是不是要重新收缩字符集范围了

在手机上编辑帖子，标题上看还是能区分出来

帖子内容里就看不出来了。。

入职
⼊职

隐藏样式查看源码

回复列表(13|隐藏机器人聊天)

1

无名啊

@Ta / 2022-07-18 / 样 / 源

@老虎会游泳，上次好像搜集过一些，现在又发现了新的：

内部
內部

耳朵
⽿朵

凉爽
凉爽

试卷
试巻
2

没落的情绪

@Ta / 2022-07-18 / 样 / 源

@无名啊，标题看不出来，内容就能看出来

老虎会游泳

@Ta / 2022-07-18 / 样 / 源

Unicode规范化（兼容性拆分+规范组合，Normalizer::FORM_KC）解决了大部分问题。剩下的就是简体中文、繁体中文和日语汉字的字形差异，差异非常明显，不需要解决（如果要解决，需要使用简繁转换，这样@老虎會游泳就将无法幸存）。

<?php
$arr = [
  '入职', '⼊职',
  '内部', '內部',
  '耳朵', '⽿朵',
  '凉爽', '凉爽',
  '试卷', '试巻',
];

for ($i=0; $i<count($arr); $i+=2) {
  $a = $arr[$i];
  $b = $arr[$i + 1];
  $c = Normalizer::normalize($a, Normalizer::FORM_KC);
  $d = Normalizer::normalize($b, Normalizer::FORM_KC);

  $au = json_encode($a);
  $bu = json_encode($b);
  $cu = json_encode($c);
  $du = json_encode($d);

  echo "$a ($au) -> $c ($cu)\n";
  echo "$b ($bu) -> $d ($du)\n";
  echo "    相同？   ", $a == $b ? '✓' : '×',
          "             ",
          $c == $d ? '✓' : '×', "\n";
}

4

乄杺

@Ta / 2022-07-18 / 样 / 源

@无名啊，
昵称用不了，，，我试过。。。
昵称码点范围在 \u4e00-\u9fa5之间，\u4dff和\u9fa6都用不了，，
坏孩子，其实你很好，但是还不够好
5

无名啊

@Ta / 2022-07-19 / 样 / 源

@乄杺，我记得 @老虎会游泳最近将昵称允许范围，扩大至整个 CJK 字符集了？
6

老虎会游泳

@Ta / 2022-07-19 / 样 / 源

@乄杺，现在可以了
https://hu60.cn/q.php/bbs.topic.103357.2.html?floor=29#29
7

无名啊

@Ta / 2022-07-19 / 样 / 源

@老虎会游泳，下次在微博想用类似招数时，会不会变成零宽字符啥的了
8

老虎会游泳

@Ta / 2022-07-19 / 样 / 源

@无名啊，微博和我有什么关系
9

无名啊

@Ta / 2022-07-19 / 样 / 源

@老虎会游泳，没有关系，只是这个“分不清入职/⼊职”，是微博上的一个事件引起的

觉得有意思，就来这侃侃
10

老虎会游泳

@Ta / 2022-07-19 / 样 / 源

@无名啊，哦。微博可以使用Unicode规范化（兼容性拆分+规范组合）来解决该问题。
11

老虎会游泳

@Ta / 2022-07-19 / 样 / 源

⼊（U+2F0A）是一个康熙部首。

https://unicode-table.com/cn/2F0A/
12

乄杺

@Ta / 2022-07-19 / 样 / 源

@老虎会游泳，我去试下先，，，，还是上次想换个牛13点的名字时，提示不在允许范围内，，然后才发现字符集限制在[\u4e00-\u9fa5]内
坏孩子，其实你很好，但是还不够好
13

乄杺

@Ta / 2022-07-19 / 样 / 源

@无名啊，之前没看到那篇帖子，
坏孩子，其实你很好，但是还不够好

添加新回复

回复需要登录。