pͪoͣnͬpͣoͥnͭpͣa͡inͥ を分解する

不思議なハッシュタグ #pͪoͣnͬpͣoͥnͭpͣa͡inͥ

twitter.com

これどうなってるんでしょうか? さっそくコードポイントを調べますが、お手軽にrubyで見てみましょう。

irb(main):001:0> 'pͪoͣnͬpͣoͥnͭpͣa͡inͥ'.each_codepoint { |cp| puts "U+#{sprintf('%04X', cp)} #{cp.chr('UTF-8')}" }
U+0070 p
U+036A ͪ
U+006F o
U+0363 ͣ
U+006E n
U+036C ͬ
U+0070 p
U+0363 ͣ
U+006F o
U+0365 ͥ
U+006E n
U+036D ͭ
U+0070 p
U+0363 ͣ
U+0061 a
U+0361 ͡
U+0069 i
U+006E n
U+0365 ͥ

ponponpain は通常のASCII文字ですが、間に何か入っていますね。

unicode-table.com

上についている文字は Combining Latin Small Letter で ͣ ͤ ͥ ͦ ͧ ͨ ͩ ͪ ͫ ͬ ͭ ͮ ͯ が定義されています。アルファベットが全部定義されているわけではないのでharaitaiは奇跡の組み合わせです。

これはダイアクリティカルマーク(発音区別符号)と言って、文字につけて発音を区別したりするようです。ドイツ語のウムラウトがそうですね。

ちなみにひらがなや漢字と組み合わせてもうまくレンダリングできませんでした。