アカウント名:
パスワード:
「なんだか、ストーリー中の一部の文字がおかしいな」と思ったら、 康熙部首 [wdic.org]が混じっているじゃないですか。
× ⼤ : U+2F24 [unicode.org] / ○ 大 U+5927 [unicode.org] × ⽴ : U+2F74 [unicode.org] / ○ 立 U+7ACB [unicode.org] × ⽣ : U+2F63 [unicode.org] / ○ 生 U+751F [unicode.org] × ⽰ : U+2F70 [unicode.org] / ○ 示
hiloymの誤字注入が高度化してる…!
もしネタでないのなら、コピペ検出用とかですかね。検索避けするとも思えないし。
マジレスするとPDFからコピペしたからだろうな。できの悪いPDFリーダーの表示結果からコピペをすると、同じ字形のものは文字コードが一番小さいものが選択されて康煕部首になる。
よくわかんないのですが、OCRで起こしたPDFってことですか?それとももともと電子化されてるPDFでもそうなるってこと?
PDFは日本語の場合、Adobe-Japan 1という独自の文字コードというかグリフコードを使用します。グリフ(字形)に割り当てられるコードなので、同じ字形のものに区別はありません。したがってPDFビューアーが文字列のコピー機能を提供する場合、Unicodeのどの文字にマッピングするかはそのPDFビューアーの選択になります。手抜きなPDFビューアーだと、単純に最初に見つけたものとかハッシュテーブルに最後に上書きされたものとかを選択するので、日本語であまり一般的でないコードになってしまう可能性があるわけです。
# 話を簡単にするためToUnicode CMapとかは無視しているのでよろしく>詳しい人
実際に試してみたところ、Chrome内蔵のPDFビューアーでは康煕部首が選択されてしまい、Firefoxのpdf.jsでは正しく普通の漢字が選択されるようです。問題だと思う人はChromiumにバグ報告しましょう。
一瞬で見抜くのもすごい。「大」でページ内検索すると混ざってるのがよくわかるw
設定しているフォントに康煕部首が収録されていなくて、その部分だけ別のフォントになってたんじゃないですかね
そのうち走招木とか言い出しそう
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
「科学者は100%安全だと保証できないものは動かしてはならない」、科学者「えっ」、プログラマ「えっ」
大大立生示 (スコア:3, 参考になる)
「なんだか、ストーリー中の一部の文字がおかしいな」と思ったら、 康熙部首 [wdic.org]が混じっているじゃないですか。
× ⼤ : U+2F24 [unicode.org] / ○ 大 U+5927 [unicode.org]
× ⽴ : U+2F74 [unicode.org] / ○ 立 U+7ACB [unicode.org]
× ⽣ : U+2F63 [unicode.org] / ○ 生 U+751F [unicode.org]
× ⽰ : U+2F70 [unicode.org] / ○ 示
Re:大大立生示 (スコア:1)
hiloymの誤字注入が高度化してる…!
もしネタでないのなら、コピペ検出用とかですかね。検索避けするとも思えないし。
Re:大大立生示 (スコア:1)
マジレスするとPDFからコピペしたからだろうな。できの悪いPDFリーダーの表示結果からコピペをすると、同じ字形のものは文字コードが一番小さいものが選択されて康煕部首になる。
Re: (スコア:0)
よくわかんないのですが、OCRで起こしたPDFってことですか?
それとももともと電子化されてるPDFでもそうなるってこと?
Re: (スコア:0)
PDFは日本語の場合、Adobe-Japan 1という独自の文字コードというかグリフコードを使用します。グリフ(字形)に割り当てられるコードなので、同じ字形のものに区別はありません。したがってPDFビューアーが文字列のコピー機能を提供する場合、Unicodeのどの文字にマッピングするかはそのPDFビューアーの選択になります。手抜きなPDFビューアーだと、単純に最初に見つけたものとかハッシュテーブルに最後に上書きされたものとかを選択するので、日本語であまり一般的でないコードになってしまう可能性があるわけです。
# 話を簡単にするためToUnicode CMapとかは無視しているのでよろしく>詳しい人
実際に試してみたところ、Chrome内蔵のPDFビューアーでは康煕部首が選択されてしまい、Firefoxのpdf.jsでは正しく普通の漢字が選択されるようです。問題だと思う人はChromiumにバグ報告しましょう。
Re: (スコア:0)
一瞬で見抜くのもすごい。「大」でページ内検索すると混ざってるのがよくわかるw
Re: (スコア:0)
設定しているフォントに康煕部首が収録されていなくて、その部分だけ別のフォントになってたんじゃないですかね
Re: (スコア:0)
そのうち走招木とか言い出しそう