モールス信号
英語のモールス信号は効率的だけど、日本語はそうでもないというお話。
モールス信号が考えられたとき、アルファベットにどんなトンツーを当てるかは文字の出現頻度によって決めたらしいです。
英語でよく出てくる E とか T は「・」「-」と短く、出てこない Q は「--・-」と長い。
通信時間を減らすための工夫です。
で、日本語で通信するための和文モールス符号というのが作られたとき、各ひらがなの符号をどうしたかというと、いろは順にアルファベットの符号を当てて、い=A=「・-」 のようにしていったとのこと(足りない分は記号とか)。
効率面は考慮されておらず、例えば「・」「-」はそれぞれ「へ」「む」ですが、これは日本語の中でもまるで出てこない音です(下から3位と2位。最下位はぶっちぎりで「ぬ」)。
というわけで、和文モールス符号がどれくらい非効率なのか調べてみました。
某所から五十音の出現頻度表をもってきて、モールス符号用に小文字を大文字にして濁点,半濁点を分解します。
モールス符号の長さはツーが3トン、トンツーの間隔が1トンと決まっているらしいので、この計算で短い符号に頻度の高い文字を当てはめていきます。
できたものがこちら。
出現頻度と符号の長さの積、すなわち1文字あたりの平均符号長は通常版が9.916トンのところ改良版が7.581トンで24%減。
文字と文字の間は3トンの空白を入れることになっているらしいので、これを含めると18%減です。
実際のところは、適当なところに空白(7トン)を入れた分かち書きにする必要があるのでもうちょっと下がります。
ちなみに、順位を反転させた「最悪の和文モールス」は1文字平均13.75トンでした。
うーん、この数字ってどうなんだろ。もっとデカい数字が出てきて「ローマ字の方が早いじゃねーか!」みたいな結論になったら面白かったんですが、さすがにそんなことはないみたいですね。
よくみると、アルファベットの順番をそのまま当てただけではなく少しずれている箇所があったり、最も頻繁に出てくる濁点が「・・」になっていたりするので、もしかしたら効率のことも少しは考えていたのかもしれません。
実際に適当な文章に適当に空白を入れてモールス符号化してみると、通常版が5961トン、効率化版が4707トンで21%削減でした。
今後の展望
同じ情報を英語と日本語にしてそれぞれモールス信号で送ったらどっちが勝つんですかね。
私の英語力では不可能なのでニュース翻訳サイトとか調べてみましたが、あんまり使えそうな感じのはありませんでした。
あと、日本語の文字出現頻度表っていっぱいあってどれを使えば良いのかわかんないですね。
10万文字中に「ぢ」が1件のデータと0件のデータがあって、どっちを使うかで大きな差が...出ないですけど。