19/01/2021

Encrypted Diary in Japanese Solved in 4 Hours on Twitter

I wrote about solution (2014) of an encrypted diary (1995-1996) in Japanese posted on twitter in a separate entry in Japanese. The diary belonged to a deceased uncle of the poster. (Hence, the hash tag #叔父日記暗号 (Uncle's Diary Cipher).) The solution was achieved in four hours. The entries of 1995 turned out to be based on Japanese Morse Code. A character is enciphered by interchange of dots and dashes of the Japanese Morse code. In 1996, a simple Caesar cipher was used, but it was based on old Japanese syllabary I-RO-HA.

「叔父日記暗号」の解読

(Abstract in English)
数年前、「亡くなった叔父の日記」の暗号をツイッターでのやりとりを通じて有志が解読したというニュースを見たのだが、このたび一連のツイートをここで読んだ。

発端は2014年11月19日に投稿された「亡くなった親戚の叔父さんの日記が全然解読できない! 」というツイート。11月23日になって言語学専攻の院生が関心を示したところ20:34に追加画像が公表され、「#叔父日記暗号」というハッシュタグが付けられて盛んに議論が交わされた。暗号は4時間ほどで解読された。
問題の暗号文は7日分あり、次のとおり。
【1995年のはじめに】
ヌサヌヨ.フ.ヤリミサ
゛ミシ.シホフ.゛ウフ.シホカヨーフ.(イム
ヨーフ)タマンタ.イムヨマヨ.クフツツ.フヌ
ミキ.エソヌア。ヤサチサフ.ヤリミサ.
トツウ.ミサ゛リメマヨ.ツマヨ.リイケヨリ.ヌア。
92872014
【'95 1/5】
ロマネヱリ.トイイケ.チ.ワワ
ムサワ゛トカ.ツーワソ ヲラヲミヨセヰ.
トタナモヰアヨ(ヤサイキ)ンシマア(イムヨ
ーフ)ロ.タソ.イヨ゜ヨサソヨ.
ノアサヤミ.ケメヨマ゛ソワマイフキヨ
ヲホソミツリ.゛ミシ゛ウキヰ.ケワオ
フカサ.タケワタヌアロミイ.
メサウヱリ.ケテトカヨ.トミイアリケサ.
【'95 1/6】
ミソ.(゛アヨヲヨミケセン)トテロタソ.
エエタマヨシーミソ.ヲヨ(ス)ロフヰケムウ
ーエワミヨ.ミソキヨ.ヲヨ(ス)ツネフアテソー
ウケメヨマ゛ソワウ.アキーンヘソワマ*イ
ケテケケレマヨ.アミサロ.キヨヰロヲア
キー゛タ.メサウヱリ.゛ミンヨナアリケ
サミイ.
【'95 1/8】
ロミヨヌヨニ゛ウ.レ*ミヨエテソ.
ケセレフ.ソヰツ゛リ.ヌモアヨ.シマカ
゛リアミイケヨ.イヨセ(ムヨマアミイ)
リアテソンアウ.
タネロネセ.イヨ゜ヨサソヨ.
イヨタノヨケケマイ.
トミイヲ.リッソホニリ.
【'96 1/5】
アラーワス.カオロタヨテヨヨ
ワネヱエンテソヨ.テセフミキサ
ヰヨユメクマンワム.テモワオ
オナーヨン.ロ゛レフスサヨ
ラツエヌテチ.ワツミンキスヱ
ンミヨ.ミヨヰノロン゜アスハ
ロミンユエテム.
【'96 1/6】
フミキサ.イオミン~ミンキイオミ
ン.ノヒソヨカチ.マンスサヨンソ
ヨ.カヘンロンミワユナハカチ
ワツロナソエオヌ.ヱ゛チスヨ゜
ノヒワソヨ.モソユーミカカラ
ヰヨーホスヨン.ワンロンイム.
【'96 1/8】
ヱアミケンチハ.オヒチワナ.セフ
アユワン.ケソヨ.ニスヰノミユ
チエ゜ヘン.クヤヘハ.ヨホン
ヒヰワーハーオ.
セヒム.ノノテタ.ヲワヰロネ.テ
マニンヰ.ケヨチ.タスロ゛ーミヨ.
フスクワナ.アラオネ*ヌ.
テセヰテアロ.ハヘンオナー?
1995年の分と1996年の分では異なる暗号が使われていた。
1995年のほうは和文モールス信号のトンとツーを入れ替えるモールス反転方式と判明した。たとえば「い」は和文モールスでは・-だが、このトンとツーを入れ替えて-・とすると、これはモールス符号で「た」を表わすことになる。突き止められた暗号表は次のとおり。
アイウエオ とたりおえ
カキクケコ けてそかぬ
サシスセソ んみ?めく
タチツテト いねまき?
ナニヌネノ わろこちふ
ハヒフヘホ を゜のむや
マミムメモ つしへせー
ヤ/ユ/ヨ ほ/ゑ/゛
ラリルレロ れうゑらに
ワヰ/ヱヲ なる/ゆは
ンー゛゜/ さもよひ/
最初の項目の冒頭は次のようになる。
  ヌ    サ     ヌ   ヨ . フ   . ヤ   リ    ミ     サ
・・・・ -・-・- ・・・・ --  --・・  ・-- --・ ・・-・- -・-・-

---- ・-・-・ ---- ・・  ・・--  -・・ ・・- --・-・ ・-・-・

  こ    ん     こ   ゛   の     ほ   う    し     ん
どのようにしてこのような突飛な暗号方式を見破ったのかの過程に興味があるが、1:29に紗衣さんが「多分解けた.和文モールスでトンとツーを入れ替えてる.ヌサヌヨフヤリミサ→今後の方針 しか確認してないので他は各自復号して下さい.」といって突然解読を宣言しており、途中経過はわからない。想像するとすれば、一連の議論の中でも指摘されていたように、暗号文に「ヰ」「ヱ」が使われており、「゛」「゜」がカナと同様に使われていたことから、電信符号を疑ったのだろう。最も頻度の高い文字「ヨ」が濁点を表わす可能性も言及されていたので(そのツイートを見ていないとしても)両者のモールス符号を見比べてひらめいたということはありうるだろう。

和文モールス反転方式とわかって一件落着だと思いきや、1996年の分はこのやり方では解読できないことがわかった。その後こちらは、いろは歌方式の「シーザー暗号」という、ごく単純な方式と判明した。
イ→ろ
ロ→は
ハ→に

ン→゛
゛→゜
゜→ー
のように文字をずらしていくものだ。これはМэй Аренбергさんが解読したのだが、同氏は発想の経緯を簡単に語ってくれている。
「いろは歌」は前半からカンで疑ってた(私はこの筆者が戦前生まれとかなんか思い込んでたんで五十音じゃなくていろは歌だろ~とか勝手に思ってた)んですが、後半の頻度分析で「ん」が最初に来て、日本語の頻度は「い」が最初なので、「ん」を「い」に置き換えて、あれ?「ゑひもせす(ん)」→「いろはにほへと」だからつながってるのでは?と思ってずらしたら文章になったので、いろは歌だっていう結論に達しました。ただ、「ん」は「い」じゃなかったですけどね。
あとから「そう思ってた」というのは簡単なのだが、氏は0:07の時点で「いろは歌でずらすアルゴリズムって作るのむずい?」と問いかけを投げており、このときすでに考えていたことがわかる。同氏が全体の解読文をここに載せてくれている。

巷ではネット民の集合知の成果だなどとして話題になったようだが、結局、解読は二人の個人のひらめきのおかげだったようだ。
とはいえ、解読に至るまでの議論はたしかに面白い。他の暗号を解読するときのヒントになるかもしれないので、その間に出されたコメントをいくつか紹介しておく。

「.」が文節などの境界だろうという当初からの予想は当たった。
「゛」「゜」がそのまま濁点・半濁点だろうという予想は外れた。途中、ヌル(捨て仮名)という仮説も出たが、外れた。
「ヨ」の頻度が高いことは早くから気づかれていたが、結局は濁点(前半)だった。
途中、「ヨ」=「い」という仮説も出た(日本語の音では「い」が最も高頻度)。こういうとき、その文字が近くに続けて出現するパターンがヒントになることがあるので、「イムいマい」に当てはまるフレーズがいろいろ検討された。「思いたい」という仮説が出てくると、今度はそれらの文字が集中して現われるパターンをさがし、「おいセ(もいたアミお)」というのがみつかった。正解であれば、このあたりから芋づる式に対応が判明していくのだが、今回は袋小路に至った。
「イムヨマヨ」「イヨセ(ムヨマアミイ)」
 こしいたい  こいつ しいたけのこ
のような面白い案も出たのだが(www付きで)。

2回連続して出現するツツ、イイ、ワワ、エエ、ケケ、ヨヨは、濁点・半濁点、捨て仮名、棒引き、「ん」ではないとされた。
小さい「マ」が「ヤユヨツ」のどれかだとの予想は当たりで、「ツ」だった(前半)。
「.」を区切りと考え、2度出てくる単語として「イヨ゜ヨサソヨ」「メサウヱリ」が指摘された。
「.」の前にどういう文字がくるかも調べられた。単語の区切りがわかっていれば、単純な頻度分析だけでなく、語頭文字、語末文字の頻度も手がかりになる可能性がある。
今の日本語では普通は使わない「ヰ」「ヱ」がある一方、「コ」と「ル」が出現していないことも注目された。
先鞭をつけた院生のつながりからか言語の専門家が多かったらしく、マレー語とかアイヌ語とか中国語とかアラビア語などの可能性も検討されていたのがすごかった。
書き誤りがヒントになることもある。「ヰ」を「ヌ」と間違えているところがヒントになる可能性も指摘された。
全体が同じ暗号で書かれているという保証はない。項目によって暗号方式が異なり、日記の天気の項が暗号方式を示しているのではという可能性も指摘された。そうだとすると頻度分析などのデータが役立たなくなる。だが天気の違う日に「イヨ゜ヨサソヨ」という共通の文字列が出現していることがわかり、この可能性は排除できた。ただ、その後も天気の記載が「晴」「はれ」「ハれ」と不自然なバリエーションがあることが指摘された。結果的に、前半と後半で2通りの暗号が使われていたので全体を通した頻度分析はノイズの多いデータだったことになるが、幸い「ヨ」の高頻度は埋没せず、解読の手がかりになったと思う(上述)。

17/01/2021

Lewis Carroll's Ciphers

I heard of Francine F. Abeles's work on Lewis Carroll's ciphers by a recommendation email of Academia.edu and described them in a new article in Japanese "ルイス・キャロルの暗号".

12/01/2021

A New Book on Codebreaking by Elonka Dunin and Klaus Schmeh

I got a new book, Codebreaking, A Practical Guide by Elonka Dunin and Klaus Schmeh, hot from the press.
I have long known Elonka's name by her webpage formerly titled "Elonka's List of Famous Unsolved Codes and Ciphers" without knowing her other achievements in codebreaking, authoring, and public speaking (her bio).
I have known Klaus by his blog Klausis Krypto Kolumne, where many people in the world discuss crypto mysteries and solve hitherto unsolved cryptograms. I'm greatly honored to be credited as one of the proofreaders in the book by these two authors of world fame. (I also contributed a blurb to the official page of the authors.)

This comprehensive book provides separate chapters for just about every major encryption scheme historically used: Caesar ciphers, simple substitution ciphers, homophonic ciphers, codes and nomenclators, polyalphabetic ciphers, complete columnar transposition ciphers, incomplete transposition ciphers, turning grille transposition ciphers, digraph substitution, abbreviation ciphers, dictionary codes and book ciphers, among others. One can see variants of ciphers that may be treated in one chapter in other books are given separate chapters. Each chapter not only provides cracking techniques for each scheme, but also presents "success stories", "challenges", and "unsolved cryptograms" from actual examples.

To me, the chapter "16. Solving ciphers with hill climbing" was the most interesting. Hill climbing is a computer-based technique that has proven very successful in solving historical ciphers. This chapter introduces no less than thirteen "success stories", which I believe is the most comprehensive list up to now of achievements in codebreaking by hill climbing. This chapter may be worth publication as a book on its own, with more details on designing of specific fitness functions and techniques for randomising.

Many actual examples and images, ranging from encrypted postcards to epistles written by famous historical persons, are not the least appeal of this book. (Elgar's Dorabella cipher is well-known, but I didn't know cryptograms of Beatrice Potter and Rudyard Kipling.) Although many of them can also be seen on the authors' websites, it is good to see them in classified chapters in a book.

04/01/2021

The DECODE Database

I was invited to collaborate with the DECODE database. It is a part of the interdisciplinary DECRYPT project. The DECRYPT project aims to develop resources and computer-aided tools for decoding of historical documents. The tools facilitate transcription and decryption including (but presumably not limited to) cryptanalysis, among others. The DECODE database is a collection of digitized images of ciphertexts and keys along with metadata. Even nonregistered users can search and view metadata.
During the last week, I made my first uploads about cipher letters of Philip II to Juan de Vargas Mexia (which can be found with the search term "BnF_es132"), which are the ones I want to see deciphered the most (see a previous post). Although the status of the records is "decrypted", it merely means the key has been identified. The plaintext is yet to be recovered by using the key.
I have not yet completed the batch, but after these, I hope to upload many others when time allows.

03/01/2021

Euler's "Logogriph"

I heard of breaking of the cryptogram left by the Swiss mathematician Leonhard Euler at Klausis Krypto Kolumne. I compared the solution of the same cryptogram by two people: Pierre Speziali and Hans Rohrbach in a new article in Japanese "数学者オイラーの残した暗号文の解読" and mentioned the cryptogram in "Unsolved Historical Ciphers" (which also covers cryptograms that remained unsolved for some time).
Rohrbach's solution (1973) involves counting symbol frequencies with contact characteristics. So, I also mentioned it in the section "Contact Chart in the Days of Manual Work" in "Creating a Contact Chart with Microsoft Excel".