どうなってるのやら

あゆぽっぽ。あゆぽっぽ牛乳。

かな漢字変換とユーザーの分断と賢い日本語 [I]

(*) まえがき

 machineLearningでさえAIと呼ばれる時代です。 pomeraはモデルチェンジを続けながら生き続け、「賢い日本語」atokを載せています。

 ..このへんの文脈で筆者が思いだすのは、ms-dos末期のnec98事情です。 いえ、ワープロ専用機出身の筆者から見た不思議な視点でのnec98事情です..

 necai.sysのことだけを言っているのではありません。 以下、忘れないうちに書き留めておきます。

 

(a) 長文を一括変換するニーズへの対応

 デジタル端末で日本語の文章を書きとめる方法としては、かなを打って漢字に変換する作業がついて回ります。 ここでポイントとなるのは、かなをマシンガン打ちした後、漢字まじりの文章として確定できるまでの時間が限られるケースがある/あった(であろう)ということです。 聞き取りを文字起こしする際、スピードが求められる状況かもしれません。 創作欲をリズミカルにキープするため、脳内麻薬を発行し続ける過程としてスピーディな漢字変換が必須なのかもしれません。 いずれにせよ漢字変換のトータル所要時間を減らすためには、『長い連文節を打ち→変換キーをたたき→できるだけ少ない修正で確定できる』環境が求められることになります。

 複数文節一括変換で好ましい結果を提供するためには、「文節の区切りを取り違えない」+「文節ごとの変換結果に間違いが少ない」ことが必要です。 これを実現するために、かな漢字変換の世界では(ユーザーによる)直前の確定履歴を記録し、以降の変換結果に反映するメカニズムが生まれました。 わりとベーシックな学習機能です。

 ..しかし確定履歴だけで判断する限り、同音異義語の変換精度等に限界があることは明らかです。 そこで格助詞の使用状況や直前直後に使われている単語などから、ユーザーによる確定履歴をオーバーライドして変換候補を選ぶ方式が導き出されました。 ワープロ専用機でいう末期のころだと記憶していますが、当時「AI変換」「AI支援」「AI用例」などと呼ばれており、とりあえずAIと名が付けば変換候補の選定に気をつかっている代名詞?のように扱われました。 シャープなどは同一段落に存在している単語の分布を読んで変換候補の提唱をします!とさえ謳っておりました。

 上のようなAI変換(AIなんちゃら)を想定通り動かすには、単なる変換候補以外に各語のつながりを格納しておくための補助データ?が必要です。 長文の快適な一括変換が目標なので、当然変換候補そのものも大量の語数を収録しておかなければなりません。 このためワープロ専用機は何かしらの方法で、巨大な辞書を内蔵する選択肢を採りました。 ROMに焼いているところもHDDを使うベンダもありましたが、いずれにせよコストをかけていたことは確かでしょう。

 さきに「巨大な」辞書と書いたのには、理由があります。 AIと呼ばれる変換支援は、某社の手によりnec98へ導入されることになりました。 ところが国民機系のパソコンをリーズナブルに導入すると、標準装備と思われる最大容量の記憶装置はフロッピーになってしまいます。 1250304バイトだったアレです。 辞書ファイルに許される最大容量だって1250304bytesです。 まぁ実際には数百kbytesでした。 「日本のハードディスクは金塊より高い」とは某リアムゲイツ三世の言葉だったと思いますが、この状態を作りあげたの圧倒的シェアを誇ったnec98の標準状態がHDDを欠いていたからです。 とにもかくにも、数百KBオーダーの辞書でAI変換を実現した結果はさんざんでした。 同社文豪miniではこういった傾向が見られなかった(筆者調べ/店頭実機)ことから、おそらくフロッピーの容量制限で長文に十分対応できる辞書のボリュームを確保できなかったのではないでしょうか。 日本語の表示速度を優先したコストバランス[漢字ROM有HDD無]が、めぐりめぐって日本語変換効率に影響する。 98x1しか使っていなければ気づかれにくいとは思います。

 ..後にリリースされた某社atok8は、筆者として唯一ワープロ専用機並に夢中で打てる漢字変換システムでした。 自分が見たものでは辞書サイズが2.8MBもあり、こういった経験から「necai.sysがタコなのは辞書サイズのせい」と邪推するわけです..

 [a1] ワープロ専用機の末期では、確定履歴より文脈解析を優先する漢字変換エンジンが導入された
 [a2] こういった変換エンジンには、こぞって'AI'のネーミングがついた
 [a3] AI変換/AI用例支援には、それを支える巨大な辞書が不可欠
 [a4] nec98向けのAI変換エンジンは、辞書が小さすぎて専用機風の変換効率を実現できなかった

 

 ※続きます