○雪解け? の邂逅
2000年3月16日、ほとんど歴史的邂逅、と呼んでもよいくらいのセッションが、都下、八王子の拓殖大学で行われた。
この2~3年、コンピュータにおける漢字処理をめぐって、マスコミ、インターネット、Webページ、規格委員会、漢字専門家、作家などの間で、侃々諤々の議論が繰り広げられたことは、漢字に多少でも興味をもっている方なら、よくご存じだろう。あまり、この問題に興味のなかった方に、非常にかいつまんで簡単にご紹介するとすれば、次のようになる。
従来、日本で販売されているほとんどすべてのパーソナルコンピュータは、標準機能としてJIS第一水準、第二水準の約7,000文字を表示することができた。約7,000文字の漢字というのは、日常的なビジネス用途では十分かもしれないが、100人規模の名簿を作ろうとしたり、地名を書き表そうとしたり、高校生までの教科書を書き表そうとすると、すぐに漢字が足りなくなってしまう程度の量だった。
具体的にいえば、「舞姫」の作家名(もりおうがい)や人気アイドルグループSMAPのメンバー「草ナギ剛」さんの名前などが書けなかったのである。もちろん、ほかにも書けなかった文字は多数ある。
文字が足りない、という問題に直面して、具体的にいくつかのグループが作業を開始した。今昔文字鏡、GT書体、e漢字、JIS第三、第四水準、そしてUNICODEである。
○漢字論争の終焉
文字が足りない、という論争は、しかし、99年の「超漢字」というパーソナルコンピュータ向けのオペレーティングシステムが発売されたことで、ほぼ終止符が打たれてしまった。「超漢字」は、今昔文字鏡を含む13万字の文字にコードを割り振り、書体を搭載し、インターネットでのデータ交換もでき、なおかつ、7,000文字しかもたない従来のシステムよりも高速であったためだ。
文字が増えると重くなるとか、文字が多いと探せないとか、日常的に使う文字は少なくてもよい、というようないわば机上の空論は、現実に13万字を自由に使えるOSを前にしては、ほとんど意味をもたない。
従来から継続して活動を続けてきた今昔文字鏡やe漢字が、フリーでインターネットを通じて文字を公開し、2000年3月にはJIS第三、第四水準がリリースされ、GT書体も公開目前、という状態になった現在では、「文字が足りない」という危機意識はほぼ回避されてしまったといえる。そして、このセッションでは、それぞれが独自の成果を持ち寄って、一同に会することになったわけだ。
○大規模文字セットグループ
情報処理学会の特別セッション2:パネル討論「次世代の漢字環境」は、国文学研究資料館の相田満氏を司会に、
・GT書体プロジェクト - 田村毅(東大)、山口明穂(中大)、片山英男(東大)
・e漢字プロジェクト - 勝村哲也(京大)、油谷幸利(同志社大)、丹羽正之(京大)
・今昔文字鏡プロジェクト - 谷田貝常夫(文字鏡研究会)、古家時雄(エーアイ・ネット)、谷本玲大(文字鏡研究会)
・規格・ベンダー関係 - 豊島正之(東京外語大:JIS第三、第四水準)、小林龍生(スコレックス:UNICODEコンソーシアムその他)、榎本義彦(日本アイ・ビー・エム)、前寺正彦(ソフトウェア作家)
の各氏が、一堂に会した。
GT書体、e漢字、今昔文字鏡は、それぞれ数万以上の文字を独自に蒐集したグループである。それぞれの目的や方針は異なっているが、それぞれの成果が見えてきたことによって、従来の7,000文字程度の文字セットでは日本語を表記できず、「大規模文字セット」とでも呼ぶべき文字セットが必要になるのだ、という共通認識をもつに至ったのだといってもいい。
|
|
○GT書体
東京大学が母体になってGT書体プロジェクトがスタートしたのは、95年のことである。翌96年4月には、数万字の文字を集め書体まで作成する「GT明朝」プロジェクトに、そして98年6月には、画数が明らかになるように新規の書体を作成する「GT書体」プロジェクトへと、名称が変わっていった。
GT書体がめざすのは、「多言語処理のための漢字、画数を明解にするための新しい書体、それに加えて、印刷に耐えるために異字体を収録した文字」(田村毅さん)体系である。
また、「友達の『達』のしんにょうに『幸』がはいっている文字でも保存したい。石にテンのある石川さん、姓名判断で画数が1画足りないのでテンを打ったというようなものでも、文化としては保存する必要がある」(山口明穂さん)と、日本文化としての漢字をコンピュータに移植することに、強い意欲を見せる。
○e漢字
e漢字は、アジア、中国系の研究が盛んな京都大学の研究土壌から始まり、「外国でも知名度がアップしている」(勝村哲也さん)文字プロジェクトである。
すでに、駒沢大学などが、中国と共同で進めている研究プロジェクトにも使われている。利用実績があり、すべての文字を、フリーで京都大学人文研のWebページ上に公開している。
「e漢字は、既存の漢字集合に対応するフォントを、1つずつ作っていくという考え方」(丹羽正之さん)で進めるもので、「すでにUNICODE(2万字)、諸橋大漢和辞典(5万字)、康熙辞典(4万9,000字)を公開ずみ。1つずつ既存の漢字コードのフォントを公開していけば、漢字を網羅していくことがでるのではないか」(丹羽正之さん)としている。
現在すでに、中華字海8万7,000字に対応していて、フリーとして、人類共通の資産として、誰でもが使えるようにしたい、というのが目標だ。
○今昔文字鏡
86年にはじまった今昔文字鏡は、石川忠久氏(二松学舎大学理事長)を会長に、文字鏡研究会を組織して、1,200名を超える会員を誇る。
こちらも、「フォントはフリーで、現在も追加し続けていて、登録された文字は、インターネットの文字鏡NETからダウンロードできるようになっている」(古家時雄さん)という。
今昔文字鏡は、仏教学を中心として使われていたが、アメリカでも使われるようになり、近日、スタンフォード大学の仏教部門のサーバーにミラーサイトも開設が予定されている。文字鏡がめざすのは、文字グリフ(文字の形)の整備で、点画が異なれば異なる種類の文字(グリフ)を用意し、それに整理番号をつけ、公開するようにしている。
|
|
○JIS第三、第四水準
2000年3月に、JIS X0213という規格が発表された。GT書体、e漢字、今昔文字鏡という「学問的なご業績に対しては尊敬申し上げるが、いわば観賞用の文字セットに対して、JIS第三、第四水準は、実用をめざしたものです。JISは、新しい字を作ることはなく、すでに存在する文字を使えるようにすることをめざしています。そして、実用をめざして、実用化されてきた実績をもっています。今回、JISの第三、第四水準の策定に当たっては、全国の小中高校の教科書1,700種類に使われた漢字をすべて分類し、網羅しました。このような基礎的な作業さえ、国文学者がやってこなかったのは、国文学の怠惰ではないでしょうか。JISでは、すべての文字の出典を明らかにしています」(豊島正之さん)と、説明があった。
○日本アイ・ビー・エム
いくら多数の文字セットがあっても、ベンダーが実装しなければ、ユーザーは使えるようにならない。実装側からは、日本アイ・ビー・エムの文字コードに関する考え方が示された。
「アイ・ビー・エムでは、UNIXマシン、PCなど異なる種類のOSで自由に文字を扱えるようにするために、JIS X0208を包含した文字コードを採用しています。今後は、UCSを軸とするようになります」(榎本義彦さん)ということだった。
UCSとは、UNIVERSAL MULTIPLE-OCTET CODED CHARACTER SETの略で、ISO/IEC 10646またはJIS X0221を意味する言葉。簡単にいえば、JIS第一、第二水準(JIS X0208)ベースから、UNICODE(UCS)に向かっている、ということだ。
|
|
○ソフトウェア作家 前寺正彦氏
前寺さんは、大規模文字コードを扱えるソフトウェア「Aprotool」をシェアウェアとして発表、漢字関係者、ハングル関係者とも国際的に交流を深めている方である。また、よりユーザーに近い立場として「UNICODEをはるかに超える大規模文字コードが複数現れてきています。規格がきまって実装して、というのが従来の文字コードだとすれば、新しい大規模文字セットは、規格の前に文字コードを提供していくというものです。2年前には考えつかなかった多漢字環境が実現しているといっていいでしょう」と、大規模文字セットを評価した。
○活発な討論
公開セッションというと、個々の発表の時間が延び、討論が十分行われることは珍しいのだが、今回は、「漢字」という身近でわかりやすい問題であることと、大規模文字セットのそれぞれの立場の違いがあるために、討論が実に活発に行われた。会場からは、拍手や笑い声も飛び出すほどだった。
まずQ&Aでは、会場からの質疑応答があった。「文字をひくためのデータ(よみ、画数など)は公開されないのでしょうか?」という質問に対しては以下のような応答があった。
e漢字(勝村) - 「出す方向で検討するが、1年くらいはかかります。1日に250字しか音はつかんのです」
GT書体(山口) - 「読みは入れていないが、入れる方向です。なぜ、よみを入れていないか、というと、よみがわからない漢字が多いためです。江戸の康熙辞典に音訓を与えているのがいくつもあるので、それを付加した形で、データを入れていく予定です。でも、手弁当でやっているので、私の命とどっちが先か、という状態です。代表的な音訓を付け加えた形で発表する予定です。
また、GTは文化を取り入れたいと考えています。そうすると、たとえば『呂』という文字に、泉鏡花が『くちづけ』とルビをふって読んでいます。このようなものをも『よみ』として収録していくことが日本文化かなと考えています」
文字鏡(谷本) - すでに、フリーで公開して、部首画数で引くようにしている。読み情報も入れていますが、よみだけで単漢字辞書を使うと、実用にならないと思います」
会場からは、「大規模文字セットを使っていますが、文字が増えたせいで間違いが増えているという問題があります。間違いを減らす方向のデータ作成法を確認しないと難しいと思います。たとえば『ー』(長音)と『-』(マイナス)でさえ区別できないユーザーが出てきています」(図書館情報大学、小熊善之さん)という声もあった。
続いて、JISの豊島正之さんが、GT書体グループがプレゼンテーションで示した文字が、実は出典のない誤記の文字ではないか、と質問を投げかけた。実は、豊島正之さんは、GT書体の山口明穂さんの教え子でもあるそうだが、この元教え子の質問に対して「出典はすべてGT書体発表のときには明らかにする」と明言。さらに、先の教科書の文字をすべて分類したという発言に対しても「漢字を分類するのが国文学者の仕事とは思わない」と火花を散らすようなやり取りがあり、会場が沸いた。
|
|
○規格は規格、普及は普及
さらに会場からは、今回のセッションの主催者である情報処理学会から、「規格がどうだ、すべったころんだ、というのは、あるけれど、これをみんなで使え、という時代ではない。いろいろな漢字セットがあって、ネットを通じて普及していくのではないか」(情報処理学会、高橋さん)という発言があった。
完成し始めた大規模文字セット群は、漢字が多様な文化をもっていることを明らかにし、その漢字がコンピュータで扱えるようになりつつあることを実感させた。今後は、そうした漢字が、より身近に、使えるようになるように、ベンダーなどが動くフェーズに入ったのではないか、と感じられた。
(美崎薫)
http://member.nifty.ne.jp/misaki_kaoru/
(関連記事)
150万字以上の文字を扱え、数十秒で起動する実に俊敏なOS「超漢字」
http://pcweb.mycom.co.jp/news/1999/11/22/05.html
京都大学人文研
http://www.zinbun.kyoto-u.ac.jp/~ekanji/
文字鏡NET
http://www.mojikyo.gr.jp
Aprotool
http://www.ceres.dti.ne.jp/~maedera/
| 小規模ゲームスタジオが1日で100万ドル獲得 - クラウドソース型調達で [12:37 2/10] |
| あぁ俺の オタク川柳 予選落ち - 第7回「オタク川柳」投票受付を開始 [11:00 2/10] |
| Googleバーまたまた刷新、ロゴからのドロップダウンメニュー廃止 [10:50 2/10] |
| 地震への関心、再び高まる - 1月のTwitter利用動向 [10:21 2/10] |
| サイバーエージェントがアールフォース・エンターテインメントを子会社化 [09:56 2/10] |
|
[北島三郎]「目立たなきゃだめ」と話題の“オオカミバンド”を激励 [12:30 2/11] ホビー |
|
目的は一体!? 肥前夢街道に現るバッジ売りの少猫(佐賀県) [12:08 2/11] キャリア |
|
つらい花粉症は対策グッズで乗り切ろう! [12:07 2/11] キャリア |
|
【アジア発!Breaking News】マンションの排水口で銃の試し打ち。階下水漏れで、銃器所持の男らを逮捕。(台湾) [12:07 2/11] キャリア |
|
【エンタがビタミン♪】『逆転裁判』の斎藤工、“ラー油入り手作りチョコ”で女性不信に。 [12:07 2/11] キャリア |