本記事は、アーカイブに保存されている過去の記事です。最新の情報は、公益社団法人日本印刷技術協会(JAGAT)サイトをご確認ください。
アンテナハウス株式会社
システム営業グループ
小林 具典 氏
XMLを利用した自動組版というのはこんな流れで行うものだという簡単な絵である。
左上にXML Contentsとあるが、これがXMLデータそのもの、書籍の原稿になるデータをXMLで保存したものである。その隣にあるXSLT Stylesheetというのが、どういう書籍を作るのか、どういうレイアウトにするのかということが書かれたファイルである。
通常、XMLデータのほうには書籍情報を持たせないのが一般的である。例えば見出しのフォントサイズをどうするか、画像はどう配置するかといった見た目情報は、XMLデータのほうには持たせないのが一般的である。
ただ、XMLデータ単体では印刷物が作れない。きれいにレイアウトができないということになるので、それを補うために、XSLT Stylesheetのほうにフォントサイズとか色とか画像の配置といったレイアウト情報を持たせる。
この2つを掛け合わせて、XSLT Processorというところに投げると、XSLT Formatting Objects、略してFOというものを自動的に作ることができる。XLST Processorというのは、例えばWindowsパソコンであれば標準でWindowsOSの中に組み込まれている。別途どこかから調達しなければいけないというものではない。WindowsならMicrosoftが作ったXSLT Processorがインストールされているので、それを使えばいい。
Microsoftのものを使いたくなければ、例えばザランとかサクソンといったオープンソースのプロセッサーもある。例えばLinux環境で自動組版をやりたいというときは、ザランとかサクソンというようなものを入手して使ってもらえればいい。両者ともオープンソースで無料で使えるので、その部分に関してはお金がかからない。
XSLT ProcessorにXSL FOを作らせておいて、FOというファイルさえできてしまえば、それをFO Processorに投げてやれば、このProcessorが自動的にプリンターにレイアウトした結果を印刷したり、画面表示したり、あるいは、ほとんどの人がPDFを作っているが、PDFを作ったりすることになる。
XSL-FOというのは、W3Cで勧告された世界標準の仕様である。印刷物を自動生成するための仕様で、非常に幅広い分野で採用されている。どちらかというと技術系のマニュアルが多いと思うが、それ以外に条例集とか教材、論文集、住所録とか名簿とか、そういったものに非常に広く採用されている。
具体的な例を見てもらう。FOというのはこういうものだという、ごく簡単なサンプルで、FOのほんの一部を抜き出してきたものである。一番上にfo:blockとあるが、これがHTMLで言うところのPタグに相当する。段落を表わすFOのタグである。
このfo:blockの中にテキストを書いて、段落の中身をこんな感じで表す。このfo:blockはたくさん属性を持つことができる。数えきれないくらい属性があるが、一番使用頻度の高いものを抜き出してきた。
まずfont-familyで、フォントはMS明朝を使いなさいとか、フォントサイズは9.5ポイントだとか、1行の高さは15ポイント、それからtext-align=justifyというのは均等割り付けということである。それから、text-indent=1emという、段落の先頭の行を1文字字下げするという属性が付いている。
途中でこの段落に一部太字にしたいところがある。「サービスプラットフォーム」という文字列は太字にしたい。こういう場合はfo:inlineというタグを使って、font-weight=boldという属性を付けると、ここだけ太字になる。
2つ目のfo:blockの中は、external-graphicという属性を使って画像ファイルを貼り付けている。このように書かれたFOを、FOのプロセッサー、FOのレンダリングエンジンに投げると、ここに書かれたとおりにPDFを出力してくれる。MS明朝体で、フォントサイズ9.5ポイント、均等割り付け。これは均等割り付けできていないが、実際は均等割り付けになる。それから、段落の先頭は1字字下げされている。それから画像ファイルが入ってくる。こういった結果を得ることができる。
それではXSL-FOというのはどうやって作るのか。もちろん手で入力してもいいが、そういうことをやる人はまずいない。FOはできれば自動的に作りたいというのが、次のXSLTスタイルシートということになる。
XSLTスタイルシートもW3Cから勧告されている仕様で、あるXMLを別のXMLに変換するための仕様である。先ほど、XMLデータの中には書式情報を持たせないのが一般的だと言ったが、それに対してXSL-FOは書式情報を持ったXMLデータである。書式情報を持たないXMLから書式情報を持つXSL-FOに変換するのに、両方ともXMLなので、XMLを別のXMLに変換するためのこの仕様を使わない手はない。
これがXSLTスタイルシートの本当に簡単な例である。まず左上にXMLデータがある。pub-dateという要素で囲まれて、中にday、month、yearという3つの要素が入っている。このままだと、レイアウト情報を持っていないので、きれいに印刷物にすることができない。そこで登場するのが右側のXSLTスタイルシートである。
XSLTスタイルシートの中身は、まず1行目のtemplate match=pub-dateとあり、pub-dateという要素の中身をどうしたいのかということを書いてある。このpub-dateの中身をどうしたらいいかという約束事を、ここに書くことになる。
もしpub-dateという要素がXMLデータの中にあったら、まず「fo blockという文字列を出力しなさい」というのが、2行目である。次に、xsl:value-of select=yearで、「yearという要素の中身を取り出してきなさい」というのが3行目である。結果として、yearという中身は2010という文字列が入ってきているので、2010という文字列がここで取り出される。これが3行目である。4行目のxsl:textというのは、「年という漢字をそのまま出力しなさい」というふうに言っている。
同様に、次は「monthという要素の中身を取り出しなさい」というのがここで、結果として9という文字列がここで取り出される。そして月というテキストを出力して、最後、dayという要素の中身、ここの例で言うと1という数字、文字列がここに出される。そして「日というテキストを出力しなさい」にというふうに言っている。最後fo:blockを閉じるということが書かれている。
結果として、こういうXMLデータを与えたときに、こういうFOを得ることができる。Fo:blockの2010年9月1日というFOを得ることができる。つまり、元のXMLデータをこのようなFOに変換することができた。あとはこのFOを、FOのレンダリングエンジンのほうに投げてやれば、このままの文字列がPDFに吐き出される。
ここでは先ほど説明したような属性情報が付いていない。フォントサイズはどうするかとか、色はどうするかという情報が全然ないが、それを付けたければ、この辺に「フォント管理=MS明朝、フォントサイズ=10ポイント」というような属性を書けば、ここにそのまま出てくるということになる。
XMLの自動組版を使った場合、従来のDTPとどういう違いが出てくるのかというと、DTPの場合は基本的に1ページずつオペレータがページアップしていく。当然、オペレータが持っている技術をフル動員して、ものすごいきめ細かなレイアウトが可能である。どんなものでも作ってしまう。ただしDTPオペレータが必要になる。
それに対して自動組版の場合は、あらかじめ決定しておいたルールにしたがって、単に自動的にページアップするだけである。どちらかというと文書構造が明確でページ数の多い印刷物、例えば章、節、項といったきっちりとした文書構造が明確で、なおかつページ数の多いもののほうが有利である。
別にページ数が少ないとできないというわけではないが、ページ数が少ない場合はDTPを使っても自動組版を使ってもそんなに変わらない。むしろDTPの方が安くできるかもしれないということで、例えば1,000ページとか2,000ページというような印刷物のほうがコスト的に有利になる。当然、DTPのオペレータは不要である。
組版作業自体を自動化して内製化できると、どんなメリットがあるのか。
まず外注する組版代やデザイン代、制作会社に払っていたお金が不要になるし、社内で頻繁に改訂できる。
例えば製品の仕様が急に変わった、マニュアルとか説明書を急に作り直さなければいけない、一部書き換えないといけないというときに、比較的気軽に作り直すことが社内でできる。いちいち外注先と相談したり、そういう必要がなくなる。
それから、社内でデータの管理をすることになるので、そのデータをどう使おうがその会社の自由である。そのデータを使ってPDFを作るだけでなく、今度はHTMLを作ってみようとか、そういう話にも発展する。それから制作会社とのやりとりが不要になる。
デメリットとしては、例外処理が苦手である。あらかじめ決められたルールどおりにしかレイアウトできないので、途中で想定外の例外があった場合、それに対応するのは非常に大変ということになる。DTPの場合はオペレータが自由自在にそういった例外処理に日頃対応されていると思うが、自動組版の場合はそういったものは非常に大変である。
XML自動組版は、どの分野でもオールマイティに使えるかというとそんなことはない。やはり得意なものと不得意なものがある。得意なものとしては、技術系のマニュアル、取説といったもの。それから論文集とか名簿、法令集、約款集など、文書構造がはっきりして、ページ数が多い、あるいはマルチメディア展開する可能性のあるもの、PDFだけではなくHTMLにしてWebからも情報を発信したいとか、最近はやりのEPUBにするとか、マルチメディア展開する可能性があるものは自動組版を検討するのもいいと思う。
逆に自動組版に向かない分野というか、とうてい太刀打ちができないのは、いわゆるチラシの部類、それから雑誌の部類である。これは全然自動組版は太刀打ちできない。
DTPのオペレータに全く歯が立たないと言っていいと思う。
こういったものは最初から自動組版はあきらめていただいたほうがいいと思う。
アンテナハウスではAH FormatterというFOのレンダリングエンジンを作って販売している。FOに対応した組版ソフト、先ほど見ていただいたFOを入力してPDFを作るというソフトである。
FOだけでなく、CSSでレイアウトすることもできる。このFormatterという製品にHTMLとCSSの2つのファイルを投げてやると、CSSに書かれたとおりにレイアウトしてPDFを出力する。つまりInternet Explorerと同じようなことができる。
FOの仕様は結構ボリュームがあって、勉強するのは大変である。それに対して、CSSは書ける人がたくさんいる。CSSで書ける人にしてみれば、FOを勉強しなくてもCSSさえ知っていればきれいなPDFを作ることができるので、非常にお手軽である。
それから、多言語対応に積極的に取り組んでいる。ここに「50ヶ国語に及ぶ」と書いてあるが、実際のところ正確な数字はわからない。というのは、フォントさえあれば、基本的にどんな言語でも大丈夫なはずだからである。
フォントファイルの中に「この文字はこう出力する」という情報が入っているので、しっかりしたフォントファイルがあれば、どんな言語でも基本的には大丈夫なはずである。50ヶ国語しかだめというわけではない。テストすらしたことがないという状況である。
また、サーバインターフェイスをいくつか実装している。実は、Formatterをサーバ上でバッチ的に使いたいというお客様がたくさんいる。おそらく90%以上のお客様がそうやって使われている。
例えばJavaから起動したいとか、.netから使いたいという人もいるので、その環境に合わせてインターフェイスを選択することができる。Windows環境だと.netが多いし、最近はJavaインターフェイスを使っているお客様が多くなっている。
PDFもいくつか種類があって、長期保存等の関係でPDF/XとかPDF/Aも出力したいという要望があり、数年前からPDF/XとかPDF/Aも作れるようになった。また、技術系のマニュアルの場合、数式が大量に使われるので、MathMLもきちんとレンダリングできなければいけないということで、これも数年前にできるようになった。
DITAというのは、主に技術文書の生成を効率よくするための仕様である。もともとDITAという仕様自体はIBMが作った。IBMは製品マニュアルとか取説を膨大な数作っている。それらのマニュアルをどうやって効率的に作ろうか、どうやって管理していこうかということが社内で問題になったと思う。それをIBMが解決するために考え出したのが、DITAという仕様である。
今、DITAという仕様はIBMの手を離れて、その仕様はOASISに寄贈された。今はOASISが管理している仕様で、世界標準の仕様ということになっている。
DITAは大きく2種類のファイルによって構成される。まずトピックファイルの中にいろいろと原稿を書いていく。原則として、1トピックファイルの中には1つの話題しか書かないようにする。そのほうが好ましいというのがDITAの考え方である。
例えば「電源の入れ方」を書きたければ、「電源の入れ方」だけを書いたトピックファイルを1個作る。逆に、「電源の切り方」を書きたければ、別のトピックファイルに書くというのがDITAの考え方である。
1つのトピックファイルの中に複数の話題を詰め込むことも可能である。1つのトピックファイルの中に「電源の入れ方」「電源の切り方」「ボリュームの調整の仕方」とか、書いてしまうことは仕様的にできるが、そういうことはできるだけ避けようというのが、DITAの考え方である。
そうすると、トピックファイルが膨大な数ができる。1冊のマニュアルを作るのに、これが数百とか、場合によっては数千、数万という話がある。
それを1つに束ねるために、今度はマップというファイルを別途用意する。このマップの中に、どのトピックファイルをどの順番でつなげていこうというような約束事を、このマップファイルの中に書く。
マップファイルもいろいろと考え方がある。例えばメディアごとに作るという考え方が、まず1つある。それが左側の例である。「HTMLの場合は、このトピックとこのトピックだけ外に公開すればいい」というようなことを、ここに書く。それに対して印刷物、PDFの場合はそうではない。「印刷物の場合は、このトピックとこのトピックとこのトピックを使いたい」というようなことを、このマップファイルに書く。このように、メディアごとにマップファイルを作るという考え方もある。
また別の考え方としては、誰用に書かれた印刷物かということで、社内用、「社内で閲覧するためのトピックはとにかく全部使ってしまおう、全部載せなければだめだ」。逆に、「お客様に読んでいただくマニュアルは大事なところだけつまみ食いすればいいのだ」という考え方もあるかもしれない。そういったようなことをマップファイルに書く。
一般的な書籍で言う目次に相当する部分だと思っていただければいいと思う。
このように、具体的な内容、話題と、目次の部分を2つに分けている。こうすることによって、一度書いたトピックをいろいろなところに使い回しできる。あるときにはHTMLに流用し、あるときはPDFのほうに引っ張っていくとか、ある場合はEPUBで使おうとか、どうせ1回苦労して書いたトピックなので、それっきりにするのはもったいない。いろいろなところに使い回ししてしまおうというのが、DITAの考え方である。
これ以外にも、再利用という意味ではもっとDITAらしい特徴的な仕様がある。ここには書いてないが、まだいくつかある。そういったような仕様を駆使して効率よくマニュアルを作っていこうということである。
仮にDITAを採用した場合、こんな感じでPDFが作られる。まず左上にトピックファイルが山ほど、数百、数千というファイルがおそらくできると思う。それを束ねるためのマップファイル、目次に相当するものを用意しなければいけない。それから、書籍の中で使われる画像ファイルも多数用意しなければいけない。
これらが揃った段階で、これらのファイルを、実際はマップファイルだけだが、Open Toolkitに教えてやる。「このマップを使って書籍を作りなさい」というような起動の仕方をする。Open Toolkit自体もオープンソースなので、無料で入手できる。このOpen Toolkitを使うにはお金はかからない。
今、DITA対応の製品等、いろいろと商用のものが出てきているが、ほとんどの製品がバックでこっそりとOpen Toolkitを使っているということが大半だと思う。どうせただで使えるのだから、これを使わない手はない。
Open Toolkitにマップファイルを投げると、マップファイルにしたがってOpen Toolkitが細切れのトピックを1個の大きなトピックにまとめてくれる。1冊分の大きなトピックである。こちらのトピックファイルは、「電源の入れ方」とか「電源の切り方」とか、ファイルがばらばらに分かれていたのが、Open Toolkitを通すことによって「電源の入れ方」とか「電源の切り方」がいっしょくたになった1冊分の大きなトピックファイルができる。同時に、使用する画像ファイルも1ヵ所に集めてくれる。
ここでPDF生成プラグインが登場する。これはOpen Toolkitに組み込むプラグインである。このプラグインが、DITA、大きなトピックファイルからFOに変換してくれる。先ほどXSLTスタイルシートの話をしたが、ここで先ほどのスタイルシートが大活躍するということになる。DITAというXMLから、FOというXMLにここで変換が行われる。FOができてしまえば、あとはそれをPDFの出力エンジン、FOのレンダリングエンジンに投げるとPDFが自動的にできる。こういったような使い方になると思う。
大手で言うと、例えば横河電気とか、ブラザー工業といったところがこのやり方でPDFを作っている。他のところも、DITAを採用しているお客様は、大体このやり方でPDFを作っていると思う。
過去にXML自動組版を検討したけれども諸事情で断念した人も多い。断念した理由の1つとして、XML自動組版の機能があまりにも低すぎたためという人もいると思う。確かに、昔は非常に機能が低かった。お客様に門前払いを食らったことが過去に何度もある。
10年くらい前、Formatterという製品のバージョン1を出したが、その当時はまだXML自動組版という言葉すら普及していなかった。Formatterの話とかXML自動組版の話をどこかでさせてもらえないかと、JAGATにお願いに2、3度伺ったこともあるが、10年前は門前払いであった。
全然取り合ってもらえなかったが、やっと10年たって、こういう機会を何度か与えていただくようになれた。
過去にもし自動組版の機能の低さで断念した人がいたら、少しずつ進化しているということを知っていただきたい。今ここにある絵は、以前は左側の状態であった。段組みがこのようにしか作れなかった。
ページ全体としては、「基本的には2段組みだが、ところどころ段抜きをすることは可能」というのが、大昔であった。3段組みでも同じである。基本的には、「全体としては3段組みで、ところどころ段を抜く」ということが可能だった。
ところが、2005年くらいからは、自由自在に2段組みにしたり、段を抜いたり、あるいは3段組みにしたり、段数を自由自在に設定できるようになった。これによって、結構自由度が広がり、マニュアルだけではなく一般的な書籍もこれで少しはできるようになった。「本文中は2段組みだがコラムの部分は段抜きにしたい」とか、「ところどころ3段のところもある」とか、そういった印刷物にも対応できるようになった。
また、フロート機能が非常に強化された。これは1年前にやっとできるようになったというもので、DTPの世界では大昔から当たり前だったようなことが、自動組版でやっと去年できるようになった。
以前は画像ファイルを段落と段落の間に差し込むことしかできなかった。そうすると、この場合、青い段が終わって、本当はここに画像を貼り込みたいが、余白があまりにも狭いので次のページに画像が自動的に送られた。そういった例である。結果としてここに白い空白の部分が残ってしまう。
DTPの世界ではこんなものはありえないので、これで自動組版をあきらめたというか、お叱りを受けたことが多々ある。それが去年からやっと、自動的に画像を配置して、1つの段落を、とにかく隙間があったら自動的にどんどん埋めていく。やっとこういうことができるようになった。
この例は画像を上のほうに追いやっているが、例えば画像は下のほうにフロートさせるとか、小さい画像の場合には左端に寄せるとか左上に寄せるとか、隙間にとにかくテキストを流し込むとか、そういったようなレイアウトがやっと実現できるようになった。これで結構、今までそっぽを向いていたお客様がやっとこちらに向いてくれるようになったかなという感じである。
また、MathMLのレンダリングができるようになった。これは画像のキャプチャーが粗かったのであまりきれいではないが、実際はPDFにしたときもっときれいに出る。それから、合字というかリガチャ、実際は文字としては何文字かに分かれているが、それをこのようにくっつけて、あたかも1つの文字のように見せる機能が入った。
それからペアカーニング。例えばこの場合だと、最初のVとAの感覚が、上のほうは少し間延びした感じがするが、下のほうはそこをちょっと詰めてある。Wの前後のAとの間隔も、何も考えないと上のようになって間延びしてしまうが、ペアカーニングという機能を使うと、文字を自動的に寄せて見栄えよくする。これも3年くらい前にやっとできるようになった。
株式会社エヌ・エヌ・エーという、会員向けに経済情報誌を発行している会社がある。こちらはPDFだけでなく、Webサイトでも同じ記事を会員向けに配信している。
今まではずっと手で作られていたが、属人的で引き継ぎが困難、担当者を代えることができないということと、担当者によって品質にばらつきがあった。良いものを作る人もいれば、大したことないものを作ってしまう人もいた。それを自動組版で解決したということである。
先ほど、XSL-FOだけでなくCSSでレイアウトすることもできるようになったと言ったが、エヌ・エヌ・エーはまさにCSSで作っている。これはキャプチャーが小さくてわかりづらいが、びっくりするようなレイアウトである。エヌ・エヌ・エーのサイトを見ると、サンプルが置いてあり、誰でも自由にダウンロードできるので、興味のある方は実物をご覧いただきたい。
初めてエヌ・エヌ・エーが作ったものを見せてもらったとき、一目見て思わず「嘘でしょ」と言ったくらい、すごいものである。CSSでまさかそこまでやるとは思わなかった。CSS自体、エヌ・エヌ・エーが社内で作ったもので、すごいと思った。その後、何度か事例紹介でエヌ・エヌ・エーに話をしていただいたこともある。
株式会社クレステックは、「じょうれいくん」という地方自治体向け条例集の作成システムでFormatterを導入していただいている。ここには約180団体に導入と書いてあるが、これは数年前の話なので、今は200団体を越えていると思う。
特に地方の条例集は、毎年ものすごい頻度で条例が変わっている。それを今まで制作会社に作らせていたが、自治体の中だけで編集できるようにしたいということで、「じょうれいくん」が売れているという話を聞いた。
アンテナハウスの事例になるが、最近CAS-UBというサービスを始めた。
これはブラウザーを使って原稿を入力すると、PDFとEPUBを両方同時に作れるというサービスである。
従来PDFとEPUBを作るときは、DTPソフトでPDFを作っておいて、それからDTPソフトが吐き出したデータをもとにEPUB制作ツールを使ってEPUBを作るという2段構えで作っていたが、CAS-UBを使うとブラウザーで原稿を入力してPDF生成とかEPUB生成というボタンを押すと、CAS-UBが両方作ってくれるというサービスである。
これがCAS-UBで作った印刷物の例である。左側はCAS-UBでPDFに出力したものである。同じ原稿で、「縦書きでPDFを作れ」という設定をすると、縦書きになる。目次等は自動的に作る。それから、同じ原稿のものを「横組みでPDFを作れ」という設定にすると、横組みの印刷物、PDFがすぐに出てくる。
右は同じ原稿で「EPUBを作れ」というと、こういったEPUBを作る。これはできたEPUBをiPadで表示したもののキャプチャーである。このように、1回原稿を入力すると、縦組みも横組みもOKだしEPUBも勝手に作ってしまうというサービスである。
株式会社ニューキャストという会社は、求人誌とかクーポン誌を作るときに自動組版を採用している。ニューキャストの場合はInDesignでテンプレートを作っている。そのテンプレートに対して原稿を流し込んでFOを作り、あとはFormatterで自動組版するという例である。
DTPのいいところと自動組版のいいところをうまく組み合わせて使っている。このレイアウトを実現するためには、スタイルシートを相当がんばらないといけない。ところが、ニューキャストはInDesignでこのレイアウトを決めてしまっているので、レイアウトを変えるのも非常に簡単という、非常に良い例だと思う。
それから、ニューメリカルテクノロジーズ株式会社ではDITAを採用してマニュアルを作っている。
去年くらいから、DITAを使ってソフトウェアのマニュアルを作っている。もともとはMS-Wordを使っていたが、数式が大量にあって、Wordだとどうも作りづらいということで、次にTeXに挑戦したそうだ。ところがTeXを知っているライターがなかなかいないので、ライターを見つけるのに非常に苦労したということである。
TeXは非常にきれいに組版してくれる。特に数式などは非常にきれいに出力してくれるが、ライターがいないので断念せざるをえないということで、次にFrameMakerに挑戦した。しかし、FrameMakerもできないことはないが、メーカーがいつまでサポートしてくれるのかわからない。
FrameMakerもちょっと不安だということで、世界標準であるDITAに最後行きついて、今はDITAを使ってこのような印刷物を作っている。
三和印刷工業株式会社は、家電のマニュアルを23言語分を作っているということである。ここにあるキャプチャーは多分アラビックだと思う。アラビア語で組版している例である。
株式会社ベネッセコーポレーションは入試問題集を自動的に作っている。ベネッセの場合も非常に凝ったレイアウトで、ぱっと見た目、本当に自動組版なのかと思うようなレイアウトになっている。
あさひ高速印刷株式会社は、ココログ出版というのを運営している。ニフティのブログサービスでココログというのがあるが、そのココログで入力されたブログを紙に印刷するというサービスである。
あさひ高速印刷がこの企画をニフティに持ち込んで、ニフティに採用してもらったという話である。
このサービスを始める前、pageという展示会で、あさひ高速印刷の社長が、当時専務だったが、喫煙所にいた私のところに来られて、「何かいいネタはないか」というふうに話しかけられ、「今、ブログとか、あれを紙にしたらどうかと思っているんだ」という話を聞かせてもらった。
あさひ高速印刷は、「印刷会社なので紙に印刷してなんぼという商売なので、なんとかお客さんに紙に印刷してもらうような、そういう企画があったらいいと思っていろいろ探し回っている」ということで、私と立ち話のように、「ブログはどうだろう。ブログというのはXMLデータだろう。技術的にどうなのか」と言われ、「XMLでデータを持っているならなんとか行けるのではないか」ということで、その後メールで何回かやりとりして、実際にココログ出版というサービスを始めた。
そういういきさつがあるので、私も非常に親近感がある、記憶に残るサービスである。
香陵住販株式会社は不動産会社である。先ほど、自動組版でチラシなどとてもではないが歯が立たないと言ったが、こういったチラシを自動的に作っている。
チラシだけでなく、フリーペーパーとか、Webで情報も発信している。
物件データをXMLデータ化することでいろいろとマルチに展開できるようになった。私の知る限り、チラシを自動組版されているのは、香陵住販株式会社だけではないかと思うが、非常に頑張っていると思う。
NECでは、NEC技報という論文集を年に4度出しているが、これはWebブラウザーを使って原稿を入力し、最後はPDFとWebと両方一気に作るというシステムで自動組版を使っている。
つい最近、JATSで書かれた論文データを組版するためのスタイルシートを作って、今、オープンソースで公開している。
JATSで書かれたデータを自動組版したいときは、このスタイルシートを使っていただきたい。無料で使える。
その他としては、航空機の運用マニュアル、自動車の整備マニュアルなどいろいろある。自動車の整備マニュアルは1車種あたり3,000ページとか4,000ページあるが、それくらいのページ数になると、やはり自動組版のほうが有利である。
あとは、IRS、アメリカ財務省が発行する書類も、アンテナハウスのFormatterを使っている。
自動組版は、ゆっくりだが、機能自体は進化している。例えば、日本語のルビを出力するのに、自動組版ではルビという仕様がなかった。それまでルビをどうやって表現していたかというと、1行の中に無理やり2行を詰め込むというような泥臭いやり方で、ルビのように見せかけていたのが実情である。
それが1年か2年くらい前に、やっとルビをルビとして組版できるようになった。
先ほどのXSL-FOの中にルビという要素を使うと、あとは自動組版エンジンのほうがそれをルビとしてきれいにレイアウトしてくれるようになった。
その他もろもろ、昔はできなかったことが最近になってやっとできるようになったという事例が結構あるので、過去にあまりに自動組版の機能の低さにがっかりしたという人は、自動組版をもう一度振り向いていただければと思う。
これからもより簡単にきれいな印刷物を出力できるように、製品の開発をがんばっているので、いろいろご意見も聞かせていただきたい。
質問:ルビの組版はもともとのXMLデータの中にタグを作るのか。
小林氏:そうである。もともとのXMLデータの中にルビのボディというか、漢字の部分とルビテキストの部分と、両方タグ付けしていただくことになる。それをどうレイアウトするかはスタイルシート側の問題である。漢字の上にひらがなを載せるのか、漢字の横に括弧付きでひらがなを出すのか、いろいろあると思うが、そういったようなことが非常に簡単にできるようになった。
2012年9月25日TG研究会「オンラインジャーナルの動向とXML、電子書籍」より(文責編集)