読んde!!ココVer.11で透明テキスト付きPDFを認識し直す
3月 27th, 2005以前の記事で、エー・アイ・ソフトの「読んde!!ココ Ver.10」で作った透明テキスト付きPDFがAcrobat 7で見られないと書いた。
すでに透明テキスト付きPDFをけっこう作成していたので、非常に困る。そこで、新版である「読んde!!ココ Ver.11」の無料体験版をダウンロード。Acrobat 7で見られないPDFをまず読んde!!ココ Ver.11に読み込み(Ver.11ではPDFの直接読み込みに対応している)、改めて文字認識を行ってPDFとして保存する。こうして作り直した透明テキスト付きPDFは、Ver.10で作ったものよりサイズがなぜか大きくなったが(設定は同じにしたつもりなんだけど)、Acrobat 7でも問題なく見られた。まあ、一から紙文書をスキャニングし直すよりは楽だし、確かにVer.11の認識精度や使い勝手はVer.10よりもよくなっているようだ。
ただ、私はVer.11が発表される1ヶ月半ほど前にVer.10を購入しているから、ここでバージョンアップ料を払うのが何だか惜しくて……(いつも2月に新バージョンが出ていたから予測はしていたが)。また、Ver.10が発売されたのはAcrobat 7の発表前ではあるが、Acrobat 7での不具合が見つかった後もこの問題についてサポート情報ページではまったく触れていないのもちょっとどうかな。Ver.10ユーザーには何らかの救済措置を用意してもらいたいところ。
(追記)
認識に関して細かな指定が必要ないのであれば、OCRファクトリーを使って複数ファイルを一括処理することも可能。ただ、「保存方法」を「1原稿につき1ファイルで保存」にしていてもページ数分のPDFが作られてしまう。「1つのファイルにまとめて保存」にして、あとから原稿単位で切り出すようにすると多少手間が省けるだろう。
(2005年4月1日追記)
メーカーによれば、「1原稿につき1ファイルで保存」でもページ単位で保存されてしまうのはバグらしい。これに関しては、リビジョンアップ等で対応予定とのこと。
(2005年4月6日追記)
エー・アイ・ソフトから、読んde!!ココVer.10以前で作られたPDFを変換するためのコンバータが発表された。
3月 30th, 2005 at 19:10
(追記)
認識に関して細かな指定が必要ないのであれば、OCRファクトリーを使って複数ファイルを一括処理することも可能。ただ、「保存方法」を「1原稿につき1ファイルで保存」にしていてもページ数分のPDFが作られてしまう。「1つのファイルにまとめて保存」にして、あとから原稿単位で切り出すようにすると多少手間が省けるだろう。
これって変ですね。
段落単位の設定をしても、結果は行単位になるみたいです。
それはともかく、私の印象では、エー・アイ・ソフトのサポートは昔から上等だと思っています。
なお、検証してみたところ、PDFファイル約190の内、問題ありは40ほどでした。だいたい5分の1ですね。原因は分かっているのでしょうかね?
4月 1st, 2005 at 13:44
メーカーに尋ねてみました。
「1原稿につき1ファイルで保存」でもページ単位で保存されてしまう件は、リビジョンアップで対応とのことです。
「改行の挿入単位」を「段落」に設定しても「行」単位になるということに関してですが、
> 認識パラメータで、モードを「英語」にして
> 認識を行う場合。「改行の挿入単位」で
> 「段落」を選択しても「文」単位で改行が挿入
> されます。これは、仕様となっておりますので
> ご了承くださいますようお願いいたします。
とのことでした。
10月 13th, 2005 at 08:35
はじめまして。
読んde!!ココでPDFにしたものが部分的に白抜けして困っていました。全部やり直しかと青くなって検索したところ、こちらにたどり着き、コンバータをダウンロードして無事変換することができました。
ありがとうございました。