Acrobatは持っていないけど、Kindle3でさくさく読める綺麗なPDFを作りたい!

(このエントリーは別アカウントで書いた元記事に重要な「追加2」を加えた修正版です。)

長年積み続けた本をKindleで見るため、ドキュメントスキャナを購入した。



スキャナそのものは場所もとらず、非常に快適に使えているのですが、Kindleで表示が速く(≒サイズが小さい)、それなりに見やすいPDFファイル」を作ろうとすると、付属の「CaptureOnTouch」や「PaperPort 11」ではどうにも足りない。。


自炊した電子書籍(PDF)を iPad でサクサク表示する方法(サンプル動画あり) - 彼女からは、おいちゃんと呼ばれています


模索している際に上記のエントリーを見つけ「Adobe Acrobat付きの製品にしとけば(TT」と思ったが、Adobe Acrobatは単体で買うには高すぎるので、快適なOCRソフトを求めて下記の3製品の体験版を試してみました。

e.Typist Ver.13.0 読んde!!ココ Ver.13 読取革命 Ver.14
e.Typist v.13.0 【送料無料】読んde!!ココ Ver.13 読取革命Ver.14 製品版

検証の素材には、ページ構成や図表の数が異なるものがよかろうと思い、手元にあった下記の技術書と雑誌を使ってみました。

  • SAN&NASストレージネットワーク管理
    • IT系技術書の定番O'Reilly
    • B5変則版
    • 数ページに1つ程度図があるだけで、ほとんどは白地に黒文字の文章。
    • 検証では表紙を含む50ページ分を使用(24bitカラー14p, 256階調グレースケール36p)
    • 気づいたら本棚にあった。
  • WEB+DB PRESS vol.56
    • IT系技術雑誌
    • B5版
    • 図や挿絵、スクリーンショットも多く、コードが網掛けの上に載っていることも多い。
    • 検証では表紙を含む100ページ分を使用(24bitカラー1p, 256階調グレースケール99p)
    • 結構好き

スキャンやOCRソフトの設定は、色々模索した結果、下記のような感じに。

  • スキャンにはDR-150付属の「DR-150 CaptureOnTouch」を使用。
  • 解像度は400dpiを使用。
  • カラーページは「16bitカラー」、単色ページは「256階調グレースケール」を選択。
  • スキャン結果はBMP画像として保存し、OCRソフトはこれを読み込み処理する。
  • 画像修正は行わず「レイアウト抽出(自動)→OCR処理(自動)→PDF生成」のみ実施。

で、早速、上記の条件で「生成したPDFファイルのサイズ」を調べたところ、予想以上にOCRソフトや出力形式によりファイルサイズに差が表れました。


Kindle上でのページ送りもファイルサイズが小さいものほど早いです。

元データ
(BMP画像)
e.Typist
PDF画像
(透明テキスト付き)
読取革命
PDF(透明文字)
読取革命
PDF(高圧縮)
読んde!!ココ
PDF(透明テキスト)
(雑誌)
WEB+DB PRESS
vol.56

WEB+DB PRESS Vol.56
856 MB
(50ページ)
9.89 MB 82.4 MB 20.0 MB 80.6 MB
(O'Reilly本)
SAN&NAS
ストレージ
ネットワーク管理

SAN & NASストレージネットワーク管理
1003.5 MB
(100ページ)
12.0 MB 61.0 MB 14.6 MB 62.8 MB


上の結果を見ると生成する(PDFファイルのサイズで言えば)e.Typistが圧倒的なように見えますが、Kindleで見た場合、「表示の綺麗さ」においてPCやiPadとは異なる特徴があることに気づきました。


 ※以降、ファイルサイズが2番目に小さかった読取革命との比較。


まず、元データとなるBMP画像の一部と、Acrobat Readerで400%まで拡大表示したPDFの該当部分を比べてみると・・・

元データ
(BMP画像)
f:id:tama_sp:20101127032142j:image
e.Typist
PDF画像
(透明テキスト付き)
f:id:tama_sp:20101127002056j:image
読取革命
PDF(高圧縮)
f:id:tama_sp:20101127002055j:image


見ての通り、どちらもファイルサイズを抑えるため画像圧縮により劣化しています。


しかし、e.Typistには「白地部分にJPEG画像に見られるようなノイズ」が見られるの対し、読取革命は「アンチエイリアスを消すような階調の削減」となっています。


バックライトに照らされた真っ白な液晶上で見てる分には「好みの問題」と言えるほどの差ですが、自ら発光しないe-inkを使っていてコントラストも弱いKindle上で見ると事情が変わってきます。

e.Typist
PDF画像
(透明テキスト付き)
f:id:tama_sp:20101126233208j:image
読取革命
PDF(高圧縮)
f:id:tama_sp:20101126233250j:image

 ※横向き表示, fit-to-width.


写真ではちょっとわかりづらいかもしれませんが、e.Typistでは「白地のノイズが目立ち文字が読みづらい」のに対し、読取革命は「文字色が薄くなっているが形状の崩れはない」という状態です。


どうでしょう…読取革命で生成したPDFの方が見やすくないですか?


「PDFファイルのサイズ」と「Kindle上での表示の綺麗さ」という上記の検証の結果をまとめると・・・

e.Typist 読取革命
PDFファイルサイズ とても小さい
(雑誌では圧倒的!)
小さい
文字の画像劣化 文字の周囲にJPEG風のノイズが発生する。 グレースケールの階調が減り、
アンチエイリアスが消える。
Kindle上での表示 白地にノイズが目立つ。 文字色が薄くなるが
文字の表示はくっきり!


という感じになるでしょうか。


ざっくりとまとめると「ファイルサイズのe.Typist」と「Kindleの縮小表示でも綺麗な読取革命」なので・・・


「まぁ、用途に合わせて好きの方使ったらいいよ!Acrobatも含めてね!」



ということで両者を持ち上げつつ強引にまとめてしまいます。ではでは。




(追記1)

上記ではあくまで文字の表示を対象に比較していましたが、

図表や網掛けなどでは文字をくっきり見せていた読取革命の処理が、

悪い方向に働いてしまうケースもあるようです。

e.Typist
PDF画像
(透明テキスト付き)
f:id:tama_sp:20101127040341j:image
読取革命
PDF(高圧縮)
f:id:tama_sp:20101127040421j:image

 ※横向き表示, fit-to-width


上記は網掛けの濃淡が強調されてしまい、文字が見づらくなった例です。


e-inkのKindleではそれほど重要ではないかもしれませんが、

カラー印刷物を読取革命でPDF化すると色の階調落ちが目立つ印象です。


結局「用途に合わせて」なんですね。

以上、参考までに。





(おまけ)
「結局、お前はどっち買ったんだよ!」という点をスルーしていますが、実際に買ったのはe.Typist NEO(日英のみVer.)の方です。しかも、後半で書いている「Kindle上での表示の綺麗さ」に気づいたのは買った後!完全に後の祭!もちろんe.Typistも快適に使えてるけど、正直、気づけなかったのが悔しい!

と言うわけで、いきなりはてなダイアリー始め、誰かの参考になればと書いてみました。はてな記法に慣れておらずだいぶ手間取りましたが、また何か思いついたら書いてみたいと思います。


(追記2)

(移転前のダイアリーで)コメントいただき「e.TypistのMRC圧縮」(高圧縮PDF)を試したところ、今までの検証が無意味なぐらいの優秀な結果が出てしまいました(汗


何はともあれ結果からご覧ください。



最初にPDFのファイルサイズですが・・・

元データ
(BMP画像)
e.Typist
高圧縮PDF画像
(透明テキスト付き)
e.Typist
PDF画像
(透明テキスト付き)
読取革命
PDF(透明文字)
読取革命
PDF(高圧縮)
読んde!!ココ
PDF(透明テキスト)
(O'Reilly本)
SAN&NAS
ストレージ
ネットワーク管理

SAN & NASストレージネットワーク管理
1003.5 MB
(100ページ)
9.19 MB 12.0 MB 61.0 MB 14.6 MB 62.8 MB



続いて文字(画像)の拡大・・・

元データ
(BMP画像)
f:id:tama_sp:20101127032142j:image
e.Typist
高圧縮PDF画像
(透明テキスト付き)
f:id:KeME:20110402015333j:image
e.Typist
PDF画像
(透明テキスト付き)
f:id:tama_sp:20101127002056j:image
読取革命
PDF(高圧縮)
f:id:tama_sp:20101127002055j:image



Kindle上で文字を表示すると・・・

e.Typist
高圧縮PDF画像
(透明テキスト付き)
f:id:KeME:20110402010745j:image
e.Typist
PDF画像
(透明テキスト付き)
f:id:tama_sp:20101126233208j:image
読取革命
PDF(高圧縮)
f:id:tama_sp:20101126233250j:image



同じくKindle上で網掛を含む部分を表示すると・・・

e.Typist
高圧縮PDF画像
(透明テキスト付き)
f:id:KeME:20110402012246j:image
e.Typist
PDF画像
(透明テキスト付き)
f:id:tama_sp:20101127040341j:image
読取革命
PDF(高圧縮)
f:id:tama_sp:20101127040421j:image



以上のように検証した中で最小のファイルサイズを誇りながらも、

読取革命のような階調を削減する圧縮処理のためKindle上でも見やすい

さらに懸念された網掛や図表への悪影響も非常に小さい


正直なところ、よく調べずにe.Typist買ったけど後悔せずに済みそうですw


ただ、良いところばかりでもあれなのでe.Typistを使っていて嵌った点も軽くご報告。

  • 500ページ以上のファイルを処理できない
    (フリーのPDF結合ソフトを併用しています)
  • ソースコードなど網掛上の文字の認識精度はかなり残念
    Acrobatで作られたPDFと比べると差は歴然)
  • 処理中に元ファイルに匹敵するサイズの一時ファイルを作るらしくたまに容量不足に(汗

もしかしたら上記についても解決策があるかもしれません。

また、扱う画像データ(本、漫画、写真集、etc)や閲覧環境(PC,e-ink端末,タブレット,etc)によって、

今回の検証とはまた違ったメリット・デメリットが出てくると思います。



なので、買う前に試用することを強く推奨します!


追記が続いて見づらい構成になってしまいましたが、最後まで読んで頂きありがとうございました。