ちまたで話題の「自炊」とやらです。

通勤経路が変わってからというもの、電車に乗る時間が増えました。
地下でも３GだのLTEだのが入るから、ずっとインターネットに接続していてもブラウジングしつくしてしまいます。

ということで、ネットばかりやっていても頭がおかしくなりそうだから、久し振りに本を読むか、ということになりました。

実は昨年の大河ドラマ「平清盛」の時から吉川英治・著「新平家物語」は１巻から３巻くらいまで読んでいたのです。
そして、そこから新しいものに、ということでAmazonのKindleアプリを端末にインストールして４巻以降は電子書籍で読むことにしてみました。

本特有の紙の匂いが結構好きで、電子書籍に抵抗はありましたが、徐々に慣れ始めると、どこでも本が読めるという快適さが拍車をかけました。

好きな作家の作品すべてが電子書籍化されている訳ではない

一番好きな作家は「司馬遼太郎」で、彼の作品の８割くらいは読んだかなぁというところです。
そして、電子書籍を探しても出てきやしない。

ならば、今流行りの「自炊」にトライしてみました。

道具を揃える

自炊行為＝紙の書籍を電子化する

ということは結構、初期投資がかかってしまいました。
必要なのは

スキャナ
裁断機

が最低限といったところ。
道具は安いもので済ませようと思えばなんとかなりそうではありましたが、安物買いの銭失いとなるのがちょっと怖かったので、ネット上でそこそこ支持されているものをチョイス。

スキャナ
裁断機

スキャナ

富士通「ScanSnap iX500」

まぁ、「王道」ですかね。

裁断機

裁断機、ともなると３万円くらいかかるとか、ちょっと理解できなかったので「デスクカッター」でごまかしました。

カール事務機器「ディスクカッター [DC-230N]」

本をバラす

文庫本しか持っていないので、当然、文庫本をバラしていきます。
背表紙に「高温」設定のアイロンを当て、ボンドを溶かしていきます。
ページの隙間からカッターを入れてバラす方法もやってみましたが、綺麗な仕上がりとは言えず、本を１冊無駄にした気分でした。

高温で当てていくとボンドが溶けるような音が聞こえてくるので、そしたら一度離して、取れるかどうか試してみます。
２〜３冊やってみればコツも掴めました。

スキャナにかける

スキャナにかける前に、ハードの設定なのですが自分の環境は、Ubuntu12.04にVirtualBoxをインストールして、そのVirtualBoxにWindows7をインストールしています。

このスキャナ、USB3.0対応なのですが、肝心のVirtualBoxの方がUSB3.0を認識してくれません。
ケーブルがUSB3.0用？なのかちょっと太い
たまたま余っていたUSB2.0用のケーブルを挿してみたら無事に認識してくれました。

読み取りの設定とかは「ScanSnap」で。

いろいろと好みの設定があるようですが、自分はこれで。

こんな感じ。

スパっとスキャン。

PDFにした後

PDFにした後、本をどのように読むか。

１．OCR処理をしてテキストデータ化する。
２．PDFファイルをそのまま読む。

OCR処理をやってみた。

OCR処理は付属する「Adobe Acrobat X」でも、「ScanSnap」でもやってくれます。
ただテキストデータ化したい目的は

画面サイズに関係なく文字の折り返し、フォントの大きさなどを変えられるようにしたい。

ということなんです。
PDFに埋め込まれたって、結局、PDFのままなので行の途中で折り返してくれるわけでもないし、ただ文字列を選択できるようになるだけ、なんです。

選択できれば、エディタとかにコピペすれば？

という風に思っていましたが、これが結構甘かった。
OCR処理した文章は「行」などの概念がなく、画面端になると「改行コード」を埋め込みやがるので段落とか無視して改行してしまう。

縦書きとルピ

「縦書き」なんてのはadobeには無理な話で、「ルビ」なんてあったらもう最悪。
撃沈です。

文字列をエディタへコピペ

（※司馬遼太郎「花神　上巻」の７ページ目）
認識率はまぁまぁだけど、ルビだけで１行分使っちゃってる。
こんなの手作業でやってられません。

縦書き、ルビに対応したOCRソフト

縦書きに対応したWindowsのソフトは

読取革命
読んde!!ココ

の２つ。ただ、「読取革命」はルビに対応していないし、「読ん!!deココ」は生産中止。
たまたま持っていた古い「読ん!!deココ ver12」を使ってみた。

これのすごいところは、段落の設定やルビをどうするか、など細かく設定できるところ。
ルビは邪魔なので「削除」を設定してみる。

認識精度はところどころ間違っている、という感じ。
だけど、段落とかはしっかりと押さえてる。

１冊まるごとOCR処理をやってみた。

そこで「読ん!!deココ ver12」を使ってやってみた。
全部自動でやれれば良いのだけれど、それをやってしまうと認識精度が下がってしまうので、最低限、「認識領域」だけは手作業でやるしかない。
これだけで１冊４００ページ分ｗ

出来上がったテキストデータも確かにいい感じだけど、やはりところどころ認識ができていない。
これをおおよそ正しく直すのに２〜３時間は軽くかかる。ただ、これをAndroid端末などで読むと、実に美しい。
Xperia Vに「縦書きビューワ」をインストールしてテキストデータをそのまま表示。

読みやすい。
Amazon Kindleとかで買った電子書籍と変わらないです。

けどやはり面倒

大切な本だから、綺麗に読みたいけれど手間と時間がかかりすぎてやってられない。
なのでOCR化は中止。（時間があればそのうちやってみたいけど。）

PDFで読むことにしました。

作業が固まった

裁断→スキャン→画面サイズを最適化

という流れ。
画面サイズを最適化するには「ChainLP」という素晴らしいソフトを作っている方がいらっしゃって、それを使うと端末ごとに最適化される。（太字にしたり、余白カットしてくれたり）

ChainLP

使い方とかは、先人様のサイトに詳しく掲載されています。

出来上がったPDFファイルをandroid端末で読んでみる。

使ったのは「Perfect Viewer」というもの。
Xperia V。ちっちぇーｗ
Nexus7などのタブレットなら、文庫本が単行本みたいになって十分読めます。

これだけ苦労して、作った電子書籍ですが、検索していたらこんなブログが。

青いblog司馬遼太郎はいつ電子書籍になるのか。:

昨年のことですが、電子書籍部門にいる出版社の知人の話では、今ちょうど書類が来ているところなので、電子書籍化は早くても今年（2013年）の夏以降……とのことでした。

おいっｗ

まぁ、仕方ないですね。。。。

[電子書籍]自炊とやらをやってみた。