或るDIY好きの日記

住居や車などのちょっとした補修、ITの活用、その他自分でやれることはやってみようと様々なことに挑戦していることをつらつらと書き溜めていきます。

azw3ファイルの読み上げを、聞きやすくするためのちょっとひと手間

azw3ファイルをBalabolkaに読み込んで、読み上げさせてみると、例えば目次を延々と読み上げられて少々煩わしく感じることに気づきます。

また、ルビが打ってある箇所はBalabolkaに読み込まれる際に漢字とふりがなが交ぜ書きになってしまい、聞きづらくなります。

今回は、ちょっとひと手間をかけて、より聞きやすい読み上げ結果を得るためのテキスト処理について考えてみます。

 

 

目次、奥付等の不要情報を削除する

azw3ファイルを読み込んだ後、冒頭と末尾をチェックします。末尾にジャンプするには、[Ctrl]+[End]キー。そして末尾から再び冒頭に戻るには[Ctrl]+[Home]キーを押すとスムーズです。

 

冒頭には、「目次」や「電子書籍版の取扱いに関する注意書き」といった不要な情報があります(ここでいう「不要」は、「読み上げの対象として」という観点で言っています)。

f:id:nuts_777:20190315184703j:plain

 

末尾には、「奥付」や「タグ」(スタイルシート?)といった不要情報があります。

f:id:nuts_777:20190315184850j:plain

 

冒頭、末尾の不要情報は、その範囲を目視確認して削除します(範囲選択し、[Del]キーを押す)。

漢数字を算用数字に変換

大体の邦文の電子書籍は、縦書きで組版されています。やはり、横書きより縦書きが読みやすいのですが、縦書きに伴って数値表記が漢数字になっていることがあります。算用数字ならよいのですが、この漢数字の読み上げがうまくいきません。

 

例えば、「五四・三%」は「ごよんてんさんパーセント」、「一九九四年」は「いちきゅうきゅうよんねん」、「一〇〇〇万円」は「いちれいれいれいまんえん」といった具合です。

 

この問題を回避するには、漢数字を算用数字に変換してしまうことです。それには、以下のページで公開されているWordマクロが有効です。


ふりがな、ついでに言葉がおかしい箇所を検出・修正する

 このようなルビが打ってある文章ですが、

f:id:nuts_777:20190315190313j:plain

 

Balabolkaに読み込むと、このように一文として展開されてしまいます。

f:id:nuts_777:20190315190639j:plain

「おやゆずおやゆずり の むてっぽうむてっぽうで」という調子で読み上げられてしまうので、いささか具合が悪いです。

 

さりとて、先頭から順に全文にわたって自分の目でチェックすると、時間がかかりすぎて現実的ではありません。

 

完璧とまではいきませんが、ざっと検出・修正するために、Word(ワープロ)の文章校正機能を使うととても便利です。

 

まず、Balabolkaで[Ctrl]+[A]キー(全文選択),[Ctrl]+[C]キー(コピー)を押して全文コピーします。そして、そのままWordに貼り付けます。

f:id:nuts_777:20190315191521j:plain

 

[F7]キーを押して、Wordに文章校正させます。さっそく、出だしの「親譲おやゆずり」を見つけてくれました。

f:id:nuts_777:20190315191624j:plain

 

「親譲おやゆずり」を「親譲り」と編集し(f:id:nuts_777:20190312192417p:plain)、[次の文]ボタン(f:id:nuts_777:20190312192422p:plain)をクリックします。

f:id:nuts_777:20190315192053j:plain

 

次の修正箇所にジャンプします。「無鉄砲むてっぽう」は飛ばされてしまいましたが、細かいことは気にせず、ざっくり修正できればよいくらいの気持ちで作業すればよいでしょう。

f:id:nuts_777:20190315192415j:plain

ここでの指摘は「だんに」が入力ミス?というもの。やはり「冗談じょうだん」とふりがなが文中に展開されています。

f:id:nuts_777:20190315192547j:plain

同様に編集します(f:id:nuts_777:20190312192417p:plain)。表示されているのは限られた文章量ですので、ついでに他にもおかしな表現がないかをチェックするとよいですね。

編集・チェックが終わったら、[修正]ボタン(f:id:nuts_777:20190312192422p:plain)をクリックします。

f:id:nuts_777:20190315192909j:plain

 

以降、修正箇所が表示されなくなるまでこの作業を繰り返します。

漢字・ふりがなが混ざった箇所の他にも、漢字の誤用や、くだけた表現なども指摘されます。その辺りは臨機応変に対応します。

 

そこそこ大変な作業ではありますが、自分で修正箇所を探さなくてもいいので、ずいぶん楽させてもらえます。

 

ちなみに、サンプルで用いた「坊っちゃん」(夏目漱石)。明治時代に執筆された文章ゆえ、一部に現代とは漢字の当て方が異なる言葉があり、それをWordが誤用であると指摘しました。例えば、「子供」を「小供」といった具合です。ご参考まで。

 

www.hi-ho.ne.jp