Wikipediaオフライン

Wikipediaのデータがダウンロードできるってことに、何気に気づいた。
GFDLで公開されているわけだし、よく考えれば驚くことじゃないんだけど。
で、WikipediaをEPWING辞書化して、x02htからオフラインでも検索できるように持ち歩こうってお話。

以下のものが必要

  • EBWin Unicode版
    Windows上でEPWING辞書を閲覧・検索するために使用する
    EBWin付属のEBShrinkで辞書を圧縮することができるので、Windows上で利用する予定が無くてもインストールしておく
    http://www31.ocn.ne.jp/~h_ishida/EBPocket.html
  • EBPocket free
    EPWINGの電子ブックビューワ、Pocket PC、Windows CE、Windows Mobile用
    各プラットフォーム版が同梱されているので、自分のMobile端末に合うものを選択してインストールしておく
    http://www31.ocn.ne.jp/~h_ishida/EBPocket.html
  • Wikipediaデータベースのdump
    「pages-articles.xml.bz2 – ノートページ、利用者ページを除く最新版のダンプ」を入手する
    http://ja.wikipedia.org/wiki/Wikipedia:データベースダウンロード
  • Cygwin
    Windows上で作業するならCygwinが必要、あらかじめインストールしておく
  • FreePWING
    EPWING V1のサブセットであるJIS X 4081形式の書籍データを生成するソフト
    http://www.sra.co.jp/people/m-kasahr/freepwing/
  • wikipedia-fpw
    ウィキペディア日本語版のダンプデータを、FreePWINGを利用してJIS X 4081形式に変換する
    http://ikazuhiro.s206.xrea.com/staticpages/index.php/wikipedia-fpw

とりあえずCygwinもしくはLinuxの処理系が使用できる状態を前提として、以下に手順をまとめておく。

まず、必要なものをダウンロードする。
Cygwinを普通にインストールしている場合、wgetが入ってないかもしれないので、追加しておくこと。

# cd /path/to/download (適当に読み替えて)
# wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# wget ftp://ftp.sra.co.jp/pub/misc/freepwing/freepwing-1.6.tar.bz2
# wget http://ikazuhiro.s206.xrea.com/filemgmt/visit.php/116

続いて、FreePWINGのインストール

# tar xvfj freepwing-1.6.tar.bz2
# cd freepwing-1.6
# ./configure
# make
# make install

続いて、wikipedia-fpwを展開
これはインストールしないで、展開するだけ
そして、WEBサイトの説明に従って、wikipedia-fpw.confを編集する
例えばCygwinの場合、’enable_math’を0に変更し、数式を用いないようにするなど

# cd /path/to/download
# tar xvfz wikipedia-fpw-20090126-src.tar.gz
# cd wikipedia-fpw-20090126
# vi wikipedia-fpw.conf

Wikipediaダウンロードデータを展開し、wikipedia-fpwのディレクトリに’wikipedia.xml’という名前でコピー
その後、処理を始める

# cd /path/to/download
# bunzip2 jawiki-latest-pages-articles.xml.bz2
# mv jawiki-latest-pages-articles.xml /path/to/wikipedia-fpw/wikipedia.xml
# cd /path/to/wikipedia-fpw (適宜、読み替えて)
# fpwmake
# fpwmake catalogs
# fpwmake package

なお、fpwmakeにはかなり時間がかかるので、気合い入れて。
Intel Core Duo T2400 1.83GHz、1.5GB RAMにて、6時間かかりました。

WIKIPというフォルダができているので、そのフォルダの中のcatalogsファイルを登録すれば、EBWinから検索することができるはずです。
確認できたら、EBShrinkで圧縮して、honmonファイルのサイズを減らしましょう。
僕はあまり大きなmicrosdをもってないので、Level 5で圧縮して900MBくらいになりました。

カテゴリー: コンピュータ パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください