Wikipediaのデータがダウンロードできるってことに、何気に気づいた。
GFDLで公開されているわけだし、よく考えれば驚くことじゃないんだけど。
で、WikipediaをEPWING辞書化して、x02htからオフラインでも検索できるように持ち歩こうってお話。
以下のものが必要
- EBWin Unicode版
Windows上でEPWING辞書を閲覧・検索するために使用する
EBWin付属のEBShrinkで辞書を圧縮することができるので、Windows上で利用する予定が無くてもインストールしておく
http://www31.ocn.ne.jp/~h_ishida/EBPocket.html - EBPocket free
EPWINGの電子ブックビューワ、Pocket PC、Windows CE、Windows Mobile用
各プラットフォーム版が同梱されているので、自分のMobile端末に合うものを選択してインストールしておく
http://www31.ocn.ne.jp/~h_ishida/EBPocket.html - Wikipediaデータベースのdump
「pages-articles.xml.bz2 – ノートページ、利用者ページを除く最新版のダンプ」を入手する
http://ja.wikipedia.org/wiki/Wikipedia:データベースダウンロード - Cygwin
Windows上で作業するならCygwinが必要、あらかじめインストールしておく - FreePWING
EPWING V1のサブセットであるJIS X 4081形式の書籍データを生成するソフト
http://www.sra.co.jp/people/m-kasahr/freepwing/ - wikipedia-fpw
ウィキペディア日本語版のダンプデータを、FreePWINGを利用してJIS X 4081形式に変換する
http://ikazuhiro.s206.xrea.com/staticpages/index.php/wikipedia-fpw
とりあえずCygwinもしくはLinuxの処理系が使用できる状態を前提として、以下に手順をまとめておく。
まず、必要なものをダウンロードする。
Cygwinを普通にインストールしている場合、wgetが入ってないかもしれないので、追加しておくこと。
# cd /path/to/download (適当に読み替えて)
# wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# wget ftp://ftp.sra.co.jp/pub/misc/freepwing/freepwing-1.6.tar.bz2
# wget http://ikazuhiro.s206.xrea.com/filemgmt/visit.php/116
続いて、FreePWINGのインストール
# tar xvfj freepwing-1.6.tar.bz2
# cd freepwing-1.6
# ./configure
# make
# make install
続いて、wikipedia-fpwを展開
これはインストールしないで、展開するだけ
そして、WEBサイトの説明に従って、wikipedia-fpw.confを編集する
例えばCygwinの場合、’enable_math’を0に変更し、数式を用いないようにするなど
# cd /path/to/download
# tar xvfz wikipedia-fpw-20090126-src.tar.gz
# cd wikipedia-fpw-20090126
# vi wikipedia-fpw.conf
Wikipediaダウンロードデータを展開し、wikipedia-fpwのディレクトリに’wikipedia.xml’という名前でコピー
その後、処理を始める
# cd /path/to/download
# bunzip2 jawiki-latest-pages-articles.xml.bz2
# mv jawiki-latest-pages-articles.xml /path/to/wikipedia-fpw/wikipedia.xml
# cd /path/to/wikipedia-fpw (適宜、読み替えて)
# fpwmake
# fpwmake catalogs
# fpwmake package
なお、fpwmakeにはかなり時間がかかるので、気合い入れて。
Intel Core Duo T2400 1.83GHz、1.5GB RAMにて、6時間かかりました。
WIKIPというフォルダができているので、そのフォルダの中のcatalogsファイルを登録すれば、EBWinから検索することができるはずです。
確認できたら、EBShrinkで圧縮して、honmonファイルのサイズを減らしましょう。
僕はあまり大きなmicrosdをもってないので、Level 5で圧縮して900MBくらいになりました。