Cygwinにmecabをインストールする手順のメモ

ブログの執筆とかで役立ちそうなので形態素解析エンジンをCygwinに導入してみる。vimから操れれば凄そうだから。なんとなく。

どうやら日本語形態素解析エンジン界隈ではJUMANとかmecabが巨星らしい。速さを重視してmecabにする。早速Cygwinに入れることにした。MeCab

mecabのインストールに必要なもの

  • CRF
  • mecab本体
  • 辞書(IPA辞書/Juamn辞書/Unidic辞書のいずれか)

上記3点が必要なため早速インストール。

CRFのインストール


    $ cd /usr/src
    $ wget https://crfpp.googlecode.com/files/CRF  -0.53.tar.gz
    $ tar zxvf CRF  -0.53.tar.gz
    $ cd CRF  -0.53
    $ ./configure
    $ make
    $ make install

CRF -0.55でのインストールを試みるもmakeで謎のエラーに阻まれれる。(謎)なので、0.53に変更すると通った。

MeCab本体のインストール


    $ cd /usr/src
    $ wget http://mecab.googlecode.com/files/mecab-0.98.tar.gz
    $ tar zxvf mecab-0.98.tar.gz
    $ cd mecab-0.98
    $ ./configure CPPFLAGS=-DNOMINMAX LIBS="-liconv" --with-charset=utf8
    $ make
    $ make install

辞書のインスト

続いて辞書を登録する。辞書はIPA辞書・Juamn辞書・Unidic 辞書の三種類あり、IPA辞書を推奨とのことなので従う。


    $ cd /usr/src
    $ wget http://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
    $ tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz
    $ cd mecab-ipadic-2.7.0-20070801
    $ ./configure --with-charset=utf-8
    $ make
    $ make install

動作確認


    通常モード
    echo '死んだ猫を探すみたいに永遠を探す' | mecab

    死ん       動詞,自立,*,*,五段・ナ行,連用タ接続,死ぬ,シン,シン
    だ         助動詞,*,*,*,特殊・タ,基本形,だ,ダ,ダ
    猫         名詞,一般,*,*,*,*,猫,ネコ,ネコ
    を         助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
    探す       動詞,自立,*,*,五段・サ行,基本形,探す,サガス,サガス
    みたい     名詞,非自立,形容動詞語幹,*,*,*,みたい,ミタイ,ミタイ
    に         助詞,副詞化,*,*,*,*,に,ニ,ニ
    永遠       名詞,一般,*,*,*,*,永遠,エイエン,エイエン
    を         助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
    探す       動詞,自立,*,*,五段・サ行,基本形,探す,サガス,サガス
    EOS

    分かち書きモード
    echo '死んだ猫を探すみたいに永遠を探す' | mecab -Owakati

    死ん だ 猫 を 探す みたい に 永遠 を 探す 

mecabに文を放り込むことで
品詞情報の取得や文を分割したりできる。
こいつをvimからどうするかはこれから考える。