2013年2月6日水曜日

lucene-gosen 導入

http://www.mwsoft.jp/programming/munou/lucene_gosen.htmlのとおりに。 google codeからおとす。ipadicとnaist-chasenが選べるが、よくわからんのでIPAで。 こんなふうにして、
import net.java.sen.*;
import net.java.sen.dictionary.*;
import java.io.*;

class Test {
  public static void main(String [] args) throws Exception {
 StringTagger stringTagger = SenFactory.getStringTagger(null);
 Reader reader = new InputStreamReader(System.in, "utf-8");
 PrintWriter writer = new PrintWriter(new OutputStreamWriter(System.out, "utf-8"));
 
 StreamTagger tagger = new StreamTagger(stringTagger, reader);
 while (tagger.hasNext()) {
   Token token = tagger.next();
   writer.println(token.getSurface());
 }
 writer.flush();
  }
}
コンパイル。
javac -cp ".:lucene-gosen-4.1.0-ipadic.jar" -encoding UTF8 Test.java
実行
java -cp ".:lucene-gosen-4.1.0-ipadic.jar" Test
テストです。  <- 入力文
テスト       <- 解析結果
です
。

0 件のコメント: