http://www.mwsoft.jp/programming/munou/lucene_gosen.htmlのとおりに。
google codeからおとす。ipadicとnaist-chasenが選べるが、よくわからんのでIPAで。
こんなふうにして、
import net.java.sen.*;
import net.java.sen.dictionary.*;
import java.io.*;
class Test {
public static void main(String [] args) throws Exception {
StringTagger stringTagger = SenFactory.getStringTagger(null);
Reader reader = new InputStreamReader(System.in, "utf-8");
PrintWriter writer = new PrintWriter(new OutputStreamWriter(System.out, "utf-8"));
StreamTagger tagger = new StreamTagger(stringTagger, reader);
while (tagger.hasNext()) {
Token token = tagger.next();
writer.println(token.getSurface());
}
writer.flush();
}
}
コンパイル。
javac -cp ".:lucene-gosen-4.1.0-ipadic.jar" -encoding UTF8 Test.java
実行
java -cp ".:lucene-gosen-4.1.0-ipadic.jar" Test
テストです。 <- 入力文
テスト <- 解析結果
です
。
0 件のコメント:
コメントを投稿