文章を単語に分割する(TinySegmenter PHP移植版)

日本語の文章から単語を得たい場合、ピンポイントで単語がわかっていれば、正規表現などで切りだせますが、そうでない場合なかなかむずかしかったりします。
そこで日本語形態素解析の出番です。
日本語の文章を単語に分かち書きする「形態素解析」のソフトウェアでは、mecabとかYahoo!形態素解析とかありますが、もっと手軽にできる、スクリプトだけで動作するTinySegmenterというのがありました。
JavaScriptで書かれていてクライアントサイドで実行可能。

これをPHPで使いたかったので、移植してみました。使い方は中身を見てくださいということで。

TinySegmenterPHP.php

Leave a Reply