NLP

簡単で効率的♪ Pythonをつかって、Nグラム表をささっと作成する

前回に引き続き、Nグラムの話です。タイトルをクックパッドぽくしてみました。nグラム表を作って、そこからフレーズを取り出してみます。以下の文献を参考にしました。 長尾眞, 森信介, 1993, 「大規模日本語テキストのnグラム統計の作り方と語句の自動抽出…

Nグラムを使った未知語の抽出(仮)

n-gramsってどう使うのかよく分かんないなー、どうしてGoogle IMEは「灼眼のシャナ」とか「やはり俺の青春ラブコメはまちがっている。」とかをひとつのフレーズとして認識しているのだろう・・・とググっていたら、こんな論文をみつけた。 森信介, 長尾眞, 1…

MeCabとNLTKを使って最瀕語と共起関係を出力する

MecabとNLTKを使って最瀕語と共起関係を出力するコードを書きました。 Mecabのインストールについては、Windowsなら結構難なく行くようですが、Mac OSX Lionだととても躓きました。 その辺りの経緯は、mecab-pythonをMac OSX 10.7 Lion、Python2.7にインスト…