簡単で効率的♪ Pythonをつかって、Nグラム表をささっと作成する

Python NLP 自然言語処理

前回に引き続き、Nグラムの話です。タイトルをクックパッドぽくしてみました。nグラム表を作って、そこからフレーズを取り出してみます。以下の文献を参考にしました。長尾眞, 森信介, 1993, 「大規模日本語テキストのnグラム統計の作り方と語句の自動抽出…

2014-04-20

Nグラムを使った未知語の抽出（仮）

Python NLP

n-gramsってどう使うのかよく分かんないなー、どうしてGoogle IMEは「灼眼のシャナ」とか「やはり俺の青春ラブコメはまちがっている。」とかをひとつのフレーズとして認識しているのだろう・・・とググっていたら、こんな論文をみつけた。森信介, 長尾眞, 1…

2014-03-17

Django1.5でGoogle App Engineのチュートリアルをやったときのメモ

Python

Google App Engine上のDjangoでのチュートリアル、「Using Django with Appengine」邦訳 - WebOS Goodiesをやろうとしたところ、チュートリアルで使われているDjangoとGAEのバージョンが古くそのままでは動きませんでした。色々なサイトを参考にしながら動く…

2012-09-30

Unicode型とstr型。Pythonさん、勝手にasciiでデコードしないでください。

Python

Pythonは便利ですが、日本語の取り扱いになると突然面倒になる。 Traceback (most recent call last): File "<stdin>", line 1, in ? UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 0: ordinal not in range(128) ってなエラーが出る度に</stdin>…

2012-09-28

MeCabとNLTKを使って最瀕語と共起関係を出力する

Python NLP

MecabとNLTKを使って最瀕語と共起関係を出力するコードを書きました。 Mecabのインストールについては、Windowsなら結構難なく行くようですが、Mac OSX Lionだととても躓きました。その辺りの経緯は、mecab-pythonをMac OSX 10.7 Lion、Python2.7にインスト…

2012-09-21

『エンディング・ボット』

Python Twitter

自分の書いた大量の文章をトークン化し、語彙資源化して、バイグラムの頻度分布を作成することで、自分の文章のようなランダムテキストを生成できる。これを用いて、たとえばこれまでの自分のTwitterのポストを解析し、ランダムなトークンから始まるツイー…

2012-09-20

名詞評価極性辞書を利用したTwitterの感情分析（Positeve/Negative判定）

Python Twitter

Twitter感情分析所さんを利用しようとしたら、結構重たくて、大量の処理を実行するのは申し訳ない…。と思い、じゃあ自分でコードを書いてしまえ、と思い、調べていたところ、東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, …

2012-09-17

後輩「ツイートをGoogleカレンダーに登録して、みんなの予定管理ができるようにできないかなぁ。」

Python Twitter

寝る前にTwitter見るかなぁ、とTLを眺めてたら某後輩が「ツイートをGoogleカレンダーに登録して、みんなの予定管理ができるようにできないかなぁ。」などといったことを呟いていた。ついこないだ初めて会ったような気がしていて、そのときはまだ1年生の終わ…

2012-09-14

あるツイートをRTしたひとがその次になにをつぶやいたか？

Python Twitter

公式RTが普及してから、非公式RTでコメントする代わりに、公式RTした次のツイートでコメントするのをよく見かけるようになりました。しかし、それがどのようなものかを発信者は知ることができません。一回、最大101回のAPIリクエストを消費する頭の悪いコー…

2012-02-28

mecab-pythonをMac OSX 10.7 Lion、Python2.7にインストールする

Python

入門自然言語処理作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人クリック: 639回この商品を含むブログ (44件) を見る苦節一月半、mecab-python…

2012-01-03

『入門ソーシャルデータ』で日本語を扱うために

Python Twitter

追記（2012/09/17）：macab-pythonをMac OSX 10.7 Lion, Python2.7にインストールする。入門ソーシャルデータ ―データマイニング、分析、可視化のテクニック作者: Matthew A. Russell,奥野陽（監訳）,佐藤敏紀（監訳）,瀬戸口光宏（監訳）,原川浩一（監訳）…