Python

簡単で効率的♪ Pythonをつかって、Nグラム表をささっと作成する

前回に引き続き、Nグラムの話です。タイトルをクックパッドぽくしてみました。nグラム表を作って、そこからフレーズを取り出してみます。以下の文献を参考にしました。 長尾眞, 森信介, 1993, 「大規模日本語テキストのnグラム統計の作り方と語句の自動抽出…

Nグラムを使った未知語の抽出(仮)

n-gramsってどう使うのかよく分かんないなー、どうしてGoogle IMEは「灼眼のシャナ」とか「やはり俺の青春ラブコメはまちがっている。」とかをひとつのフレーズとして認識しているのだろう・・・とググっていたら、こんな論文をみつけた。 森信介, 長尾眞, 1…

Django1.5でGoogle App Engineのチュートリアルをやったときのメモ

Google App Engine上のDjangoでのチュートリアル、「Using Django with Appengine」邦訳 - WebOS Goodiesをやろうとしたところ、チュートリアルで使われているDjangoとGAEのバージョンが古くそのままでは動きませんでした。色々なサイトを参考にしながら動く…

Unicode型とstr型。Pythonさん、勝手にasciiでデコードしないでください。

Pythonは便利ですが、日本語の取り扱いになると突然面倒になる。 Traceback (most recent call last): File "<stdin>", line 1, in ? UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 0: ordinal not in range(128) ってなエラーが出る度に</stdin>…

MeCabとNLTKを使って最瀕語と共起関係を出力する

MecabとNLTKを使って最瀕語と共起関係を出力するコードを書きました。 Mecabのインストールについては、Windowsなら結構難なく行くようですが、Mac OSX Lionだととても躓きました。 その辺りの経緯は、mecab-pythonをMac OSX 10.7 Lion、Python2.7にインスト…

『エンディング・ボット』

自分の書いた大量の文章をトークン化し、語彙資源化して、バイグラムの頻度分布を作成することで、自分の文章のようなランダムテキストを生成できる。 これを用いて、たとえばこれまでの自分のTwitterのポストを解析し、ランダムなトークンから始まるツイー…

名詞評価極性辞書を利用したTwitterの感情分析(Positeve/Negative判定)

Twitter感情分析所 さんを利用しようとしたら、結構重たくて、大量の処理を実行するのは申し訳ない…。と思い、じゃあ自分でコードを書いてしまえ、と思い、調べていたところ、東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, …

後輩「ツイートをGoogleカレンダーに登録して、みんなの予定管理ができるようにできないかなぁ。」

寝る前にTwitter見るかなぁ、とTLを眺めてたら某後輩が「ツイートをGoogleカレンダーに登録して、みんなの予定管理ができるようにできないかなぁ。」などといったことを呟いていた。 ついこないだ初めて会ったような気がしていて、そのときはまだ1年生の終わ…

あるツイートをRTしたひとがその次になにをつぶやいたか?

公式RTが普及してから、非公式RTでコメントする代わりに、公式RTした次のツイートでコメントするのをよく見かけるようになりました。 しかし、それがどのようなものかを発信者は知ることができません。一回、最大101回のAPIリクエストを消費する頭の悪いコー…

mecab-pythonをMac OSX 10.7 Lion、Python2.7にインストールする

入門 自然言語処理作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人 クリック: 639回この商品を含むブログ (44件) を見る苦節一月半、mecab-python…

『入門 ソーシャルデータ』で日本語を扱うために

追記(2012/09/17):macab-pythonをMac OSX 10.7 Lion, Python2.7にインストールする。入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳)…