2012-09-01から1ヶ月間の記事一覧

Unicode型とstr型。Pythonさん、勝手にasciiでデコードしないでください。

Pythonは便利ですが、日本語の取り扱いになると突然面倒になる。 Traceback (most recent call last): File "<stdin>", line 1, in ? UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 0: ordinal not in range(128) ってなエラーが出る度に</stdin>…

MeCabとNLTKを使って最瀕語と共起関係を出力する

MecabとNLTKを使って最瀕語と共起関係を出力するコードを書きました。 Mecabのインストールについては、Windowsなら結構難なく行くようですが、Mac OSX Lionだととても躓きました。 その辺りの経緯は、mecab-pythonをMac OSX 10.7 Lion、Python2.7にインスト…

『エンディング・ボット』

自分の書いた大量の文章をトークン化し、語彙資源化して、バイグラムの頻度分布を作成することで、自分の文章のようなランダムテキストを生成できる。 これを用いて、たとえばこれまでの自分のTwitterのポストを解析し、ランダムなトークンから始まるツイー…

名詞評価極性辞書を利用したTwitterの感情分析(Positeve/Negative判定)

Twitter感情分析所 さんを利用しようとしたら、結構重たくて、大量の処理を実行するのは申し訳ない…。と思い、じゃあ自分でコードを書いてしまえ、と思い、調べていたところ、東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, …

後輩「ツイートをGoogleカレンダーに登録して、みんなの予定管理ができるようにできないかなぁ。」

寝る前にTwitter見るかなぁ、とTLを眺めてたら某後輩が「ツイートをGoogleカレンダーに登録して、みんなの予定管理ができるようにできないかなぁ。」などといったことを呟いていた。 ついこないだ初めて会ったような気がしていて、そのときはまだ1年生の終わ…

あるツイートをRTしたひとがその次になにをつぶやいたか?

公式RTが普及してから、非公式RTでコメントする代わりに、公式RTした次のツイートでコメントするのをよく見かけるようになりました。 しかし、それがどのようなものかを発信者は知ることができません。一回、最大101回のAPIリクエストを消費する頭の悪いコー…