2012-01-01から1年間の記事一覧

Unicode型とstr型。Pythonさん、勝手にasciiでデコードしないでください。

Pythonは便利ですが、日本語の取り扱いになると突然面倒になる。 Traceback (most recent call last): File "<stdin>", line 1, in ? UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 0: ordinal not in range(128) ってなエラーが出る度に</stdin>…

MeCabとNLTKを使って最瀕語と共起関係を出力する

MecabとNLTKを使って最瀕語と共起関係を出力するコードを書きました。 Mecabのインストールについては、Windowsなら結構難なく行くようですが、Mac OSX Lionだととても躓きました。 その辺りの経緯は、mecab-pythonをMac OSX 10.7 Lion、Python2.7にインスト…

『エンディング・ボット』

自分の書いた大量の文章をトークン化し、語彙資源化して、バイグラムの頻度分布を作成することで、自分の文章のようなランダムテキストを生成できる。 これを用いて、たとえばこれまでの自分のTwitterのポストを解析し、ランダムなトークンから始まるツイー…

名詞評価極性辞書を利用したTwitterの感情分析(Positeve/Negative判定)

Twitter感情分析所 さんを利用しようとしたら、結構重たくて、大量の処理を実行するのは申し訳ない…。と思い、じゃあ自分でコードを書いてしまえ、と思い、調べていたところ、東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, …

後輩「ツイートをGoogleカレンダーに登録して、みんなの予定管理ができるようにできないかなぁ。」

寝る前にTwitter見るかなぁ、とTLを眺めてたら某後輩が「ツイートをGoogleカレンダーに登録して、みんなの予定管理ができるようにできないかなぁ。」などといったことを呟いていた。 ついこないだ初めて会ったような気がしていて、そのときはまだ1年生の終わ…

あるツイートをRTしたひとがその次になにをつぶやいたか?

公式RTが普及してから、非公式RTでコメントする代わりに、公式RTした次のツイートでコメントするのをよく見かけるようになりました。 しかし、それがどのようなものかを発信者は知ることができません。一回、最大101回のAPIリクエストを消費する頭の悪いコー…

cites:ベイトソン『精神の生態学』、『精神と自然』

精神の生態学作者: グレゴリーベイトソン,Gregory Bateson,佐藤良明出版社/メーカー: 新思索社発売日: 2000/02メディア: 単行本購入: 1人 クリック: 122回この商品を含むブログ (63件) を見る「『ハート(情)には、リーゾン(理性)が感取しえない独自のリ…

趣味とは、生活に句読点を打つことだ

「趣味とは、生活に句読点を打つことだ」と以前読んだ(下掲書)。 句読点のまったくない文章も、句読点だらけの文章もともに読みづらい。文章にはリズムがある。句読点だけでない。一文の長さ、接続詞の有無、など。手巻きタバコ STYLE BOOK: THE ZIG-ZAG B…

「R二乗値なんて信仰にすぎない!」について(F統計量のお話)

「R二乗値なんて神話・信仰の類ですよ!」と先生が仰るものだから、われわれは啓蒙されなければならない、と思い、ちょっと覚書を残しておこうと思います。 本当は、重回帰モデルの診断の話まで書きたかったのですが、それはまた後日…。(修正済み)R二乗値…

mecab-pythonをMac OSX 10.7 Lion、Python2.7にインストールする

入門 自然言語処理作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人 クリック: 639回この商品を含むブログ (44件) を見る苦節一月半、mecab-python…

『入門 ソーシャルデータ』で日本語を扱うために

追記(2012/09/17):macab-pythonをMac OSX 10.7 Lion, Python2.7にインストールする。入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳)…