簡単で効率的♪ Pythonをつかって、Nグラム表をささっと作成する

前回に引き続き、Nグラムの話です。タイトルをクックパッドぽくしてみました。nグラム表を作って、そこからフレーズを取り出してみます。以下の文献を参考にしました。 長尾眞, 森信介, 1993, 「大規模日本語テキストのnグラム統計の作り方と語句の自動抽出…

Nグラムを使った未知語の抽出(仮)

n-gramsってどう使うのかよく分かんないなー、どうしてGoogle IMEは「灼眼のシャナ」とか「やはり俺の青春ラブコメはまちがっている。」とかをひとつのフレーズとして認識しているのだろう・・・とググっていたら、こんな論文をみつけた。 森信介, 長尾眞, 1…

Django1.5でGoogle App Engineのチュートリアルをやったときのメモ

Google App Engine上のDjangoでのチュートリアル、「Using Django with Appengine」邦訳 - WebOS Goodiesをやろうとしたところ、チュートリアルで使われているDjangoとGAEのバージョンが古くそのままでは動きませんでした。色々なサイトを参考にしながら動く…

「客観的に」認められたいとい欲望は、結局は自尊の相関だ。

「客観的」なんて純粋にはあり得ない。神の視点なんてない。あったとしても、その視点から見える私はちっぽけでどうでもよいものだろう。客観性のニヒリズムだ。そうではない。客観的な見方の第一歩は、「もし相手だったらどう思うか?」という私の主観だっ…

生きることは、主体と対象の理想的時間の闘争だ

ハイデッガーが言っているのはこういうことだ。私たちは何かによって退屈させられている時、その何かがもつ時間にうまく適合していないと言っているのである。 つまりある物とそれに接する人間がいるとして、両者の間の時間のギャップによってこの第一形式の…

Unicode型とstr型。Pythonさん、勝手にasciiでデコードしないでください。

Pythonは便利ですが、日本語の取り扱いになると突然面倒になる。 Traceback (most recent call last): File "<stdin>", line 1, in ? UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 0: ordinal not in range(128) ってなエラーが出る度に</stdin>…

MeCabとNLTKを使って最瀕語と共起関係を出力する

MecabとNLTKを使って最瀕語と共起関係を出力するコードを書きました。 Mecabのインストールについては、Windowsなら結構難なく行くようですが、Mac OSX Lionだととても躓きました。 その辺りの経緯は、mecab-pythonをMac OSX 10.7 Lion、Python2.7にインスト…

『エンディング・ボット』

自分の書いた大量の文章をトークン化し、語彙資源化して、バイグラムの頻度分布を作成することで、自分の文章のようなランダムテキストを生成できる。 これを用いて、たとえばこれまでの自分のTwitterのポストを解析し、ランダムなトークンから始まるツイー…

名詞評価極性辞書を利用したTwitterの感情分析(Positeve/Negative判定)

Twitter感情分析所 さんを利用しようとしたら、結構重たくて、大量の処理を実行するのは申し訳ない…。と思い、じゃあ自分でコードを書いてしまえ、と思い、調べていたところ、東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, …

後輩「ツイートをGoogleカレンダーに登録して、みんなの予定管理ができるようにできないかなぁ。」

寝る前にTwitter見るかなぁ、とTLを眺めてたら某後輩が「ツイートをGoogleカレンダーに登録して、みんなの予定管理ができるようにできないかなぁ。」などといったことを呟いていた。 ついこないだ初めて会ったような気がしていて、そのときはまだ1年生の終わ…

あるツイートをRTしたひとがその次になにをつぶやいたか?

公式RTが普及してから、非公式RTでコメントする代わりに、公式RTした次のツイートでコメントするのをよく見かけるようになりました。 しかし、それがどのようなものかを発信者は知ることができません。一回、最大101回のAPIリクエストを消費する頭の悪いコー…

cites:ベイトソン『精神の生態学』、『精神と自然』

精神の生態学作者: グレゴリーベイトソン,Gregory Bateson,佐藤良明出版社/メーカー: 新思索社発売日: 2000/02メディア: 単行本購入: 1人 クリック: 122回この商品を含むブログ (63件) を見る「『ハート(情)には、リーゾン(理性)が感取しえない独自のリ…

趣味とは、生活に句読点を打つことだ

「趣味とは、生活に句読点を打つことだ」と以前読んだ(下掲書)。 句読点のまったくない文章も、句読点だらけの文章もともに読みづらい。文章にはリズムがある。句読点だけでない。一文の長さ、接続詞の有無、など。手巻きタバコ STYLE BOOK: THE ZIG-ZAG B…

「R二乗値なんて信仰にすぎない!」について(F統計量のお話)

「R二乗値なんて神話・信仰の類ですよ!」と先生が仰るものだから、われわれは啓蒙されなければならない、と思い、ちょっと覚書を残しておこうと思います。 本当は、重回帰モデルの診断の話まで書きたかったのですが、それはまた後日…。(修正済み)R二乗値…

mecab-pythonをMac OSX 10.7 Lion、Python2.7にインストールする

入門 自然言語処理作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人 クリック: 639回この商品を含むブログ (44件) を見る苦節一月半、mecab-python…

『入門 ソーシャルデータ』で日本語を扱うために

追記(2012/09/17):macab-pythonをMac OSX 10.7 Lion, Python2.7にインストールする。入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳)…

寄付についての覚書―共感・愛・理性・尊重

「なぜ寄付をするのか」という問いについて、共感というキーワードが頻出する。 しかし、共感というものは長続きしない。そもそも、共感とは共に苦しむことであり、その状態を回避したいと思うのが一般的だろう。共感的なコミュニティは長続きしない。第一に…

「愛」「愛する者」とは――情報社会論からの解釈

アドルノの警句を紹介したい。 愛されているといえるのは、君が弱さを示しても、相手を挑発してつけ込まれることがない、そういう場合だけである。 ここで言われる「弱さ」とはなんだろうか。これが苦悩のことであれば、愛とは、傷を舐めあい、苦悩を伝染的…

Not T.I.N.A. but T.I.A. (There Is Alternative.) ―資本主義のひとつの過程としての"社会起業"ムーブメント

(この文章は2011/10/23に井上英之『ソーシャルファイナンス』の第四回課題のために書かれたものの前半部分である。) 90年代後半からの"社会起業"ムーブメントの背景には、ITバブルの存在があった。ITベンチャーの成功者たちが、その資産、ITスキルや経営ノ…

"Do I Love You?" という奇妙な問いかけについて

恋人に、「私のこと、愛してる?」と尋ねたときよりも、「私は、あなたのこと、愛してる?」と尋ねたときのほうが得られる安心が大きいように感じる。 どちらの質問も、愛し合っている、二人の関係が強く拘束されているという現状の確認である。しかし、このふ…

「死にたい」という言葉が生まれる場所―往き来する過去・現在・未来

諸々の出来事の記憶があまりに複雑で、紐解くことのできない塊のようになっている。コンプレクス(心的複雑性)だ。この塊は土葬されていて、いまも過去という心の地中にどっかりと居座っている。 過去・現在・未来の表象を植物に喩えてみた。植物のアナロジ…

自分を無価値だと思うことは、自分の価値を守るための方便だ。

自分を無価値だと思うことは、自分の価値を守るための方便だ。 なぜ、自分を無価値だと思うようになるのか。理想と現実という対立から考えてみたい。理想とは、これまでに自我が応えられなかった要求の相続人である。フロイトはこれを「理想自我」と呼んだ*1…

地図の記憶

2008年4月から、行動記録を手帳につけている。現在4冊目だ。行った場所・時間、その時一緒にいたひとが細かい時で記録されている。 これを地図上にプロットしたら、少しは気が楽になるのではないか。色が濃くなっている場所には、それだけの過去が積み重なっ…

「日常を変えたい」という贅沢な不満

「日常を変えたい」なんて不満をこぼす。なんて贅沢な話だろうか。頭痛がひどくて寝込んでいた。 夜になるにつれ、徐々に快復して、この時間が一番楽である。日内変動だ。 翌朝また、絶望的な気分にさせる頭痛と共に布団から出られないのではと考えると眠る…

「将来のことなんて考えたくない」は克服できるか

将来のことなんて考えたくない―。 しかし、将来のビジョンとは、過去の寄せ集めにすぎない。 つまり、これまでに生きてきた世界の因果構造のマップに頼ってしか、未来の青地図を書くことはできないということだ。一般に、想像力とは、現実世界の因果構造に支…

過去とのつながりを保つことに必死だった

お盆休みを利用して大阪からきた後輩が、東京観光に連れて行ってくださいと言う。 「関西のひとは東京のことを嫌いだと思っている」と思っている僕は、その原因の1つにひとがごみごみしすぎていることがあると思っている。 そこで、あまり人ごみでない東京っ…

a narrow path

限界づけられている。 将来を語るには、あまりに限界づけられている。 探し出す可能性は隘路。 悪路の隘路に可能性をみなければならない。I am under many restrictions. I am so strained that I cannot talk about my future. The possibility I sought is…

Brotherhood

アイツがどこかで泣いていると聞いた。 なにもできずにいる自分に臍を噛んだ。 男友達とは、やせ我慢の強がりあいを基盤とする関係だ。 泣いているアイツの弱さに触れたとしても、どうすればいいのか分からない。 泣いているアイツの苦しみに触れたとしても…

「言葉にならない」とはなんだろうか

圧倒的な景観、心を揺るがす藝術に触れたとき、「言葉にならない」と、私たちは言う。 「言葉にならない」とはなんだろうか。 その景観や藝術を表現する言葉がない、と考えるのは誤りだ。 その考えは、すでに客観的に景観や藝術が存在して、それをわたしたち…

イノベーションの条件:「言いたいことがここまできてるんだけどうまく言葉にならない」

大学院が始まって、ひと月が経った。 毎日、忙しいのだけれど、なにか物足りなさを感じていた。与えられたテーマという型に、自分のこれまで蓄積したリソースをはめ込んでいるだけ、みたいな。 結局自分のリソースが増えてないんじゃないの、みたいな。まぁ…