京都大学大学院情報学研究科を目指すあなたがやるべき3つのこと
京大大学院の情報学研究科に合格しました。京大農学部にいたのでまったくの外部ではないのですが、専門外の勉強はそれなりに苦労がありました。一番人気の研究室に合格したので十分な実績でしょう。
で、せっかくだからノウハウをここに書いておきます。ただ京大にいないとやりにくい方法なので、本当の外部生にとってはあまり参考にならないかもです。京大の非情報学科でありながら情報学科を受験する人向けのエントリです。
3つのこと
- 内部の協力者を見つける
- 解くべき分野を決めておく
- 過去問を解いて答え合わせをしておく
以上。これをちゃんとやっておけばたぶん合格します。
内部の協力者を見つける
最重要ポイント。これに尽きます。内部にいると大小様々な情報が簡単に手に入ります。問題作成担当の教授、授業のハンドアウト、採点基準。院試志望書の書き方、過去の実績などなど。
僕の場合、バイト先の株式会社はてなに京大情報学研究科社会情報学専攻にいた人が二人ほどいて、幸運にも第一志望の研究室出身だったので志望書の書き方、研究室見学を申し込むときのEメール宛先などをくわしく教えてもらいました。
ほかに、研究室見学の際に出会った人、情報学科の友人の先輩、など、いくらでも協力者は見つけられます。
たとえば僕の場合、劇場版リリカルなのは上映会を某研究室で開いたことがありまして。そこに偶然、社会情報学専攻のM2のかたがいたので院試対策を教えてくれないかと頼みこみました。
内部協力者がいると、ライバルの受験生がどれくらいの水準にいるのか把握しやすくなります。僕は4月の段階で、第一志望研究室のB4の人に勉強内容やその方法を質問して、案外差はないことを知りました。専門の学部でもたいしたことないです。これから一気に追い抜きましょう。
解くべき院試問題を決めておく
- 人工知能
- 検索(情報システム)
- ヒューマンインタフェース
このへんがオススメです。
院試は基本的に学部の講義から出題されるので、京大工学部情報学科の授業に出ていると有利です。が、科目によっては授業に出ていても解けないものもあります。データベースとか。
どの分野から出るかは年によって違うので、多くの過去問、できれば6年分くらいをあらかじめ調べて、解けそうでかつ出題される可能性の高い分野を集中的に勉強しておくとよいです。
人工知能・検索・データベースの3つはほぼ毎年出ています。前者2つは抑えておくべきです。が、データベースは難しい(ちょっとでも間違ったら減点されそう)のでやめておいたほうがいいです。かなり勉強しないと満点取れません。コストが割に合わないので他を狙いましょう。
企業での情報技術の利用・法律とモラルなどの問題はITProあたりで調べておけばだいだい「〜〜を論ぜよ」問題に答えられるくらいの知識は得られるので、対応する授業に出なくても大丈夫です。(もしかしたら対応する授業がないのかも?)
答え合わせをしておく
院試過去問はもらえても、解答は普通もらえません。
問題が解けそうな人を適当に見つけて「教えてくれませんか?」と誘ってみてください。M1くらいの人がいいです。どうせ断られてもリスクはないのでどんどん誘ってみましょう。僕の場合、同じ社会学専攻の院試を受ける学部生をTwitterで探しておいて、「いっしょに勉強しませんか?」とリプライしました。「人に教えると自分の理解も進む」とのことで、快諾してもらえました。
また院試のキーワードをググると、過去の受験者のブログが見つかったりするので一度やってみることをおすすめします。(僕がやったみたところ、バイト先の人が出てきて驚きました)
僕が自分でまとめた院試に役立つ用語集がありますので参考にしてください。
ヒューマンインタフェース:http://d.hatena.ne.jp/katryo/20110807
情報システム(検索・XMLなど):http://d.hatena.ne.jp/katryo/20110807/1312715283
とりあえずこんなところです。
振り返ってみると実に多くの人のおかげで院試合格できたことがわかりますね。みなさん、ありがとう。そしてありがとう。
勉強時間は実のところそれほどなくても高得点がとれるので、情報学勉強したいという人は受験してみるといいですよ。
ではでは。
京大情報学研究科の院試に合格しました
どもども。合格しました。
情報学研究科の社会情報学専攻、情報図書館学分野というところです。
研究室のウェブページはこちらです。
http://www.dl.kuis.kyoto-u.ac.jp/
外部からの入学なのですが、けっこう院試の成績よかったみたいです。
「あなたが院試でやるべき10の事柄」みたいなエントリを書いてみようかな。
あと、僕がシナリオ担当したゲームがコミケで完売しました。
タイトルは「アナテマ・フィジクス」。詳細はこちらのページにあります。
http://easternretroschool.web.fc2.com/apindex.html
1つ500円で48個。49個目は100円に値引きして売ったので、売上は24100円ですね。ここから京都〜東京の往復旅費14000円とサークル参加料金7500円とポスターなど広告費6000円とパッケージ費用3000円を引くと……。
赤字ですね!!!!!
でも楽しかったのでよかったです。東京で一緒に遊べた人もいますし。
ではでは
院試:情報システム用語まとめ
京都大学の社会情報学専攻の院試のために、情報システムの用語をまとめてみました。
この授業は受講してないので、間違いが含まれるかもしれません。
過去に同様のことをしているかたがいらっしゃったのでそちらも参考に。
http://d.hatena.ne.jp/yuku_t/20090705/info_sys
情報検索
再現率(recall)
発見したドキュメント数/全正解ドキュメント数。緩めると再現率は高まる
適合率(精度)
発見したドキュメント数/検索したドキュメント数。引き締めると適合率は高まる
テストコレクション
ドキュメント集合、多数の質問、各質問に対する適合ドキュメントの集合 を組にしたデータベース。情報検索システムの性能評価に重要
ベクトル空間モデル
各文書をV次元ベクトルで表現したもの。二値重み法、tf法、tf/idf法などで検索できる
tf/idf法
1文書におけるタームの出現頻度をtfとおく(対数で正規化する場合もある)。全検索対象ドキュメント中、タームが出現する文書数をdfとおき、全検索対象ドキュメントをNとおいて、idf=log(N/df)とする。タームの重みw=ft×idfと重みを計算する手法。多くのドキュメントに登場する、ありふれたタームの重みを引き下げる。
類似度
複数のタームを次元にしたドキュメントの特徴ベクトルDjと、質問Qの特徴ベクトルの類似度を求めて検索を行う。類似度は、ベクトルの内積やコサイン相関値とする。タームが3つなら、3次元空間で図式できる。内積だとドキュメントの分量の差で類似度が変化するが、コサイン相関値だと、分量の差は重要でなくなる。
パッセージ検索
文書DのかわりにパッセージPの各特徴ベクトルと質問ベクトルとの類似度を計算する。
適合フィードバック
検索結果を改良する手法。元の質問Qの検索結果集合のうち、ユーザーが適合と判断したものの重みを加算し、不適合と判断したものを減算する。
内容に基づくフィルタリング
ユーザ・プロファイルを作成し、コンテンツとの類似度を計算してフィルタリングを行う。ユーザ・フィルタリングはユーザの好み・選好・嗜好の情報を記述したもの。ユーザの好みを十分反映しにくく、過去に選択したものばかり出てくる可能性も高い。遺伝アルゴリズムなどの適用で弱点は補える。
協調フィルタリング
各ユーザが持つ問題解決のための情報を自動的に収集し、おなじ問題を持つユーザに提供してフィルタリングを行う。ユーザ間の類似度を計算する。アマゾンのおすすめなど。両者のフィルタリングをハイブリッドで行う事例が多い。
転置ファイル
データを構造化し、検索しやすくしたもの。データベースの属性値による条件検索や、文書のフルテキスト検索の高速化が図れる。
グリッドファイル
k個の属性を持つレコードをk次元空間の点として表現したもの。k次元空間をグリッドに分割して、各グリッドに点を均等配分する。
k-D木
アドレス空間を重なりのない領域に分割して、2分木として表現したもの。完全一致、範囲、近傍質問の処理に使える。
シグニチャファイル
明らかに解でない文書群のほとんどをすばやく排除する、"Quick and dirty"フィルタの発想にもとづいている。例えば各文書の単語の先頭の2文字を記憶して、適合しない文書をまず排除する。フィルタリングの結果、答えになる文書はすべて含み、false dropもすこし含む。シグニチャファイルを使えば、検索計算を短縮できる。
z-ordering
空間充填曲線のひとつ。空間を小正方形に分割し、Zの形にみえる順番で、k次元データを1次元情報に変換する。範囲質問、近傍質問にも対応可能、。空間結合を使って、複雑な質問にも答えられる。
R木
B木をn次元オブジェクトに拡張したもの。平衡木の一種。空間オブジェクトを、それを含む最小の長方形(MBR, Minimum Bounding Rectangle)で表現する。節点がディスクページをあらわす。オブジェクトが追加され節点を分割するときは、各節点に対応するMBRの面積の総和が最小になるよう、節点の分割を行う。図形的な解説はハンドアウトを参照。
R+木
R木を改良したもの。各非葉節点に対応するMBRの重なりを許さないのがR木との違い。葉節点は重なることもある。点質問の場合、根節点から1つの葉節点までの探索で終了できる。各レベルにおいて、節点のMBRに重なりを持つMBRはすべてその節点に含まれる。あるレコードは複数の葉節点に重複して記憶される。R木よりサイズが大きくなるのが短所。
GEMINI
Generic Multimedia Object Indexing。画像や動画の検索のため、マルチメディアデータを構造化する手法。テキストドキュメント検索と同様、特徴ベクトルを計算して類似度計算を行い、問い合わせマルチメディアオブジェクトQとの距離やパターンを調べる。
全体一致質問のためのGEMINI
全体一致質問を行う場合、まず最初にquick and dirty testを行い、明らかに誤ったオブジェクトを排除する。false dismissals(正しいの誤りと判定してしまい、棄却すること)はゼロ。false alarms(誤報)は許容する。その後、厳密な空間アクセス法を用いる。詳細にいうと、全体一致質問ではF-index(Feature Index)を用いる。F-indexはk次元空間の点集合の空間索引で、R木やR*木を使っている。質問オブジェクトQを特徴空間の点F(Q)に変換し、空間アクセス法を用いてF(Q)から距離ε内にある点を検索。本当の距離を計算して、false alarmを排除する。GEMINIが全体一致質問に対してfalse dismissalsを起こさないためには、特徴関数FはD(F(O1), F(O2)) <= D(O1, O2)の式を満たす。つまり「OがQの答えなら、特徴空間ではOはQの答えとなる」。流れをまとめると、
- オブジェクト間の距離関数D()を決定
- 1つ(以上の)特徴抽出関数F()を見つける
- 特徴関数での距離がD(F(O1), F(O2)) <= D(O1, O2)であることを照明する
- 空間アクセス法によってk次元特徴ベクトルを使う
PageRank
ウェブページのランクづけシステムのひとつ。「多くの有用なページからリンクされているページは有用なページ」という仮説に基づいている。Googleのラリー・ペイジがスタンフォード大学で開発したもの。ランダムウォークの結果、辿りつきやすいページが高ランクとなる。HITSに比べてスパムページへとリンクを張る行為(たとえば、Twitterを活用するなどして)に弱いが、アルゴリズムの工夫で対応可能。
HITS(Hypertext Induced Topic Search)
ハブとオーソリティによるランクづけシステム。有用な情報を持つページをオーソリティ、有用なリンクを持つページをハブとする。各ページにハブ度とオーソリティ度を割り当てて計算する。多くの良いハブからリンクされているページは良いオーソリティ。多くの良いオーソリティにリンクしているページは良いハブ。というように相互再帰的に定義されている。スパムページへリンクを張るページに対しては万全の備えを持つが、PageRankに比べ、たいていの人の感覚とは少しずれた検索結果になる。
Region Algebra
XMLをはじめとする構造化文書のための代数
ハイパーテキスト
HTML
見出し、改行などの表現を記述するタグを持ったマークアップ言語。多くのウェブページで使用されている。スタイルシートはCSSが一般的。人間が読むことが前提で、タグを新しく設定したり、意味づけなどはできない。
XLIMK
XMLなどのためのリンクづけ規格。URLを仕様して、任意個のリソース間の、任意の方向のリンクを定義可能。HTMLのリンクは一方向で、ページ中の位置指定(ブログの真ん中など)はできない。
Ajax
JavaScriptとXMLでのサービス。ページ遷移を行わず、JavaScriptが裏で非同期でサーバと通信し、XMLをやりとりしてページの一部を更新する。
院試用語まとめ
ヒューマンインタフェースの用語をまとめてみました。
これもやっぱり受講してないので、間違いが含まれるかもしれません。
ユーザを理解する
認知とは
日々の活動時に人の脳で起こっていること。様々なプロセスから構成されており、それらは相互に依存している。注意、知覚、記憶、読む、話す、聞く、問題解決、計画、推論、意思決定、学習といったプロセスがある。
注意
周囲の多くのもののなかから注目すべきものを選択するプロセス。注意を研究することでユーザが注目しやすいインタフェース作りに役立つ。
知覚
情報が様々な感覚器官を介して環境から取得され、オブジェクト、イベント、音や味などの経験へと変換されるプロセス。知覚を研究することで知覚しやすい表現にデザインするよう、配慮できる。
記憶
人が適切に行動するために知識を符号化し想起するプロセス。記憶を研究することで、使い方のわかりやすいGUIを選んだり、適切なアイコンを適用したりできる。
メンタルモデル
ユーザが持つ「システムをどう使用するか」「システムがどう動作するか」に関する知識のこと。状態遷移モデルなどがある。多くの人は「エレベーターでボタンを連打すると早く動く」といった誤ったメンタルモデルを持っている。
状態遷移モデル
異なる状態に切り替わってゆくように見えるシステム。外観が状態の変化を表現し、状態が変化するとユーザーへの応答も変化する。電話と受話器など。
オブジェクト・アクションモデル
PCのアイコンなど、オブジェクトの集まりに見えるシステム。オブジェクトに対して実行可能なアクションがあり、個々のオブジェクトの状態・属性が表現されている。オブジェクト間に相互作用がある。アイコンにおいては、アクションは選択、フォルダを開く、など。
マッピングモデル
Word使用時一連のフォント変更作業のように、繰り返し実効されるアクション系列を含むシステムで構成される。アクション系列を記憶から引き出して実行する。状態遷移モデルやオブジェクト・アクションモデルが基本になったりする。
情報処理モデル
コンピュータの処理をメタファにした概念フレームワーク。ヒューマンプロセッサモデルのようなモデル化を行う。認知を一連の処理段階として概念化する。
外部認知
人が外的表現と相互作用するときの認知プロセスを説明するモデル。外部表現は、本、新聞、ウェブページ、地図など。表出化(メモ書き)、計算負荷の軽減(筆算)、注釈づけ(アンダーラインを引く)、認知トレース(トランプの並べ替え)といったプロセスが存在する。
インタフェースの設計プロセス
- 需要・要求の分析
- 代替デザイン案の検討
- プロトタイプを作成
- デザインの評価
こういったプロセスを繰り返し、あるいは行きつ戻りつしてデザイン設計を行う。
プロトタイプの忠実度
紙(スケッチ、インデックスカード、ストーリーボード)やWizard of Ozは忠実度が低く、製品に近い見栄えの、α版などのソフトウェアは忠実度が高い。
インタラクション設計の基本モデル
需要・要求の分析、代替デザイン案の検討、プロトタイピング、デザインの評価。このプロセスを行き来して、最終的な製品の実装を行う。
ウォーターフォールモデル
古典的なライフサイクルモデル。途中で問題が発生した場合の手戻りはあっても、繰り返しはない。最初から要求がほぼ分かっていることが前提となる。
ラピッドアプリケーション開発
忠実度の高いプロトタイプを用いて、デザイン・実装と評価を何度も繰り返す。
スパイラルモデル
プラン、リスク分析、プロトタイピング、検証を段階的に繰り返す。
スターモデル
評価を中心として、実装、タスク・機能の分析、プロトタイピング、要求分析、といったプロセスを色々な順番で繰り返す。どこから始めるか決まっていない。
評価
ユーザに問うやりかた
- インタビュー
- 事前に決めた質疑応答計画にのっとった構造化インタビュー
- 質疑応答の流れを自由に決める非構造化インタビュー
- アンケート
- リカート尺度やSD尺度を用いる。選択式のアンケートは効率的。
専門家に問うやりかた
- ヒューリスティック評価:設計ガイドラインを抽象化・一般化したヒューリスティクスを基準に複数の専門家が問題発見を行う動作するプロトタイプもユーザも必要ないので低コスト。だが信頼性をあげるには専門家が複数必要で、コストは上昇する。
- 認知ウォークスルー:シナリオに沿って問題解決過程をシミュレートする。典型的なユーザ像、評価対象のタスク、タスク達成に必要な操作系列、これらを準備する。「次の操作で何を達成すればいいのか」「どう操作して達成するのか」「達成できたことをわかるか」がわかるか、これらの質問に回答し、NOとなる質問に対して問題点、改善策をまとめる。
- 多元的ウォークスルー:ユーザ・開発者・ユーザビリティの専門家が集まってウォークスルーを行う。画面写真を全員が見て、各自が別々に、ありうる操作系列を書き出す。ユーザがウォークスルーする操作系列を提案し、ユーザビリティ専門家が認知ウォークスルーで発見したことを述べる。
反復デザイン
概要
ウォータフォールプロセスのような直線的に、ソフトウェア制作は進行しない。ユーザの要求は変化し、基礎的な技術も変化する。正しい設計を机上で得ることは困難。古い教科書にあるような、製品の定義に時間を取るのは非効率。反復デザインを使うべきである。
反復デザインの詳細
大規模プロジェクトのライフサイクルを複数の連続した小さなウォーターフォールに分割する。それぞれにおいて、まず要求の一部とリスクの一部のみを扱い、わずかだけ設計、実装して検証する。この作業をプロジェクト完了まで反復する。製品の方向付けを重視する。
RUP
反復デザインのひとつ。反復をあらかじめ計画する。
エクストリーム・プログラミング
エンジニア手動のプログラミング。アジャイルなソフトウェア開発。初期段階の設計には時間をかけず、コーディングとテストを重視して、常にフィードバックを行い、再設計してゆく。反復開発に比べて繰り返しの期間が1〜4週間と短い。
ソフトウェア工学に関してはここが詳しい。
http://jibun.atmarkit.co.jp/lskill01/rensai/takumi/03/01.html
映画「ブラック・スワン」感想
映画「ブラック・スワン」を見てきたので感想とプロットまとめを書くよ!
いつものようにネタバレまくりで。
感想
痛い。ほんとに痛い。指が。さかむけをいじるのはやめてええええええ! SAWみたいな痛いのを楽しむ映画にひけをとらない、鳥肌の立つ痛覚演出。もうやだ。でも、くやしい、見続けちゃう……ビクンビクン。
そんな映画だった。それと、お母さんの絵がこわかった。あんなに絵をいっぱい置いておくと霊がとりつくよ、お母さん。バレリーナだから高カロリーのケーキは駄目なのにプレゼントしちゃうし、断られたらすぐ捨てようとしちゃうし、お母さんがいちばん危うい人だと思うよ。
映画「レスラー」の延長らしいところもある。画面中央の主役を、後ろから捉えたカメラでゲーム画面のように追うカットが多用されていたあたり、レスラーとかなり似た印象を覚えた。
あ、あと、バレエの練習中に、ナタリー・ポートマンの乳首が練習着から浮き上がって見えるよ。ナタリーの貧乳が。そんだけ。
キャラクター
「あの日見た花の名前を僕達はまだ知らない」1話感想
公式サイト:http://www.anohana.jp/
第1話:超平和バスターズ
感想
とてつもなく面白くなりそうな予感がする。いやすでに思い出の隙間にグサグサくる。
じんたんがゲームボーイしてるところとか、チンして食べてねとか、そういう寂寥感と懐かしさが同居する描写がもう見ていていたたまれないほどだ。
くわしく説明すると、一人でゲームしてると寂しいけど退屈ではなくて、でも自分を冷めた目で見ているというか、友達と遊んだほうがきっといい時間の使い方なんだろうな、どうしてこんな寂しい遊び方をしてるんだろう……とバックグラウンドで後悔しながら、それでも目の前のゲームは無意味に楽しくて、やめられない。そういう感覚。
視聴継続決定!
キャラクター
映画「マイノリティ・リポート」
映画「マイノリティ・リポート」の感想と紹介、解説やるよ!
結末まで説明するネタバレなので注意。
感想
あと一歩で傑作だったのに、惜しい。前半〜中盤で描写がコミカルに寄りすぎた(どう見てもスーパーマリオな車からの脱出、ハイネマン博士の動く植物など)。クリストファー・ノーランの「インセプション」みたいな、夢のようなガジェットが実現しているが、それ以外はほぼ現代の延長くらいの世界観がよかったな。そっちのほうが真に迫る。殺人事件からのシークエンスはどきどきした。ああいう「いけるか? ……無理だった……」「無理か? ……やった、成功だ!」の積み重ねが映画を面白くすることを実感した。
ところでやっぱり、字幕がひどい。"Is it now?" を「今は現実?」と訳すとはどうかしている。「これは“今”?」でいいのに。それで観客は自分で考え、理解するんだ。「自分で」理解することが大事。そうして、思考の跳躍から納得に到達し、快感が生まれるのに。
キャラクター
- ジョン・アンダートン:主人公。犯罪予防局の捜査官。職務に忠実に取り組む。不注意で息子が誘拐され、行方不明になった過去がある。いまでもそれを後悔している。妻と別れているが、不仲ではない。
- アガサ:プリコグ三人のうちで最強の力を持つ。実は、もとは普通の人間で、アン・ライブリーの娘。
- ラマー・バージェス:犯罪予防局局長。息子を死なせたジョンを、犯罪予防局の正当性主張に利用している。知的な老人。
- ダニー・ウィットワー:法務局の職員。法務局長官代理の権限でプリコグを調査する。
- ララ・クラーク:ジョンの元妻。郊外に邸宅を構える。
設定とコンセプト
近未来。三人のプリコグ(=予知能力者)によって殺人が予告される世界。未来の自分の殺人を予告された捜査官は、自分の冤罪を証明するため、プリコグの謎に迫る。