東京大学大学院 情報学環・学際情報学府 The University of Tokyo III / GSII

教員 Faculty

教授

中川 裕志

Professor

NAKAGAWA,Hiroshi

LAB WEBSITE

中川研究室
http://www.r.dl.itc.u-tokyo.ac.jp

研究テーマ

  • Webテキストマイニング
区分:
学内兼担・授業担当教員
所属:
情報基盤センター

Research Theme

  • Statistical Machine Learning and Natural language processing
Position: 
Affiliated Faculty
Department: 
Information Technology Center
略歴

東京大学 情報基盤センター 教授。東大工学部卒、東大大学院博士課程修了。工学博士。
横浜国立大学を経て、1999年より現職。東京大学大学院 情報理工学系研究科、学際情報学府を兼担。

主要業績

詳細な業績は中川裕志研究室(Publications)をご覧ください。

関連リンク

http://www.r.dl.itc.u-tokyo.ac.jp/node/43/


研究テーマの方向

Webの発展に伴い膨大な文書情報が使えるようになってきた。しかも、Webページに限ら ずブログ、ツイッターなど時間を追って発信されるストリームデータが増大してきている。こういったデータは、商品の評判情報、販売に関する情報、巷の耳よ りな情報など有用な情報の宝庫である。この情報を活用するためには現在のGoogleのような検索エンジンよりきめ細かい情報処理とサービスが必要にな る。中川研究室では、このために必要な技術のうち、情報検索、情報ナビゲーション、機械翻訳を応用研究テーマとしている。さらに、これらの技術を支える基 礎理論として統計的機械学習の研究に力を入れている。

中川研究室では、プログラミング技術と統計学の基礎を学んでいれば、すぐに最先端の研究を開始できる。具体的なテーマの一部を以下に説明するが、これらからはみ出す面白いテーマも大歓迎である。興味があればぜひ研究室に見学に来てほしい。

具体的な研究テーマ

I.情報ナビゲーションシステム

日常的で平易な用語の質問を入力すれば、専門性の高いWebページ、論文、書籍情報を発見できる情報ナビゲーションシステムを実現する研究を行い、東大の図書情報検索システムの一部で「リッテルナビゲータ」というシステムとして公開されている。画面例を右に示す。これに関連してWikipediaやブログから有用で興味深い知識を抽出する研究も行っている。

II. Web名寄せ

人名などの固有名を質問とした場合の検索エンジンの結果を実世界で異なる人物、実体ごとに分類するクラスタリングの研究を進めている。我々が開発したNayoseシステムは、質問「鈴木一朗」に対して、マリナーズのイチローの他に画家や歯医者さんがいることを高精度かつ実時間で教えてくれる。Nayoseは研究室のホームページで公開している。

III. 機械翻訳

外国語の情報が読めないことも言語障壁による一種のWebロングテール見逃しだ。そこで、我々は日本語、英語、中国語のうちの日英、日中の言語ペアの対訳テキストコーパスからの専門用語対訳の自動抽出を研究している。

IV. 統計的機械学習

膨大なデータから有用な知識を抽出する基礎理論であり、ベイズ統計に基づき重要単語やトピックの抽出、文書の自動分類を行う学習アルゴリズムを研究している。さらに、時々刻々と到来するストリームデータに対して、少ないメモリ容量で高速に学習できるオンライン学習およびストリームデータマイニングの研究にも取り組んでいる。

nakagawa09_fig1_fmt-300x218