2022/06/21

李 為達 活動レポート

2022/06/21

李為達

李 為達 Edward Li

高校時代の大半は「チャットボット」と呼ばれる人間と対話する人工知能のモデル化に関する研究開発に携わりました。 従来のチャットボットは外部から受け取った会話文を文法的に分析して人間への返答となる出力を考えるという、ある意味…

――将来の夢、そしてその夢や現在の学びの場所を目指したきっかけは?

幼少期から同じ生命という存在でも人間にしか見られない知能というのは一体何か、具体的にどのように脳内で生成されているのかという疑問に強く興味を持ちました。この具体性のない興味が学問と結びついたのは意外にも人工知能に関したサイエンスフィクションの映画を通して中学二年の頃のことでした。

子供のころに持った興味から始まり、現在の自分の目標は機械学習の分野に関わる研究者となり、既存のアルゴリズムの数学的裏付けや確実な根拠に基づいた学習アルゴリズムの開発に関わる理論家を目指しています。

一般的にコロンビア大学は著名なジャーナリストや経済学者を輩出する文系大学として知られているかもしれませんが、コロンビア大学ではデビッド・ブレイ、ミハリス・ヤンナカキス、クリストス・パパディミトリウなどといった理論計算機科学・機械学習理論界で有名な学者がいらっしゃるなど、情報学の理論面に関する研究・教育が強く確立しております。僕は運の良いことに自分の勉学に熱意をもって指導してくださる教授と出会うことができた他に、コロンビア大学工学部では「エグルストン奨学生」と呼ばれる十人前後に渡される最高位の称号に選ばれた経緯で、自身の目標を据えてコロンビア大学に進学することにしました。

――日常生活、生活環境について

コロンビア大学での日常は勉学と娯楽の均衡を保った生活を目指しています。

各学期のおおまかな取り組みとしては、五~六つの授業の受講・研究・インターンの三つがあります。

授業

数学と情報学の分野に属する講義を取りつつ、コロンビア大学固有の「コアカリキュラム」という文系面の教養育成を図った授業の受講もしています。

コロンビア大学の数学と情報学の授業の利点として、事前に受講必須な授業の内容を自身が把握していることを教えている教授に証明することができれば前提条件である必須授業が飛ばせるといううことで、本来なら学部生ならば大学院生向けで受講不可の授業も特別に受講することができるので、このシステムを利用してチャレンジとなる授業をできる限り受講する心がけをしています。例えば、来学期はAdvanced Machine Learning (GR5242)という博士課程後期の受講が一般的な授業の受講を試みています。

日により授業の開始時間が異なりますが、最初の授業はおおよそ午前10時~12時の時間帯頃に一つ入っているので、起床後は最初の授業の開始時間まで宿舎の部屋で宿題に取り組みます。最初の授業の後に昼食を取り、一日三~四つある授業の合間に宿題と予習の繰り返し、最後の授業の後に夕食を取ります。夕食後から睡眠までは自身が取り組んでいる研究とインターンに時間を注ぐことができます。

研究

コロンビア大学の教授と一対一で機械学習理論の研究を昨年度の一月から始め約一年半が経ちました。

研究テーマは単語埋め込みモデル(Word Embedding)という単語を数値で表現する手法らに関するものです。単語埋め込みモデル自身は1990年代後半にすでに存在していましたが、2013年度にWord2vecと呼ばれるパッケージで論文として発表されたモデルが単語埋め込みモデル界で脚光を浴びてきました。Word2vecという表現自体はは二つの埋め込みモデルを指すもので、自分の研究はより注目を浴びているSkip-gramモデルの特徴に関するものです。

Skip-gramはニューラルネットワークといえど実際は非常にシンプルな非線形モデルですが、驚くことにSkip-gramが学習した単語のベクトル表現には「男:女=王:女王」などといった類推問題をベクトルの足し引きで解けるという特徴を持っているだけでなく、学習の際に使用するデータセット(自然言語の文章と考えて良い)のあらゆる特徴ににある程度柔軟に対応できるということを数学的な証明ではなく実験によって立証できています。しかし、この二つの特徴の原因はまだはっきりとわかっていません。

これらを説明しようとした論文が数々出された中で、自分は2017年に執筆された論文に注目をしています。彼らは「類推問題が解ける故は学習に利用したデータセット由来ではなく、Skip-gramのアルゴリズムの仕組み上のものであるということを主張しました。類推とは一体何かを数学的に定義し、理にかなっている定義であるという仮定の上で、Skip-gramはデータセットによらず彼らの類推の定義に沿うと学習を通して得られるベクトルには類推問題が解ける特徴を自然と持つことを数学的に証明しました。アルゴリズムを利用する者が考えなければならない重要な点はアルゴリズムを問題に適用するときに果たして使うに適している問題なのかです。このSkip-gramというのはある程度汎用的に使えるという柔軟性があるので、この論文の筆者も使用しているデータセットに関する議論は取り上げていません。

しかし、「Skip-gramという具体的な学習方法を利用すれば類推問題が解ける」とはわかりましたが、これはあくまでも類推問題が解けるベクトルを学習するための十分条件——逆を言えば、より根本的でシンプルな手法でも(ある程度データセットの規定に制約条件をかけたとしても)同じく類推問題が解けるベクトルを学習できたとすれば、これは「類推問題が解ける特徴はSkip-gram固有のものである」に対する反例となります。

これが今の自分の考え方です。特定の特徴を持ったデータセットにおいて、自身で類推の数学的定義を仮定し、自身の定義に沿って構築したシンプルな単語埋め込みモデルが学習で得たベクトル表現は類推問題が解けるのかという実証、そしてSkip-gramのどういった構築がたまたまデータセットに対する束縛条件を弱めたのかという二つの質問に対する答えを出す研究をしています。

単語埋め込みモデルの研究の過程で読んだ論文ら

他にはより実践重視のプロジェクトにも同じ教授と取り組んでいます。トピックとしては論文で執筆されたモデルの実験結果の再構築を試みるもので、論文で提唱するアルゴリズムを自分でゼロからコードで再実現し、実験を走らせて論文と同じ結果が得られるかを確認しています。

近頃は「クラスタリング」と「次元削減」呼ばれる手法を同時に対応する学習方法の開発ができるアルゴリズムを発表する論文の実験結果の再生成を試みました。一般的にはデータを次元削減した後にクラスタリングと呼ばれる教師なし学習に属する手法らを当てますが、同時に学習するメリットを実現したと主張していました。自分はコードの再構築で自分は論文で主張していたほどの結果を再現することはできず、確認をすると同じ結論にたどり着いているる方々が多々といらっしゃいましたが…

インターン

2021年度夏に日本のデータ解析を行っている会社からスカウトされ、ビジネスインテリジェンスを提供するボットのAPI開発に励んでいました。現在はタスクから一時離れて開発がストップしていますが、夏休みの時期を利用して再開を考えています。

 

二年生の後学期になり、自身が沿っている生活がルーティン化してしまって少々モノトニックなところを感じ始めたところで、授業と研究の他に大学生活のうちにしか体験できないことを探し求めたところ、つい最近に知り合いが開くイベントに参加し互いに刺激しあうことができる仲を見つけたり、運動という旨でロッククライミングや筋力トレーニングを始めてみました。

ロッククライミング初挑戦の光景

――夢の達成に向けて、日々取り組んでいることや気を付けていること

僕自身の考えであり一般的な考え方かと思いますが、研究者になるためには自身の研究分野の礎となる分野に関する知識の完璧な理解、及び研究の作法を研究経験を積むことを通して身に着けるということが要であると思います。

この考えを踏まえて、自分の知識を他人にわかりやすく教えることができる水準まで到達することを心がけています。よって、大学院生向けの機械学習の授業のティーチングアシスタント(TA)を担当したり、機械学習理論に関したアルゴリズムのロバスト性などを含めた証明をしっかりと記した参考本を現在著作しています。

研究経験はやはり様々な研究を行う機会を通して身に着けようと思っています。しかし、こちらも僕自身の考え方ですが、研究を行う際の「How」というのが一番の難点ではなく、具体的な研究テーマを定めた時の「Why」が最も難しく重要であるということを身に持って体験しました。よって、研究における「正しい質問」が聞けるように、日常から論文を読み他のトピックの優劣の判断や自分ならどうするかを考えてみるということにも取り組んでいます。

――これから更に挑戦したいことや、1年間の抱負

2022年6月時点で決まっている間近のプランとしては、夏休みは東京大学のニューロインテリジェンス国際研究機構(IRCN)にて、深層ニューラルワードエンベディングの手法としてよく知られているGPT-2が学習する単語埋め込みの特徴の解析をします。GPT-2が学習した単語のベクトル表現には驚くことに複数の多様体構造が分離して生成されており、それぞれの多様体が何を表しているのか、またなぜそのように分離されたクラスターとなって表れたのかを考えます。

また、2022年度秋学期からはハワード・ヒューズ医学研究所(Howard Hughes Medical Institute)の傘下にあるジャネリア・リサーチキャンパス(Janelia Research Campus)という脳科学研究所で、ドロソフィラ(ショウジョウバエの一種)の飛行のダイナミクスを脳内のネットワークがどのように学習・生成しているのかをテーマに深層強化学習に関する研究に取り組む予定です。

 

コロンビア大学で学びを重ねた二年の間で得た学びは沢山ありますが、その一方で毎週教授と会う度に自身の知識の乏しさを感じる日々が続き、自分の未熟さを強く感じます。また、この期間を通して研究における自分の利点と欠点が大まかとつかむこともできました。自身が現段階で持っている限られた知識を工夫して利用し特殊な施し方を思いつくことができることですが、長期間具体的な質問を考えていると全体像を見失うことが時折りあります。

この一年間は、授業外でも自分で学びを重ね経験を積み、自身で分かっている範囲内の欠点を直す努力をし、幼少期から目指した理想の研究者になれるよう今後も尽力しようと思います。そのためには、今までよりも多くの参考本を読んだり、もっと手を動かしてコードを書きさらに開発経験を積み、常に自分のゴールを見据えて行動をとることを心がけようと思います。