自然言語処理基礎研究室 竹内研にようこそ
本研究室では,言葉をコンピュータで扱うための基礎技術の研究を行っています.言葉は単に文字列があるだけでなく,その裏側にある意味があり,それに従って人は言葉を発したり,理解したりします.なので,言葉の背景にある意味的な構造を仮定することで人に近い言葉を扱うソフトウェアの開発を目指しています.最近では,(1)動作表現に関する意味処理基礎システムの構築ではテキストに記述された言葉と他の言葉がどう違うか,同じかを処理するシステムの構築を行っています.特に動作表現に関しては例えば「予算の足が出てしまった」というのは「予算オーバー」という言葉と意味が近いですが,「バッターボックスから足が出た」とは異なる意味になります.今の事例は慣用句「足が出る」の例ですが,慣用句かある特殊な語義かはそれほど綺麗に分かれる話ではなく,全部語義としてこれらを見分けたり,また違う表現で同様(まったく同じではないかもしれませんが)の表現が存在するものを同様に扱う必要があります.コンピュータは言葉のこうした意味関係は知らないので,知識として教える必要があります.特徴的なのは動詞の語義に関する項構造(「XがYを移動した」の構文に対して概念的なカテゴリーを付与した構造(言語学の専門用語))を付与した動詞項構造シソーラスをこう書いています.辞書は言語処理での基礎データとなるので,こうしたデータの構築・改善を通して言語基礎技術の底上げに貢献しています.
(2)また,専門用語についての研究を行っています.専門用語は辞書を作成すれば終わりではなく,辞書に載っていない表現が存在したり,新たな概念が生まれて日々用語が増えていったりしています.またWeb上の文書を扱うとなると,これらの種類が増えたり,翻訳の現場では,対象言語にはまだ用語が無く,句や節の形で現れる場合があります.こうした用語(さらには固有表現(人名・社名,病名,症状など..) )を文書中から獲得する研究を共同研究で行ってきています.(2000-2003 Nigel Collier さんと感染症情報抽出の研究,2002からNantes 大学Beatrice Daille 先生との日仏用語抽出,2011からフランスEmannuel Planas 先生と環境分野における多言語用語辞書構築に関する研究) 手法としては統計的学習モデルを利用する場合だけでなく,人手の更新や実際の確実性から規則ベースの用語抽出システムの構築を研究しています.この研究プロジェクトはヨーロッパの用語整理プロジェクトTTC(http://www.ttc-project.eu/)に関連しています.
