自然言語処理研究室(竹内研)
研究 研究員 研究室紹介 講義 その他
語彙概念構造辞書
新バージョン公開です2008.3.15
著作権および使用条件について
本データは国立情報学研究所および岡山大学工学部情報工学科で作成した動詞
に関する語い特性を記述したもので、著作権は岡山大学工学部情報工学科竹内
孔一が保持する。本データは研究目的利用ならびに商業利用など自由に無料
で使うことができる。使用に当たっては、研究であれば論文に、商業利用であ
ればその商品にこの辞書を使用したことを明記していただければ十分である。
また改変した場合のデータ配布などに関しても同様でもとのデータがこれであ
ることを明記すれば自由に使うことができる。
尚、本データの著作権を有する岡山大学工学部情報工学科竹内孔一は本デー
タの利用あるいは改変されたデータに関連して生じる一切の損失に対して保障
の責を負わないこととする。
かならず簡易マニュアルをお読み頂いてご利用ください。
Download
構成は3つ
発表文献および発表スライド
May,25,2006
- 竹内孔一,乾健太郎,藤田篤:語彙概念構造に基づく日本語動詞の統語・意
味特性の記述,レキシコンフォーラム,No.2, pp.85-120, 2006,(レキシコンフォーラム)
- 竹内孔一:語彙意味論に基づく動詞語彙概念構造辞書の構築,名古屋大学COE社会情報基盤のための音声映像の知的統合 招待講演スライド
(2006年2月2日)
pdf_file
- 竹内孔一,乾健太郎,藤田篤,竹内奈央,阿部修也:分類の根拠を明示した
動詞語彙概念構造の構築,自然言語処理研究会2005-NL-169,
ps_file
pdf_file
- 竹内孔一: 言語処理を意識した語彙概念構造の構築, 東京大学21世紀
COE「心とことば」シンポジウム「語彙概念構造辞書の構築と応用」,
2005年3月23日, 東京大学駒場キャンパス, 2005.
ps_file
pdf_file
発表のスライド(3/23)PowerPoint形式
pdf形式
ちいさいスライド(pdf形式)
- 竹内孔一: 語彙概念構造による動詞辞書の作成, 第10回言語処理学会年次大会,
pages 576--579, 2004.
ps_file
pdf_file
- 降幡 健太郎、藤田 篤、乾 健太郎、松本 裕治、竹内 孔一, 語彙概念構造を用いた機能動詞結合の言い換え, 第10回言語処理学会年次大会, pages 504--507, 2004.
- K. Takeuchi, K. Kageura and T. Koyama, Deverbal Compound Analysis Based on Lexical Conceptual Structure, Proceedings of Poster/Demo session in
41st Annual Meeting of the Association for Computational Linguistics (ACL03),
July 7 - 12, Sapporo Convention Center, Sapporo, Japan, pages 181--184, 2003.
ps_file
pdf_file
- K. Takeuchi, K. Kageura, T. Koyama, Building Disambiguation System for Compound Noun Analysis Based on Lexical Conceptual Structure, Proceedings of the second International Workshop on Generative Approaches to the Lexicon, (GL2003), May 15 - 17, University of Geveva, Geneva, Switzerland, pages 146--153, 2003.
ps_file
pdf_file
- K. Takeuchi, K. Uchiyama, M. Yoshioka, K. Kageura and T. Koyama, T.,Categorising Deverbal Nouns Based on Lexical Conceptual Structure for Analysing JapaneseCompounds, Proceedings of the IEEE SMC 2001 Conference, pages 904--909, 2001.
- 竹内孔一, 内山清子, 吉岡真治, 影浦峡, 小山照夫: 語彙概念構造を利用した複合名詞内の係り関係の解析, 情報処理学会論文誌, Vol.43, No.5, pp. 1446--1456, 2002.
更新の計画・現在の検討事項 (2008年3月15日)
とうとう新バージョン公開です。よろしくおねがいします。
ここからです。
進み具合(2007/11/15)
作業者でのLCSの最終更新が終わりました。進みは遅いですが,excelの
原盤をどのように出力にするかこれから検討が始まります。
これと同時に岡山大では意味役割とLCSと語義を付与したコーパス
を作成中です。付与の中で意味役割のラベルの整理を今行っています。
(京大コーパスに対して)。LCS辞書とこれらのデータがでるととても
おもしろいと思うのですが,なかなか進まないですね。
進み具合(2007/7/4)
LCS表示システムを構築中.語義単位としては岩波との対応をとることを
行っています.今年度が最終年度なのでいろいろ整理していきたいと思います.
現状
3月の言語処理学会年次大会で最新の内容を発表します.
アスペクトと状態変化性,特にtelicityと変化について
整理を行いました.従来telic(完了性)が無くても変化する
「拡大する」「暖める」がありましたが,逆にtelicがあって
変化が無い,もしくは変化と考える必要が無いものがある
と仮定してよいのではないかと考えるようになりました.
これから,アスペクト分析が直接言語処理に重要な情報ではなく
状態変化,さらに変化のタイプを分類するために必要な
見方の1つではないかと考えるようになりました.タイプとは
例えば「宅配する,配達する,配る」は同じグループ(ここでは語義
の違いがかけていません)というものです.現在の作業で
約50種類程度の変化のタイプ分けを行っています.
進み具合(2006/11/8)
先月の名古屋での発表をうけて動作主性とは何かをみなおし、結局
volitional、経験者、causerに細分類できることを確認しました。
かなりきれいに分かれるようです。今から行うことは年度末に
むけてデータの整理(公開予定)と検査項目の決まった経緯のまとめ文
を作ろうとしています。約4700語の分析結果が出せるので楽しみです
早く仕様がかけるように時間を作りたいと思います。
現状(2006/8/1)
- ひつじ書房にLCSのまとめた形式を発表しました.
レキシコンフォーラム
です.決定的に異なるのは従来は 走る: [x ACT [ON y]]と表記してきたのです
が,そうではなくて,項,動作主性,アスペクト分析,終点といった属性と属性
値の表のような形で動詞を記述します.これによりLCSの記述根拠を示すととも
に動詞の属性をLCSにとらわれることなく,属性を付与することでどんどん更新
でき,ユーザはすきな属性だけをみて動詞のカテゴリーわけを自由にできるとい
う設計です.本当に動詞属性表という感じになりました.現在構築しているデー
タはこのような構造です.
- 多義に対してフォーマットを整理しつつあります.名詞と動詞との組み合わ
せでLCSが異なる部分をどう扱うかについてです.また発表したいと思います.
現状(2006/5/26)
- 約5000語義について部分的な分析を行った.動作主性(1),時間に関する分析
(2)の3項目について行った.データの形式は既に語義と意味属性,検査項目との
巨大な配列になっている.ここで行った詳しい分析の内容はレキシコンフォーラ
ム(ひつじ書房)の次の号にのる予定です.普通の書籍として購入できるので
詳細がきまればここに情報を掲示したいと思います.
- 言い換えとの関連について考察中.「コップに水を満たす」「コップを水
で満たす」.ここでのLCSは「ガヲ二格」言い換えできる格はLCSに記述すること
にしているので,「水で」もLCSに記述することになるのであるが,ではどう書
くかがはっきりしない.LCSで扱う範囲かどうか?どこの記述枠組みで扱うべきか
まで含めて考察中です.
ミーティングから(2006/1/17)
- 作業者に荒く数千語の分析をしていただき,現在仮定しているLCSの意味属性
とそれをはかるための統語的な振る舞いがどの程度マッチするものか整理中。
語の意味と振る舞いを直接比較するときには,語義情報や例文情報があらためて
重要だということを痛感しています。
- 5000語の辞書というのを目標にしているのですが,語義を複数持つ
語があり,語義の異なりに付与するため5000語以下になる予定。逆に今公開しているもの
がまったく語義を考慮していないのはなかなか扱いにくいものになってるという
ことかもしれません。
作業と次のバージョン
レキシコンフォーラムという来年出る雑誌に論文を載せます。
内容は上記の横浜での発表をより正確に分析したものになります。
- 約5000語に関する分析をスタート
- CONTROLからCAUSE に表記を変える予定
- 意味特性,LCSの各部分構造とテストの整理
作業と次のバージョン
データを見直していて,BE AT, BE WITH, がかなり判断が揺れている
ことがわかりました.現在考えを整理して再考しています.
全く新たなバージョンの構築作業は今年11月からはじめる予定です.
(現在はその前調査).ですので全くの新バージョンは早くとも
来年のはじめになります.その前に時間をみつけて現在のバージョンで
LCSを再付与したものも出せるとよいのですが.
また内部で事例や検討した事項はいつか公開したいと思います.
発表予定
2005年9月30日(金曜日)横浜国大のNL研でこのLCSの設計について
発表します.今までの研究の整理をふまえてよりどういう
形式になるか具体的に説明したいと思います.
現段階の作業(8/29のミーティングより)
今考えてる辞書の構造についてNL研の原稿を書きました.
このhome pageにもアップしました.LCSと意味特性と振る舞い(テスト)
と分類して,これらの対応関係を明確にする途中段階を示しました.
(まだ出し尽くせてません..)
例えば「意味特性:状態変化あり」だと「LCSではBECOMEかMOVE」で
振る舞いとしては,「10分で」と共起したり「てある」が付いて
終了状態が何かあることをさせたりします.この振る舞いの部分が
たくさん示せているとよい辞書なのかなと考えています.
振る舞いの中には格交替(車が道路にあふれる/道路が車であふれる)も扱っていきます.
以下の更新を行う予定です.
- 語彙概念構造辞書の整理
- 動作主性,アスペクト分析,格など意味特性(分類軸)とLCSの対応
- 意味特性と振る舞いの対応(これは1対多)
- 感情,要求動詞に対するLCSの再分析
- 作業手順の見直し
- データを web 上で見やすい形に整理
- 今年度(H17)数千語の付与予定
予算元
なにか質問などありましたら koichi のあとに @cl.it.okayama-u.ac.jp (竹内)まで
メール頂けたらと思います。
謝辞
- 2005年3月に行なわれた東大のシンポジウムに参加された方々からいろいろ意見をいただいております.どうもありがとうございます.
- v0.97の修正に関して括弧対応,テンプレート対応をチェックするプログラムを
石川さまからいただきました.ここに感謝したいと思います.
- LCSに関心をもち私と議論していただいている皆様へ,どうもありがとうございます.
受賞
- 竹内孔一: 「語彙概念構造による動詞辞書の作成」
言語処理学会第10回年次大会優秀発表賞(2004年度)
岡山大学
工学部
情報工学科
aou^t,2005.
[Japanese]/[English]