コンテンツに飛ぶ | ナビゲーションに飛ぶ

パーソナルツール
ログイン
セクション

ASAの入力と出力について

ASAの使い方

(注意) downloadしただけのASAでは非常に精度が低いです.日本語語彙大系を利用したASAが内部での精度評価対象なので,使われることをおすすめします.現在配布しているASAは語彙大系のなどシソーラス(概念は多重継承なし,個別の単語は複数の意味概念に所属しても良い)名詞辞書からASAのxmlに変換するツールを梱包しています(ver1.0.0から)(意味役割がちょっとよくあたります) (実験結果についてはの文書は現在準備中です.

ASAはterminal での利用を仮定しています.asa-Version.tar.gz を展開していただくと,asa というディレクトリの下に

%cd asa
README.euc  dic  extend  lib  main.pl  pod  xml

のファイルとディレクトリがあります.main.plに実行権があれば

% ./main.pl 

でSTDIOから入力待ちとなります.また,この段階でエラーが出る場合は,ASAが利用するperlモジュールが不足しているのでエラーメッセージに従って CPANを利用したモジュールの追加を行って下さい.

さて,日本語を入力してみます.文字コードはEUCを仮定しています.これは,前処理として係り受け解析器cabocha.pmを利用しているためで,入力と出力はEUC文字コードになります.例えば下記のように入力したとします.

彼が岡山駅に着いた.

すると次のような解析結果が得られます.

0:    彼
type:elem
link:2
rel:D
category:人[0]
semrole:動作主,2
part:が,助詞-格助詞-一般
priority:0
semattr:人
core:0
0    O    彼    カレ    彼    名詞-代名詞-一般            O
link:-1
category:人
semattr:人
1    H    が    ガ    が    助詞-格助詞-一般            O
link:-2
1:    岡山駅
type:elem
link:2
rel:D
category:場所[5]
semrole:着点,2
part:に,助詞-格助詞-一般
priority:0
semattr:数値:場所
sentelem:ADVERBIAL
core:0
0    D    岡山    オカヤマ    岡山    名詞-固有名詞-地域-一般        B-LOCATION
link:1
category:場所
1    O    駅    エキ    駅    名詞-接尾-地域            I-LOCATION
link:-1
category:場所
semattr:場所
2    H    に    ニ    に    助詞-格助詞-一般            O
link:-2
category:数値
semattr:数値
2:    着く
verb_surface:着く
type:pred
link:-1
rel:O
semantic:状態変化あり-位置変化-位置変化(物理)-着点への移動
frame:着点,1:動作主,0
mod:た,助動詞
category:NoData[-1]
surfaceud:0
dep:0,1
priority:0
voice:ACTIVE
sentelem:PREDICATE
polarity:AFFIRMATIVE
mood:INDICATIVE
core:0
0    H    着い    ツイ    着く    動詞-自立    五段・カ行イ音便    連用タ接続    O
link:-2
1    H    た    タ    た    助動詞    特殊・タ    基本形    O
link:-2
2    H    .    .    .    記号-句点            O
link:-2
EOS

まず,左側の 0: から 2: ですが,係り受けの文節の単位です.文節0は「彼が」から成っており,この文節の特徴を文節0内の各行で特徴を表しています.文節0内の2行目 link:2 と rel:D は係り関係のタイプがDpendent (通常の係り関係)で係り先の文節が2番(「着いた」)であることを示しています.文節0内の助詞は

part:が,助詞-格助詞-一般

「が」が助詞であることを示しています.

そして,係り先の動詞「着く」(文節番号2番)に対する文節0の意味役割として動作主であることが 文節0番内の

semrole:動作主,2

 

に示されています.この意味役割は動詞の概念とセットなので,文節2番における「着く」の動詞の概念(動詞項構造シソーラスの約700の分類)において,

semantic:状態変化あり-位置変化-位置変化(物理)-着点への移動

であったことが解析されています.ここでは着点への移動という概念で正しいものが出ています.さらに,文節1番は「岡山駅に」ですが,同様に助詞は

part:に,助詞-格助詞-一般

で表されており,意味役割は

semrole:着点,2

と移動する際の着点であることが正しく解析できています.意味役割の体系,動詞概念の体系については検索システム右上の「意味役割一覧」「カテゴリー一覧」をご覧下さい.(一部意味役割については「?」などは削除し,整理しています.また一覧についてはこのページで紹介したいと思います.

 

複合名詞の解析について

文節1内の「岡山駅に」はさらに,複合語部分の解析結果があります.この複合語ではサ変名詞を含まないので解析しませんが,サ変を含む複合語の場合は,内部の係り関係とサ変名詞の語義,意味役割を付与します.例えば「空港閉鎖」という複合名詞に対して下記の出力を出します.

空港閉鎖
0:    空港閉鎖
type:dev
link:-1
rel:O
category:動作[1]
priority:0
semattr:モノ:動作:場所
core:0
0    D    空港    クウコウ    空港    名詞-一般            O
link:1
category:場所
semattr:場所
semrole:対象,1
1    O    閉鎖    ヘイサ    閉鎖    名詞-サ変接続            O
link:-1
semantic:状態変化あり-開始・終了-停止・終了-停止
frame:対象,0
category:動作
semattr:モノ:動作
EOS

文節0内にさらに,形態素番号0, 1番を作成し,「空港」と「閉鎖」について解析します.形態素番号0番の「空港」に対して,

semrole:対象,1

となっており,これは形態素番号1番(「閉鎖」)のサ変名詞に対して意味役割が「対象」であることを示しています.さらに,形態素番号1番の「閉鎖」に対して,動作概念の分類が付与されており,

semantic:状態変化あり-開始・終了-停止・終了-停止

であることが正しく付与されています.

このように,文節間の係り関係における意味役割も,複合名詞内の意味役割も同様に解析します.

 

慣用句解析の事例

慣用句の候補は意味役割解析とは独立に可能性がある場合は活用形の変化など吸収して出力します.また慣用句認識エンジンは独自に慣用句の可能性について信頼度0から1を出力します.この出力を内包した形で,意味役割付与全体の結果をASAが出力します.(ここでも,日本語語彙大系の辞書を利用した場合の方が精度は高いです.)では配布版ASAで事例を示します.「彼が油を売る」を入力した場合,

彼が油を売る
0:    彼
type:elem
link:2
rel:D
category:人[0]
semrole:動作主,2
part:が,助詞-格助詞-一般
priority:0
semattr:人
core:0
0    O    彼    カレ    彼    名詞-代名詞-一般            O
link:-1
category:人
semattr:人
1    H    が    ガ    が    助詞-格助詞-一般            O
link:-2
1:    油
type:elem
link:2
rel:D
category:モノ[0]
semrole:慣用,2
part:を,助詞-格助詞-一般
idiom:油を売る/1-0&1-1&2-0,0.500000,怠ける
怠ける
0        怠ける    ナマケル    怠ける    動詞-自立    一段    基本形    O
priority:0
semattr:モノ
core:0
0    O    油    アブラ    油    名詞-一般            O
link:-1
category:モノ
semattr:モノ
1    H    を    ヲ    を    助詞-格助詞-一般            O
link:-2
2:    売る
verb_surface:売る
type:pred
link:-1
rel:O
semantic:状態変化なし(活動)-非遂行-非実行-放置
frame:動作主,0:慣用,1
category:NoData[-1]
surfaceud:0
dep:0,1
idiom:油を売る/1-0&1-1&2-0,0.500000,怠ける
怠ける
0        怠ける    ナマケル    怠ける    動詞-自立    一段    基本形    O
priority:0
voice:ACTIVE
sentelem:PREDICATE
polarity:AFFIRMATIVE
mood:INDICATIVE
core:0
0    H    売る    ウル    売る    動詞-自立    五段・ラ行    基本 O
link:-2
EOS

 

のように出力されます.まず,文節として「彼が」「油を」「売る」の3文節からなり,それぞれ文節番号0, 1, 2が付与されています.意味役割は「彼が」の文節は

 semrole:動作主,2

に示すとおり,動作主と正しく識別し,「油を」の文節は

semrole:慣用,2

のように慣用句の一部という意味役割を示しています.ASAはこの場合,「油を売る」は慣用句と判断しています.この場合の動詞「売る」の語義は

 semantic:状態変化なし(活動)-非遂行-非実行-放置

に示すように「何もしないという活動をしている」ことを示しています.これと同時に,慣用句同定システム(HiuChi)が慣用句の可能性と慣用句の候補を曖昧性は解消せずに出しています.次の行がHiuChiの出力で,2つの文節「油を」と「売る」について重複して解析結果を示しています.

idiom:油を売る/1-0&1-1&2-0,0.500000,怠ける

意味としてはidiomで「油を売る」にマッチしており,その形態素は1-0(油)と1-1(を)と2-0(売る)であると示しています.1-0というのは文節番号-形態素番号のことで,()内に対応する形態素を示しています.次の 0.5は慣用句の信頼度で,0から1までの値を仮定しています.今は

0.25  慣用句の可能性が低い
0.5 不明
0.75 慣用句の可能性が高い

という三段階の判別結果を示しています.基本的には分類木ベースの解析結果を利用しています.最後の「怠ける」は言い換え可能な動詞について示しています.