青い帽子のBookMark: 入門自然言語処理

[キーワード]
P.22
コロケーション・・・非常に頻繁に共起する一連の単語列。類似した意味を持つ単語での置き換えがしづらいという特徴を持つ。
バイグラム・・・単語のペア。コロケーションとは、本質的には頻繁に出現するバイグラム。
P.30
語義曖昧性解消・・・指定された文脈において、単語がどのような語義として使われているかを推定すること。
P.31
代名詞解析
照応解析・・・代名詞や名詞句が何を示しているかを特定すること。
意味役割付与・・・名詞句がどのように動詞と関係しているか、動作主 or 対象 or 手段 etcを特定すること。
P.33
テキストアラインメント・・・同じ内容が２つ以上の言語で書かれた文書を大量に集めることで、そこから自動的に文書のペアを作ること。
チューリングテスト・・・ユーザーのテキスト入力に対して、人工知能による応答が人が答えているのと区別できないくらい自然であるかをチェックするもの。
P.34
含意関係認識・・・RTE（Recognizing Textual Entailment）。文章から内包された意味を認識させること。
P.35
会話システムの処理フロー・・・音声認識 -> 形態素・語彙解析 -> 構文解析 -> 文脈推定 -> 応用推論・実行 (折り返し) -> 発話計画 -> 構文生成 -> 形態素生成 -> 音声合成
P.41
テキストコーパス・・・巨大なテキスト。多くのコーパスは、１つ以上のジャンルから集められた素材をバランスよく含むようにデザインされている。
P.113
ステミング・・・単語から接辞を取り除く処理。
見出し語化・・・語形を辞書に記述されているものに変換する作業。
ステマー・・・ステミングを行うプログラム。
レマタイザ・・・見出し語化するプログラム。
P.115
非標準語の識別
トークン化・・・識別可能な言語学上の単位に変換する作業
トークナイザ・・・トークン化するプログラム。
P.148
ジェネレータ式
P.150
手続き的スタイル
宣言的スタイル
P.160
dctestブロック
「epytext」マークアップ言語
P.161
ラムダ式・・・名前なし関数
P.162
ジェネレータ yield文まで進んで処理を停止(P.163の例文難しい)
P.163
Haskel・・・関数型プログラム言語
高階関数・・・関数を引数にした関数
P.164
名前付き引数
キーワード引数
*args・・・任意の名前のない引数
**kwargs・・・任意のキーワード引数
P.165
*変数名
P.166
__file__変数
P.175
文字トライ
P.177
セットの要素は自動的にインデックスが構築される→リストより要素の存在チェック早い
動的計画法(Dynamic Programming)・・・一度説いた問題をルックアップテーブルに保持
P.184
線形代数
特異値分解
潜在意味解析
P.193
品詞タグ付け、POSタグ付け
品詞・・・名詞や動詞など機能や形態などによって分類したもの。単語クラス、語彙範疇と呼ばれることもある。
P.194
nltk.help.upenn_tagset('品詞タグ')・・・タグの説明
P.201
形容詞
副詞
冠詞(限定詞)
法助動詞
人称代名詞
P.204
ディクショナリ型(連想配列、ハッシュ配列、マップ)
P.208
イミュータブル・・・値が不変なオブジェクト⇔ミュータブル
defaultdict
P.212
nltk.Index・・・defaultdict(list) + 初期化処理
nlltk.FreqDist・・・defaultdict(int) + 初期化処理
P.214
デフォルトタガー
P.215
正規表現タガー
P.216
ルックアップタガー・・・nltk.UnigramTagger
バックオフ
P.217
ゴールドスタンダード
P.219
ユニグラムタガー・・・≒ルックアップタガー
ユニグラムタガーの訓練・・・初期化にタグ付けした文章データを渡す
P.220
Nグラムタガー・・・1グラムタガー(ユニグラムタガー)、バイグラムタガー、トライグラムタガー。これは、文の境界をまたぐ文脈を考慮すべきではない。そのため、NLTKでは文のリストに対して処理している。教師あり学習。
P.221
疎(スパース)データ問題
適合率と再現率のトレードオフ・・・精度とカバー率の間のトレードオフ。対処法としては、精度の高いアルゴリズムを使用できるときは使い、必要に応じて適用範囲の広いアルゴリズムをフォールバックする。
P.224
混同行列・・・タグの付け間違い調べる方法のひとつ
P.225
ブリルタグ付け・・・Brill tagging、帰納的タグ付け法、変換を利用した学習、教師あり学習。
P.239
教師あり分類
P.240
素性集合・・・それぞれの入力の基礎的な情報
P.241
分類器作成第一ステップ・・・素性の決定、素性の符号化
nltk.NativeBayesClassifier.train
nltk.NativeBayesClassifier.classify
P.242
nltk.classify.accuracy
nltk.NativeBayesClassifier.show_most_informative_features
尤度比(ゆうどひ)・・・ある素性が異なる素性の何倍多かったか。
P.243
キッチンシンクアプローチ・・・考えられる素性をすべて利用してみてどの素性が実際に役に立つか調べてみる手法。
P.243
エラー分析・・・素性集合を洗練するための生産的な手法。分析用コーパスを開発セット（訓練セット＋検証セット）とテストセットに分割する。
訓練セット・・・モデルの訓練に利用。
検証セット・・・エラー分析に利用。
テストセット・・・開発完了後の最終テストに利用。

7章テキストからの情報抽出
P.281,300
固有表現認識(NER)・・・各文の潜在的に注目すべき実体への言及を探すこと。
関係認識・・・テキスト中の異なる実体同士の関係性を探すこと。
P.282
チャンキング・・・固有表現認識に利用される基礎技術。複数のトークンで構成されたテキスト断片に分割し、ラベル付けすること。
P.300
ダックタイピング
固有表現(NE)・・・組織、人物、日付といった特定の種類の何かを指す定名詞句。

青い帽子のBookMark

2011年2月13日日曜日

入門自然言語処理

0 件のコメント:

コメントを投稿

自己紹介

ブログアーカイブ

2011年2月13日日曜日

入門 自然言語処理

0 件のコメント:

コメントを投稿

入門自然言語処理