雑音のある通信路モデル

雑音のある通信路モデル(ざつおんのあるつうしんろモデル、英語: noisy channel model)は、スペルチェッカ質問応答システム音声認識機械翻訳に使用されるフレームワークである。このモデルでは、何らかの形で文字が乱されている単語から、意図した単語が何であるかを見つけることが目的である。

定義

アルファベット Σ {\displaystyle \Sigma } が与えられたとき、 Σ {\displaystyle \Sigma ^{*}} Σ {\displaystyle \Sigma } による全ての有限文字列の集合とし、有効な単語からなる辞書 D {\displaystyle D} Σ {\displaystyle \Sigma ^{*}} の部分集合(すなわち D Σ {\displaystyle D\subseteq \Sigma ^{*}} )とする。

雑音のある通信路は行列

Γ w s = Pr ( s | w ) {\displaystyle \Gamma _{ws}=\Pr(s|w)} ,

である。ここで、 w D {\displaystyle w\in D} は意図した単語、 s Σ {\displaystyle s\in \Sigma ^{*}} は実際に受信された乱された単語である。

英語のアルファベット Σ = { a , b , c , . . . , y , z , A , B , . . . , Z , . . . } {\displaystyle \Sigma =\{a,b,c,...,y,z,A,B,...,Z,...\}} を考える。いくつかの部分集合 D Σ {\displaystyle D\subseteq \Sigma ^{*}} は、有効な英語の単語の辞書を構成する。

入力中に、以下のような間違いが発生する可能性がある。

  1. 文字の脱落(例: letterleterになる)
  2. 文字の追加(例: mistakemisstakeになる)
  3. 文字の入れ替え(例: receivedrecievedになる)
  4. 文字の置換(例: finitefimiteになる)

雑音のある通信路行列 Γ {\displaystyle \Gamma } を構築するには、与えられた意図した単語(全ての w D {\displaystyle w\in D} s Σ {\displaystyle s\in \Sigma ^{*}} についての Pr ( s | w ) {\displaystyle \Pr(s|w)} )について、それぞれの間違いの確率を考慮する必要がある。これらの確率は、 s {\displaystyle s} w {\displaystyle w} の間のレーベンシュタイン距離を考慮して、あるいは、エッセイの草稿と手作業で綴りを編集したものとを比較することによって、集めることができる。

誤り訂正

雑音のある通信路モデルの目標は、受信した乱された単語から、意図した単語を見つけることである。決定関数 σ : Σ D {\displaystyle \sigma :\Sigma ^{*}\to D} は、乱された単語を与えると、目的の単語を返す関数である。

決定関数を構成する方法には、最尤推定法最大事後法最小距離法(英語版)がある。

乱された単語をそのまま意図した単語として受け入れる方が、辞書内の目的の単語を見つけようとするよりも良い場合もある。 たとえば、schönfinkeling(curryingの別名)という単語は辞書にないかもしれないが、実際には意図された単語かもしれない。

関連項目

出典

  • Brill, Eric; Moore, Robert C. (Jan 2000). “An Improved Error Model for Noisy Channel Spelling Correction”. Proceedings of ACL 2000. http://www.aclweb.org/anthology/P00-1037.