言語処理学会 文献検索・閲覧システム

文献検索・閲覧システムは、言語処理学会全国大会の全発表論文(1995年の第1回から2015年の第21回まで)を、検索し、閲覧するシステムです。本システムは国立情報学研究様で開発されたもので、情報試作室ではそのサーバ側で動いている「日本語の論文から、類似した英語の論文を見つける処理技術」の開発を受託しました。

言語処理学会 論文検索・閲覧システム特徴

類似する文書を検索するには、文書内で使われている単語やその出現割合が近いものを探すのが一般的です。しかしこの方法では、言語が異なる文書は探せません。また、論文検索の場合は研究内容を特徴づける「キーワード」が重要です。そこで、日本語論文に含まれる研究キーワードを抜き出し、英語に翻訳して、得られた英語キーワードを使って英語論文を探しています。

技術

日本語の学術用語を英語に翻訳する場合、対訳は1:1とは限らず、研究分野によって異なります。たとえば「核」は原子物理学では「nuclear」ですが、生物学では「nucleus」です。そこで、LDA(Latent Dirichlet Allocation)技術を利用し、文書に含まれるその他の語を使って文書の「トピック」を判別し、そのトピックによってどの対訳を選ぶべきかを計算しています。

参考文献:相良 毅,古川 竜也,相澤 彰子:LDAを用いた学術用語の対訳選択手法,情報知識学会誌, Vol.24, No.2, pp.224-229, 2014.5