コーパス

読み方、または別称:こーぱす

コーパス(corpus)とは、自然言語処理の研究のために自然言語の文章を構造化し、大規模に集積したもので、構造化の過程では言語的な情報が付けられ、電子化データとなった。

Corpusとは「身体」を意味するラテン語であり、複数形はcorpora(コーポラ)であるが、しばしばcorpusesとも呼ばれている。

大規模なコーパスの作成にはかなり多額な費用と時間がかかる。が、それの理由は使用する文章に関わる著作権などの法的問題が発生するからである。なお、日本では国立国語研究所が一億語の収録を目指す「KOTONOHA計画」を推進している。

また、三省堂がウィズダム英和・和英辞典の用例を「用例コーパス」として期間限定で無料公開している。英語学者の投野由紀夫氏が2003年、NHK教育テレビジョン『100語でスタート!英会話』で、英語コーパスを教材に活用した放送授業を行ったことで、日本でもコーパスが知られるようになった。

ページトップへ戻る

話題の用語~今ホットな用語をご紹介

ITと社会用語辞典

ワークロード

ワークロードとは、システムのパフォーマンスを適正な状態に保つための指標のこと。

インターネット用語辞典

ライフログ

ライフログとは、人間の活動の記録(行動履歴)をデジタルデータとして記録すること、およびその記録のことである。

ページトップへ戻る