ウェブスクレイピング

ウェブスクレイピング(Web scraping)とは、コンピュータソフトウェア技術のひとつで、通常ソフトウェアプログラムは、低レベルのHTTPを実装することでWebブラウザを埋め込み、人間によるWWWをシミュレートする。

その為、ウェブインデクシングと深い関係がある。ウェブインデクシングとは、検索エンジンに採用されているボットを使い、ウェブ上の情報にインデックスを付けることである。非構造化データを変換したり、HTMLフォーマットからデータベース、スプレッドシートに格納・分析する構造化データへ変換する。

これにより、焦点を当てることが可能となる。用途としては、オンラインでの価格比較や気象データの監視、研究、ウェブマッシュアップなどが挙げられる。しかし、これらはいくつかのウェブサイトの規約に反している可能性があり、法的に問題となっている。

さらには、ウェブサイトの管理者には、ボットを停止・処理の遅延などの技術的手段も存在している。代表的なツールは、Apache Camel、cURL、Greasemonkey、Node.jsなど。Yahoo! PipesやYahoo! query languageなど多くのツールがある。

ページトップへ戻る

話題の用語~今ホットな用語をご紹介

ITと社会用語辞典

ワークロード

ワークロードとは、システムのパフォーマンスを適正な状態に保つための指標のこと。

インターネット用語辞典

ライフログ

ライフログとは、人間の活動の記録(行動履歴)をデジタルデータとして記録すること、およびその記録のことである。

ページトップへ戻る