한국   대만   중국   일본 
インタ?ネットア?カイブ - Wikipedia

インタ?ネットア?カイブ

WWW?マルチメディア資料のア?カイブ??サ?ビスとして有名なウェイバックマシンを運?している??

インタ?ネットア?カイブ [注 1] ( Internet Archive ) は、 WWW ? マルチメディア 資料の ア?カイブ ?? サ?ビス として有名な ウェイバックマシン ( Wayback Machine ) [注 2] を運?している アメリカ ?? である。本部は カリフォルニア州 サンフランシスコ のリッチモンド地?に置かれている。

インタ?ネットア?カイブ
Internet Archive
URL archive .org ウィキデータを編集
言語 英語
タイプ 電子?書館
運?者 ブリュ?スタ??ケ?ル
?利性 非?利
開始 1996年 ?( 1996 )
?インタ?ネットア?カイブ本部(1996年 - 2009年11月)
新インタ?ネットア?カイブ本部(2009年11月 - )

ア?カイブにはプログラムが自動で、または利用者が手動で ?集 した ウェブペ?ジ のコピ?( ウェブア?カイブ )が混在しており、これは「WWWの スナップショット 」と呼ばれる。そのほか、 ソフトウェア ? 映? ? ? ?音 デ?タ( 音?バンド などの許可による ライブ公演 の?音も含む)などがある。ア?カイブは、それらの資料を無償で提供している。

設立の理念 編集

ア?カイブは 1996年 ブリュ?スタ??ケ?ル によって設立された。公式サイトによれば、その使命は以下のとおりである:

大抵の社?はその文化、?史遺産の保存を重視している。そのような資料が無ければ、文明はその成功または失敗から?ぶための手段も記憶も持てない。我等の文化は現在電子形態での資料を大量に生産している。ア?カイブの使命は、これらの電子資料の保存を支援し、?究者??史家??界のためのインタ?ネットライブラリを構築することにある。ア?カイブは アメリカ議??書館 スミソニアン博物館 などの他機?との??も行う。 ?? インタ?ネットア?カイブ 公式サイト

人類の知識と遺産を保存してそのコレクションを公開するというその目標からか、 アレクサンドリア?書館 に例えられることもある。

ウェイバックマシン 編集

 
インタ?ネットア?カイブ ( 新アレクサンドリア?書館

ウェイバックマシン (Wayback Machine) [注 2] はインタ?ネットア?カイブが保存する ウェブア?カイブ を??することのできるサ?ビスである。インタ?ネットア?カイブのもっともよく知られたサ?ビスの一つであり、ときに「インタ?ネットア?カイブ」がウェイバックマシンと同義に使われることもある他、「ウェイバックマシン」がその背景のWebクロ?リングを含んだ意味で使われることもある。ウェイバックマシンを使えば、 ウェブペ?ジ が保存された時点の?態を??することができ、また「Save Page」にURLを貼り付けることで、そのペ?ジをその場でインタ?ネットア?カイブのウェブア?カイブに保存できる。インタ?ネットア?カイブはウェイバックマシンの技術を「3次元インデックス」と呼んでいる。

ウェイバックマシンで??可能なウェブア?カイブは、1996年のサ?ビス開始?時は アレクサ?インタ?ネット から提供されたデ?タが元であったが、インタ?ネットア?カイブは2010年後半から?自の大規模Webクロ?リングを開始し、現在では自身で?集したデ?タが半分以上を占める。以前はデ?タ?集から公開まで半年から一年かかっていたが、?自のWebクロ?リングと2013年の技術革新により、?時間から一日で公開されるようになった。また「Save Page」で保存されたものは?時に??可能である。

ウェイバックマシンが保持しているデ?タ量は、2001年時点ではおよそ100テラバイトに過ぎなかったが、2004年時点で1ペタバイトに達し、月に20テラバイトの割合で?加を?けている。2003年に報告された?加率は月あたり12テラバイトであったので、1年でおよそ倍の速度になった。これは、議??書館など世界最大規模の?書館の文書量をはるかに上回るものである。そして2012年にはデ?タ?量は10ペタバイトを超えた [3] 。保存されたウェブペ?ジ? [注 3] では、2022年10月現在で7400億を超え [5] 、一か月あたりおよそ140億ペ?ジの割合で?加中である [5] [6] 。このデ?タのコピ?は 新アレクサンドリア?書館 にも保存されている。

ウェイバックマシンの過去のペ?ジの再生表示は、??な理由により不完全であることがある。例えば、アレクサ?インタ?ネットから提供されるデ?タにはHTMLファイルしか含まれていないため、2010年以前のア?カイブはペ?ジの?像などが表示されないものが大半である。またWebクロ?リングの技術的制約により、Webペ?ジの再生に必要なデ?タ全てが?集されないことや、Webペ?ジの再生表示技術の制約などによりペ?ジ表示が正常に行われないことなどは、特に最近の高度に動的なWebペ?ジではよく見られる。また、ウェブペ?ジを構成するスクリプトや?像などの部品はペ?ジのHTMLと同時点で?集されたものとは限らず、1年以上の時間差があることも稀ではない。さらに、いったん?集されたWebア?カイブが、?係者の要請やrobots.txtの配置によりウェイバックマシンから取り除かれることもある。

「ウェイバックマシン」という名?は「 ロッキ?とブルウィンクルの大冒? 」の一シ?ンからとられた。このアニメシリ?ズは?者風の 蝶ネクタイ をした犬のピ?ボディ先生と人間の助手シャ?マンが「ウェイバックマシン ( WABAC machine )」と呼ぶ タイムマシン を使って?史上の有名な事件にちょっかいを出すというコメディアニメである。

公的な保存とは別途、個人のレベルでも、特定の個人がインタ?ネット上に運?していたWebサイト、Blogを個人の死後も管理、保存することがどのようにして可能か、といった話題もWeb Magazine、Web ニュ?スなどに出てくるようになった。保??社などが遺言の執行と合わせて、こうしたサ?ビスを行っているようなものはないが、難病での?病生活をおくった人のドキュメントやさまざまな公益的で共有すべき?容を持ったもの(人?、環境、社?問題、女性、健康と福祉、情報公開、特殊な個人的??など)、 オンラインソフトウェア の開?サイトなどが、?係者によって保存、維持されている例はある。こうしたものには、Webサイトを保存しているものと、故人を追悼するためのものとが混在している。

著作? 編集

ウェイバックマシンは 米?著作?法 フェアユ?ス 規定にもとづいてウェブア?カイブを構築している [7] 。後述の「 インドからのアクセス遮? 」のようにフェアユ?スに該?するとは思えない情報(?利目的の情報など)の?集も行っているのが?態である。

著作?侵害によるインタ?ネットア?カイブに?する訴訟 編集

ウェイバックマシンは目的の性質上、フェアユ?スが成立しているが、2020年にアシェット、ハ?パ?コリンズ、ワイリ?、ペンギン?ランダムハウスなどの出版社が著作?侵害によりインタ?ネットア?カイブを提訴した [8] [9]

Recall サ?チエンジン 編集

またInternet Archiveの デ?タベ?ス 的側面としては、現在の特定URLを必要とする形以外のアクセス方法として、2003年9月、Internet Archiveに保存されたウェブペ?ジ全?を?象にした?索エンジン「Recall」のベ?タ版が公開された。?索した?語の頻度をグラフ化して表示する機能があり(2byte文字は未??)、ネットワ?ク上の流行調査などに有益なものだったが、2004年9月中旬に停止した。これは「Recall」の開?者であったAnna Pattersonがプロジェクトから離れたためである。Internet Archiveのフォ?ラムでは新たな?索システムの構築を望む?が多くあがっており、動向が注目される。

アプリケ?ションプログラミングインタフェ?ス 編集

ウェイバックマシンはWebブラウザを使ったウェブア?カイブの??だけでなく、 アプリケ?ションプログラミングインタフェ?ス も提供している [10] 。2015年時点では、

  • Wayback Availability JSON API
  • Memento API
  • Wayback CDX Server API

がある。

コレクション 編集

動?、書籍、?音の多くが パブリックドメイン にあるか、 クリエイティブ?コモンズ のライセンスで提供されている。 音? 部門には、コンサ?トでの演奏の?音を許可している ア?ティスト 演奏家 グレイトフル?デッド ストリング?チ?ズ?インシデント ト?ド?ザ?ウェット?スプロケット 311 fugazi など)による音源とともに、 ?立系 ミュ?ジシャンの音源も?多く含まれている。

2020年11月, インタ?ネットア?カイブではAdobe Flashのエミュレ?タとして Ruffle を導入し、Flashアニメ?ションやゲ?ムのア?カイブを開始した。 [11]

オ?プンライブラリ 編集

インタ?ネットア?カイブはオ?プン?ライブラリの運?も行っている。ここではいくつかのスキャンしたパブリックドメイン書籍が容易に??、印刷ができる形式で入手可能である。

動?像コレクション 編集

商用映?に加え、動?像コレクションには以下のようなものがある。

ニュ?ス映? コレクション、昔のアニメ( カ?トゥ?ン )コレクション、??映??反?映?などの プロパガンダ コレクション、Skip Elsheimerによる A/V Geek コレクション、プレリンガ??ア?カイブズによる短編ものコレクション(?告用、?育用、工業用などや家庭用の動?コレクション)

ブリックフィルム コレクションには レゴ による ストップモ?ション?アニメ?ション があり、中には映?のリメイクものをしているものもある。 Election 2004 (2004年選?) コレクションは、 2004年アメリカ合衆?大統領選? に?連する動?資料を中立の立場からまとめた資料である。 Independent News コレクションにはインタ?ネットア?カイブの World At War competition from 2001 (?史的事物へのアクセスの重要性を示すための短編映?コンテスト)のようなサブコレクションもある。最もダウンロ?ドされたビデオファイルは、2004年の スマトラ島沖地震 の?禍をとらえたものとなっている。

インタ?ネットア?カイブには以下のような映?が1,500本前後存在する:

en:Special:WhatLinksHere/Template:Internet_Archive_film (英語) を?照。

論? 編集

サイエントロジ?サイト 編集

2002年後半に、インタ?ネットア?カイブは サイエントロジ? の批判サイトをいくつもウェイバックマシンから削除した [12] 。ウェイバックマシンのエラ?メッセ?ジには、この削除は「サイトオ?ナ?の要望による」との文言が載せられていたが [13] 、後に明らかになったところによればサイエントロジ???の弁護士が削除を要求したものであった。この削除要求の法的根?は不明であり、?際のサイトオ?ナ?自身が削除を要求したものではなかった [14]

ア?カイブ?のウェブペ?ジの??能力 編集

2004年10月の「 ポ?ランド?テレビ ?SA社 ? エコ?スタ??サテライト社」の裁判において、ウェイバックマシンのア?カイブが法的??の情報源として使われた。ポ?ランド?テレビはポ?ランドのテレビ局TVPポロニア (TVP Polonia) の提供元であり、エコ?スタ??サテライトはアメリカの衛星テレビ放送ネットワ?クである、 ディッシュ?ネットワ?ク の運?元である。裁判の過程で、エコ?スタ?社はテレウジャ?ポルスカ社のウェブサイトの過去の?容の??として、ウェイバックマシンのスナップショットをあげた。テレウジャ?ポルスカ社は、 ?聞 および非公式情報に基づくものとしてやめさせようとしたものの、下級審判事のア?ランダ??ケイズは、スナップショットを?聞とするテレウジャ?ポルスカ社の主張を退け、インタ?ネットア?カイブ社?業員による宣誓供述をスナップショットの信?性を保?するものとして採用した [15]

グレイトフル?デッド 編集

2005年11月、 グレイトフル?デッド のコンサ?トの模?を??した資料の無料ダウンロ?ドが削除された。 ニュ?ヨ?ク?タイムズ 紙の報道によれば、 ジョン?ペリ??バ?ロウ はこの?化の原因として、 ボブ?ウィア? ミッキ??ハ?ト ビル?クロイツマン のバンドの元メンバ?3名の名を?げた [16] 。元メンバ?の フィル?レッシュ は2005年11月30日付けでこの削除について個人サイト上でコメントを出した [17] :

グレイトフル?デッドのショ?の全てが感謝祭前にArchive.orgから消えたのが?になった。私はこの決定に??していないが、これら資料の引き上げについて聞かされていなかった。私はこの音源こそがグレイトフル?デッドの??であると信じているし、これらが求める人全ての手に入ることを望む。

ブリュ?スタ??カ?ル が11月30日にフォ?ラムへ投稿し、「?客による?音資料はダウンロ?ドもしくはストリ?ム配信可能である。しかしながら、 ミキサ? での?音資料は ストリ?ム配信 にのみ限られる。」とのバンドメンバ?との合意に達した?容をまとめた [18]

インドからのアクセス遮? 編集

?像外部リンク
  [1] - インドの携?電話通信?社である バ?ティ?エアテル からインタ?ネットア?カイブにアクセスしたときの?面。「あなたのリクエストしたURLは、インド政府の電?通信局からの命令に基づきブロックされています」と書かれている。

2017年8月から、 インド ??からのインタ?ネットア?カイブへのアクセスが禁止された [19] 。インドの映?製作?社2社が、映?の 著作?侵害 防止のために2,500超のウェブサイトへのアクセス遮?を訴える裁判を起こしており、その中にはインタ?ネットア?カイブも含まれていた [19] 。インド、 チェンナイ にある マドラス高等裁判所 英語版 は、8月2日にこれらの申し立てを認めている [19] 。インタ?ネットア?カイブ側はブロックした 電?通信局 英語版 と連絡を取ろうとしているが、返答がない [20]

ホスティング環境 編集

ネット上のすべてのデ?タを?拾するサイトである性格上、そのホスティング環境は巨大なものである。2009年まではHDD4台を搭載した800台のLinuxクラスタ?で運用していたが、2009年春に サン?マイクロシステムズ Sun Fire X4500 63台のクラスタ?に?更された。OSは Solaris 10で、1台あたり1テラバイトHDDを48台搭載(=?計3ペタバイト)、 ファイルシステム ZFS を採用していた。施設には?用の Sun Modular Datacenter を使用していて、全デ?タが輸送用コンテナひとつに?まっていた [21] 。これはその後次第にPetaboxと呼ばれる?自設計のラックマウント型Linuxサ?バ?クラスタ?に置き換えられ、現在はPetaboxの第二世代が稼?中である [22] 。カリフォルニアベイエリアに3つのデ?タセンタ??点を持つ。

??ブラウザ 編集

??する ウェブブラウザ について、2019年8月頃から Internet Explorer で保存一?を見ることができなくなっている。 Google Chrome では??通り??可能。

脚注 編集

注? 編集

  1. ^ 中? を入れた「 インタ?ネット?ア?カイブ 」という表記も見られるほか、日本語でも「 Internet Archive 」と表記することもある。たとえば、ともに ?際インタ?ネット保存コンソ?シアム に加盟している ?立???書館 による紹介では表題では「Internet Archive」、本文では「インタ?ネットア?カイブ」と表記しており、本文冒頭で "Internet Archive" を?記している [1] 。また、同じく?立???書館による?際インタ?ネット保存コンソ?シアムの紹介では「インタ?ネットア?カイブ」、「インタ?ネット?ア?カイブ」の?表記が混在している [2]
  2. ^ a b ?立???書館による紹介ではカナ表記は使用しておらず、「Wayback Machine」と表記している [1]
  3. ^ インタ?ネットア?カイブではウェブペ?ジを、有?なHTMLドキュメント、プレ?ンテキスト、PDFと定義している。 [4]

出典 編集

  1. ^ a b Internet Archive “Wayback Machine” ”. インタ?ネット資料?集保存事業 . ?立???書館 (2016年11月22日). 2017年8月9日 ??。
  2. ^ International Internet Preservation Consortium (IIPC) ”. インタ?ネット資料?集保存事業 . ?立???書館 (2013年1月29日). 2017年8月9日 ??。
  3. ^ 10,000,000,000,000,000 bytes archived! ”. Internet Archive Blogs . Internet Archive. 2019年1月10日 ??。
  4. ^ Defining Web pages, Web sites and Web captures ”. Internet Archive Blogs . Internet Archive (2016年10月23日). 2023年9月16日 ??。
  5. ^ a b Wayback Machine ”. web.archive.org (2022年10月1日). 2022年10月18日 ??。?“Explore more than 742 billion web pages saved over time (時間の?過とともに保存された 7,420 億を超える Web ペ?ジを探索する)”
  6. ^ Wayback Machine ”. web.archive.org (2022年9月1日). 2022年10月18日 ??。?“Explore more than 728 billion web pages saved over time (時間の?過とともに保存された 7,280 億を超える Web ペ?ジを探索する)”
  7. ^ Internet Archive “Wayback Machine” ”. ?立???書館インタ?ネット資料?集保存事業 . ?立???書館 (2016年11月22日). 2017年9月24日時点の オリジナル よりア?カイブ。 2017年9月24日 ??。
  8. ^ 出版社がInternet Archiveを提訴。オ?プンライブラリ?で「故意に大量の著作?侵害」と主張 - Engadget 日本版 ”. Engadget JP . 2020年6月2日時点の オリジナル よりア?カイブ。 2022年1月27日 ??。
  9. ^ 株式?社インプレス (2020年6月4日). “ Internet Archive、米?の複?の出版社から著作?侵害で訴えられる。その理由は【やじうまWatch】 ”. INTERNET Watch . 2022年1月27日 ??。
  10. ^ Wayback Machine APIs ”. Internet Archive. 2019年1月10日 ??。
  11. ^ Campbell, Ian Carlos (2020年11月19日). “ The Internet Archive is now preserving Flash games and animations ”. The Verge . 2020年11月20日時点の オリジナル よりア?カイブ。 2020年11月19日 ??。
  12. ^ Net archive silences Scientology critic - CNET News ”. CBS Interactive.. 2012年7月16日時点の オリジナル よりア?カイブ。 2019年1月10日 ??。
  13. ^ Internet Archive Forums: exclusions from the Wayback Machine ”. Internet Archive. 2019年1月10日 ??。
  14. ^ LawMeme - Sherman, Set the Wayback Machine for Scientology ”. Yale University. 2006年4月24日時点の オリジナル よりア?カイブ。 2019年1月10日 ??。
  15. ^ Gelman, Lauren (2004年11月17日). “ Internet Archive’s Web Page Snapshots Held Admissible as Evidence ” (英語). The Center for Internet and Society. 2022年12月20日 ??。
  16. ^ Wrath of Deadheads stalls Web crackdown , ニュ?ヨ?ク?タイムズ の記事 ( インタ?ナショナル?ヘラルド?トリビュ?ン サイト?) [ リンク切れ ]
  17. ^ Phil Lesh. “ PhilLesh.net - Hotline ”. 2012年2月20日時点の オリジナル よりア?カイブ。 2019年1月10日 ??。
  18. ^ Internet Archive Forums: Good News and an Apology: GD on the Internet Archive ”. Internet Archive. 2019年1月10日 ??。
  19. ^ a b c Leo Kelion (2017年8月9日). “Bollywood blocks the Internet Archive” . BBC News (BBC) . http://www.bbc.com/news/technology-40875528 2017年9月24日 ??。  
  20. ^ “The 'Internet Archive' was blocked on orders from Madras High Court” . tech2 (Firstpost). (2017年8月11日) . http://www.firstpost.com/tech/news-analysis/the-internet-archive-was-blocked-on-orders-from-madras-high-court-archive-questions-the-order-3919991.html 2017年9月24日 ??。  
  21. ^ Sun puts Internet Archive in a box, but will it stay there? ”. Ars Technica . 2019年1月10日 ??。
  22. ^ Internet Archive: Petabox ”. Internet Archive. 2019年1月10日 ??。

?連項目 編集

外部リンク 編集