クール始動 -- この検索スタートアップはほんとうにグーグルをしのぐか?(2)

<1 2 3 4>

Size Wars Return?

サイズ戦争再発?

Cuil is claiming to have the largest index of the web, 120 billion pages indexed (with a total of 186 billion seen by its crawler; spam and duplicate content are among things excluded from what gets indexed). In talking with them, Cuil estimated they were three times the size of Google. Sounds pretty awesome, right?

クールはウェブ最大のインデックスを保有し、1200億ページをインデックスしたと公言する(同社のクローラによって総合1860億ページ、そのインデックスからスパムと重複コンテントを除外した)。これを語るとき、クールはグーグルの3倍のサイズを試算したという。そら恐ろしいねえ、そうかい?

Sigh. Yes, size matters. You want to have a comprehensive collection of documents from across the web. But having a lot of documents doesn't mean you are most relevant. As I wrote back in September 2005, when Google famously dropped the number of documents it had indexed:

ふむ。そう、サイズは大事なのだ。ウェブのいたるところから総括的な文書を保有したいということだろう。だが多くの文書を保有したからといっていちばん関連が強いとはかぎらない。2005年9月、グーグルがインデックスした文書の数を外したときにわたしはこのように書いた:

Last century, in December 1995 to be exact, AltaVista burst upon the search engine scene with what was at that time a giant index of 21 million pages, well above rivals that were in the 1 million to 2 million range. The web was growing fast, and the more pages you had, the greater the odds you really were going to find that needle in a haystack. Bigger did to some degree mean better.

前の世紀、1995年12月がその日だ。アルタヴィスタが当時2100万ページのインデックスをひっさげて検索エンジンの表舞台にとつぜん現れた。そのころの競合といえばせいぜい100万から200万の範囲にあった。ウェブは急速に成長していて、あなたの前にあるページは増えていき、その倍率が増えつづけるということは乾草から針を見つけ出すようなものだった。ある程度までは大きいことはよいことだった。

That fact wasn't wasted on the PR folks. Games to seem bigger began in earnest. Lycos would talk about the number of pages it "knew" about, even if these weren't actually indexed or in any way accessible to searchers through its search engine. That irritated search engine Excite so much that it even posted a page on how to count URLs, as you can see archived here.

この事実はPRの人間によって浪費されることがなかった。より大きいことの張り合いは真剣だった。ライコスは同社が「知った」ページの数について語ったものの、実際それはインデックスされていなかったり同社の検索エンジンで検索した人が手を尽くせばようやくたどりつける程度ということもあった。それに押されて検索エンジン「エキサイト」はなんとURLのカウント方法を載せたページまで公開した。その記録はいまでも見られる。

While size initially DID mean bigger was better, that soon disappeared when the scale of indexes grew from counting millions of pages to tens of millions. Bigger no longer meant better because for many queries, you could get overwhelmed with matches.

はじめはサイズが大きいほうがよいと言われていたものの、それはしだいに集計が数百万ページから数千万ページにまでインデックスの桁が増えるにつれ、飽きられてしまった。大きいというだけではよいとは思われなくなったのだ。検索要求をするとたいてい、検索結果の多さに圧倒されてしまうからだ。

I've long played with the needle-in-the-haystack metaphor to explain this. You want to find the needle? You need to have the whole haystack, size proponents will say. But if I dump the entire haystack on your head, can you find the needle then? Just being biggest isn't good enough.

わたしは長らく乾草から針のたとえをつかってこれを説明してきた。針をみつけたい? なら乾草をぜんぶもっている必要があるね、とサイズ提案者たちは言う。だが乾草をすべてあなたの頭に入れてしまえば、針を見つけ出すことができるのか? ただいちばん大きいというだけでは十分ではない。

That's why I and others have been saying don't fixate on size for as long as 1997 and 1998. Bigger no longer meant better, irregardless of the many size wars that continued to erupt. Remember, Google -- when it came to popular attention in 1998 and 1999 -- was one of the tiniest search engines at around 20 to 85 million pages. Despite that supposed lack of comprehensiveness, it grew and grew because of the quality of its results.

だからわたしは、ほかの人もそうだが、1997年から1998年のあいだのサイズに目を凝らしても仕方ないと言ってきた。大きいのはよいことではない。サイズ戦争がどれだけ噴出してこようとこなかろうと。思い出そう、グーグルは -- 1998年から1999年のあいだに有名になったとき -- 200万から850万と、もっとも小さな検索エンジンのひとつだったのだ。総括的なものでないと言われようと、グーグルはどんどん成長した。結果の品質がよかったからだ。

Why have the size wars persisted? Search engines have seen an index size announcement as a quick, effective way to give the impression they were more relevant. In lieu of a relevancy figure, size figures could be trotted out and the search engine with the biggest bar on the chart wins!

なぜサイズ戦争はこれほど長引いたのか? 検索エンジンはインデックス・サイズの公表がより関連が強いことを印象づける手っ取り早く効果的な方法だったからだ。関連性のかわりにサイズの数字が持ち出され、海図上でもっとも大きなものさしをもっている検索エンジンが勝つからだ。

Given this history, seeing Cuil trot out size figures is incredibly disheartening and a step backwards, not forwards. Time better spent on other things (such as measuring the RELEVANCY of the results) will instead get consumed by those trying to count pages. Without even running queries and trying to perform comparison counts, I already have issues with Cuil's claims. For example:

こういった背景から、クールがサイズの数字を持ち出すのは信じがたくみっともないし、前に進まずに後ろに歩いていくようなものだ。もっとほかのことに時間を使えばいい(たとえば検索結果の関連性を計測するなど)ページの集計をするのに使われるよりもずっといいはずだ。検索要求を出すまでもなく、比較の集計を出してみるまでもなく、クールが公言している問題がわかる。たとえば:

* Cuil told us that Google was at 40 billion documents. According to? According to what Cuil has heard that reporters have told them they hear from Google. OK, I talk with both Google and reporters that cover them regularly. I've never heard this figure put out there. Cuil later added after the initial talk with them that comparison testing makes them believe that Google hasn't grown.

クールはグーグルが400億の文書だという。どこに書いてある? グーグルから聞いたといっている記者から聞いたことをクールが言っている、といったところだ。よかろう。わたしはグーグルや記者たちとそれについては何度も話している。そんな数字はどこでも聞いたことがない。クールは比較して検証したらグーグルはそれほど成長していないと判断したと、最初の話のあとになって言って寄越した。

* Yahoo was said to be at 20 billion. Cuil said this is based on where Yahoo said it was back in 2005, with the assumption that if they'd gotten bigger, they would have announced this. Bad assumption give that since 2005, the search size detente has kept both Google and Yahoo from talking about size figures.

ヤフーは200億だそうだ。クールはこれがヤフーが2005年に公表したものに基づいて、それよりも増えているはずだという仮定に基づいて、このくらいだと発表していてもおかしくないだろうということらしい。2005年からの仮定をするとはひどいものだ。そのころから検索サイズの休戦をしようと、グーグルとヤフーがサイズの数字を語ることをやめているからだ。

* Microsoft was said to be at 12 billion. Actually, Microsoft said it was at 20 billion last September -- but if that hard figure isn't being used by Cuil, then you start doubting the other ones they've put out. In a follow-up, Cuil said they believe Microsoft has fallen back to a smaller index of 12 billion, based on its testing.

マイクロソフトは120億だそうだ。じっさい、マイクロソフトは昨年9月に200億だと言っている。だがクールがその数字を持ち出していないのなら、ほかのところで言っていることだって疑わずにいられないだろう。後日談として、クールはマイクロソフトがもうすこし小さなインデックスになって120億になった、そのように自分たちが検証したと言っている。

We can also start testing in short order, however. Just run a query, see what Google reports as a count for it, then run the same thing on Cuil. If Cuil regularly reports more, they win. Or not. This is what people especially started doing in droves during the last size battle between Google and Yahoo, and then issues about duplicate content and spam starting coming up.

わたしたちも短い期間で検証することにした。検索要求をして、グーグルが集計した報告を見る。それから同じことをクールでもやってみる。クールが毎回多い報告をしていれば、クールの勝ちだ。そうでなければ負け。これはグーグルとヤフーのサイズ戦争があったときに多くの人が躍起になってためしたことにほかならない。そこから重複コンテントやスパムといった問題がわきあがったのだ。

Assuming you get beyond that, any advantage Cuil has on the size front right now will be shortlived, if they make size an issue. Google will simply crawl more documents and ensure that whatever Cuil is, Google will be +1.

その先があるとして、クールが前面に出しているいまのサイズの優位は長つづきはしないだろう。もし、サイズを問題とするならば。グーグルはクールがどうであれ、もっと多くの文書をクロールして、グーグルはプラス1になればいいだけだ。

We asked Cuil about this, why Google wouldn't just match them.

クールにこのことを訊いてみた。なぜグーグルは張り合おうとしないのか、と。

"If they wanted to triple size of their index, they'd have to triple the size of every server and cluster. It's not easy or fast," said Patterson.

「3倍ものインデックスをつくろうとしたら、すべてのサーバやクラスタのサイズも3倍にしなければならないでしょう。それはかんたんでも、すぐできることでもありません」とパタソンは言う。

In a follow-up, Cuil added that Google being as large as they estimated it to be now was largely down to Patterson's work at Google, and since she's no longer there, increasing the index size will be a "non-trivial" exercise.

追記で、クールはグーグルが試算したとおりであることはパタソンがグーグルで働いていたということで概ね信頼できる、そして彼女はもうそこにいないのだから、インデックス・サイズを水増しすることは「意味のない」小細工だろうという。

Perhaps. And perhaps the infrastructure that Cuil has built does make it easier for them to more cheaply index documents from across the web than Google. But Google has plenty of money and engineering expertise of its own. It's foolish to think they wouldn't counter what might be perceived as a weakness. They responded to Yahoo in 2005; they'd do the same with Cuil. And for what? Even if Cuil is bigger than Google, it doesn't mean Cuil is more relevant. Nor does it mean adding more documents in a "I'm bigger than you" game would improve the state of search overall.

そうかもしれない。それからひょっとしたらクールが建てたインフラストラクチャはグーグルがそうしているよりも安くウェブのいたるところから文書をインデックスすることを容易にしているのかもしれない。しかしグーグルはカネならたくさんあるし技術の裏づけも自前でもっている。弱点だと思われていることはやり返されることがないだろうと考えるのは愚かなことだ。ヤフーにだって2005年にやり返したのだ。クールにだって同じことをするだろう。それにどういうつもりなのか? クールがグーグルより大きいといったところで、クールがより関連が強いとは言えないではないか。「こっちのほうが大きいぞ」と文書を増やしてみたところで検索そのものをよくしたことにはなるまい。

Unfortunately, Google started reacting to Cuil's claims even before Cuil made them. In a post on Friday, Google just so happened to decide it was time to mention they "knew" of 1 trillion items on the web. That will confuse some people into thinking Google has indexed 1 trillion documents, even though they don't say this. What Google did say clearly was:

あいにくだが、グーグルはクールが公言したことをクールより前に反応しはじめている。金曜日の投稿で、グーグルは偶然、ウェブ上で1兆のアイテムを「知った」ことを公表する時期にきたと判断した。グーグルが1兆の文書をインデックスしたと多くの人が早合点してもおかしくはない。たとえそうとは言っていなくても。グーグルが言ったのは正確にはつぎのとおりだ:

We don't index every one of those trillion pages -- many of them are similar to each other, or represent auto-generated content similar to the calendar example that isn't very useful to searchers. But we're proud to have the most comprehensive index of any search engine, and our goal always has been to index all the world's data.

わたしたちは1兆ページのすべてをインデックスしたわけではありません -- その多くはほかのページと類似したものか、あるいは自動生成されたコンテントで、検索した人にはあまり役に立たないカレンダといったものです。しかしわたしたちはあらゆる検索エンジンのなかでもっとも総括的なインデックスを保有しており、わたしたちの目標はいつでも世界中のすべてのデータをインデックスするということです。

My response to Google -- and to Cuil -- and to any search engine that tries to do the size battle is what I said on Friday:

わたしのグーグルへの返答は -- それからクールへ -- それからサイズ戦争を仕掛けようというすべての検索エンジンへの返答は金曜日にも言ったとおりだ:

There's no exact answer to what's a useful page -- and so in turn, there's no one exact answer to who has the "most" of them collected. Tell me you have a good chunk of the web, and I'm fine. But when Google or any search engine start making size claims, my hackles go way up. There are better things to focus on.

役に立つページとはなにかという問いには、きまった答えなどない -- そしてそれは、「いちばん多く」集めたのが誰かという問いにもきまった答えはないということだ。ウェブのかなりの部分を保有していると言ってくれれば、それでいい。だがグーグルやあらゆる検索エンジンがサイズの公言をはじめたら、わたしは容赦なく切り刻む。もっと取り組むべきことがあるはずだ。

As a side note, one issue with any large index is keeping it fresh. Cuil says that they crawl 1 to 1.5 billion pages per day, which means it would take 3 months to refresh everything they've currently spidered. However, some important pages are crawled on a weekly basis, they said. That's good -- but Google has pages that can be added in near-real time thanks to its instant layer.

ことのついでに、膨大なインデックスの意味とは、新鮮な状態に保つことにある。クールは10から15億ページを毎日クロールしているという。それは自分で網を張ったところをすべて更新するのに3か月もかかるということだ。もっとも、一部の重要なページは毎週を基本にクロールしているとクールは言う。それならよい -- だがグーグルはインスタント・レイヤのおかげで、ほぼリアルタイムで更新されたページを補充する。
(part 2)
<1 2 3 4>