ツイートひとつには、文字数と同じくらいのメタデータ・ポイントがある

ビッグ・データを理解するのに、ツイートひとつでも足りることがある。
140字はちっぽけに思えるかもしれないが、そこには多大な情報を生じる可能性がある。
エラスティックサーチは企業向けにソーシャル・メディアから解析用データを抽出するソフトウェアを制作するスタートアップだが、同社によるとツイートひとつにはメタデータと呼ばれる解析ポイントが150点あるという。
メタデータは、個別のコンテントで表出される情報を緩やかに関連付けする。 例えば、法律用語ではイーメールの本文はコンテントであり、時間や送信者および受信者はメタデータである。 ツイートでは個別の数字によるIDが含まれ、それに対する返信やお気に入り、リツイートもIDがメタデータになる。
時間、場所、言語、アカウント作成時期、フォロワー数、ウェブサイトが言及されている場合はその著作者のURL、その他エンジニアが分析できるあらゆる技術詳細がメタデータとなる(ツイッター社員が2010年にメタデータの解説表を作成しているので参照)。
ツイートひとつでこれほどの情報が含まれるということは、個人や企業の生み出すデータ量がいかに急速に増えているかを示す例のひとつだ。このような理由で企業は先を争ってデータを解析し洞察を試み、さらにはユーザのストレージの座を狙って工夫を凝らしている。
ツイッターなどのソーシャル・メディア・サイトからデータを抽出している企業は、どれだけの数の人が特定の場所やタイムゾーンからプロダクトを支持しているかを理解し、それが時間の経過とともに変化するかを見ることができる。
メタデータは昨今、賛否両論の対象であり、NSAの嘱託職員エドワード・スノーデンが暴露した文書から、NSAがアメリカ人の電話記録、イーメールにかんする情報を解析していたことが判明した。
現行法では、政府には電話を傍受したりイーメールのコンテントを読む権限はないが、その周辺のメタデータを収集することは可能だ。 現在議会で審議中の法案では、 NSAのメタデータ収集を制限することが明記されている。
ACLUなど市民運動家メタデータ解析から多様な個人情報がわかることから、コンテントとメタデータを法的に区別するべきではないと主張している。(続きを読む)

To understand big data, look no further than a single tweet.

At 140 characters a tweet seems tiny, but it can yield a wealth of information. According to Elasticsearch, a startup that builds software to help companies mine data from social media, there are 150 separate points of so-called metadata in an individual tweet.

Metadata loosely refers to information that can be gleaned about a piece of content. For example, in legal terms, the body of an email is considered content, while the time stamp, the sender and the receiver are considered metadata.

For a tweet, metadata includes a unique numerical ID attached to each tweet, as well as IDs for all the replies, favorites and retweets that it gets. It also includes a timestamp, a location stamp, the language, the date the account was created, the URL of the author if a website is referenced, the number of followers, and many other technical specifications that engineers can analyze. (A Twitter employee created a map of metadata with explanations in 2010 that you can look at here.)

The sheer amount of information in just a single tweet is an example of how quickly the volume of data generated by individuals and businesses is growing. It also explains why companies are analyzing large amounts of data for patterns and insights — and hunting for the storage and expertise to do so. Companies mining data from Twitter or other social media sites, for example, can determine how many people in a certain location or time zone liked a particular product, and whether that sentiment changes over time.

Metadata became a hot-button issue after documents leaked by former NSA contractor Edward Snowden alleged that the National Security Agency was analyzing that kind of information in Americans’ telephone calls and emails. Currently, government spies are prohibited from reading the content of emails or listening in on phone calls, but they are allowed to collect the metadata around them. A bill pending in Congress would limit the NSA’s bulk collection of metadata.

Civil liberties groups such as the ACLU have argued that because so much personal information can be derived from analyzing metadata, there should be no legal distinction between metadata and content.

(From the Digits blog post. Thanks to Elizabeth Dwoskin.)