実は「40万キーワード」は“水増し”なのですよ。株式会社はてなが8月1日ではなく8月2日にページを公開したのは理由がある?
はてなブックマークに、こんなコメントを書いたからには検証しておこうと思います。“中の人”ではないからこそ書けること。
材料は〝Hatena Developer Center〟で開示されている「はてなキーワード一覧ファイルで2013年8月2日23時10分に取得したデータを基にします。
Excel 2013 によると 401353 レコード(行)、キーワードid:419787 とデータとなっていました。
株式会社はてなは、〝2010年11月19日 キーワード名に含まれる英数字の表記を「半角」に統一しました〟で、2バイト記号も強制的にリダイレクトするようにして『お探しのキーワードは見つかりませんでした』を大発生させてみたり、2バイト空白文字を残存させたのを、1バイト空白に統一するように要望したり、とかありました。
2010年11月19日時点で、id:hatenakeyword は、
全角英数字を含むキーワード (2,519キーワード) については新たに半角英数字のキーワードを用意し、新しいキーワードへリダイレクトされるようにしております。
と書いています。リダイレクトを設定してユーザーからアンタッチャブルにしているわけです。
- 全角英字を含み、アクセスできないキーワード
- 1137個
- 全角数字を含み、アクセスできないキーワード
- 156個