from 大きすぎるリンクの分割 階層的クラスタリングによる大きすぎるリンクの分割

  • 大きすぎるリンクが付いているページを階層的クラスタリングする
    • クラスタリングの情報としてはページに出てくる単語やリンク等の情報を使えば良い
      • 似ているものは近く離れたものは離れる
    • 適当な閾値を決めてやればそのタグがいくつかのグループに分割される