image

  • 系列に0か1かのスコアがついてる時に「部分列についてそのスコアの積を取ったもの」のランキングを考えると、それは1である区間の部分列も全部含んでしまう

  • RAKEの「ストップワードを取り除いた列をキーフレーズの候補にする」というアルゴリズムを「ストップワードはスコアが0、それ以外は1」と解釈した場合、このやり方だと部分列も含まれるので正しくない

  • 部分列の外側のスコアを1から引いたものを掛け合わせると考えれば、極大列だけがスコア1になる

    • これはRAKEのストップリスト生成アルゴリズムで、キーフレーズの隣接に出現する回数を数えているコンセプトとよく符合する
  • これこれって隠れマルコフモデルに帰着するのでは

    • 隠れ状態が「キーワードである、ない」の2状態か、「キーワードでない、キーワード前、キーワード内、キーワード後」の4状態
  • 隠れマルコフに帰着するということは条件付き確率場にも帰着できるのでは