Logs

  • Archive
  • RSS
  • Ask me anything

Yahoo! ウェブ検索で「”ビールや”」で検索すると、検索結果に

「ビールやお酒の」 「ビールや発泡酒も」 「ビールやワイン等」

といった表現が見つかります。 これにより、関連語として「お酒」「発泡酒」「ワイン」が得られます。

しかし、この方法では関連語ではないノイズが多く含まれてしまいます。 先ほどの検索結果の中には

「ビールや最高の状態の」 「いや絶対ビールやねん! 」 「ビールや世界の洋酒」

といった表現もありました。さすがに「最高」「ねん」「世界」は関連語としては不適切かと思われます。

そこで次に、一度抽出したこれらの関連語「候補」をチェックするフェーズを設けます。 その方法は単純で「”関連語候補やビール”」でウェブ検索をしてヒットするかを確認するだけです。 関連語ならば「や」でつながる前後を逆にした表現もきっと誰かが書いているはずです。それがウェブで見つからなかったならば、その関連語候補はノイズだと判定できます。見つかっても少数な場合は信頼度は低いということでノイズ判定することもできます。

人物情報検索のトレンドご紹介 part3 テキストマイニング技術について (Yahoo! JAPAN Tech Blog) (via otsune)

Source: otsune

  • 2 years ago > otsune
  • 14
  • Permalink
  • Share
    Tweet

14 Notes/ Hide

  1. minechi reblogged this from prawn
  2. mailaddr reblogged this from otsune
  3. salyonflash381 reblogged this from otsune
  4. hikipuro liked this
  5. udonchan reblogged this from otsune
  6. simarisu reblogged this from otsune
  7. monoprixgourmet reblogged this from otsune
  8. interglacial reblogged this from phyllite
  9. canceller reblogged this from otsune
  10. prawn reblogged this from otsune
  11. phyllite reblogged this from otsune
  12. kiyoya liked this
  13. chihilog reblogged this from otsune
  14. otsune posted this
← Previous • Next →

About

  • RSS
  • Random
  • Archive
  • Ask me anything
  • Mobile

Effector Theme by Carlo Franco.

Powered by Tumblr