これはなに?
CEEK.JP NEWS の 〜2005年10月 の記事データを基に、テキストの分類を行います。対応しているカテゴリーは「社会」「政治」「国際」「経済」「電脳」「スポーツ」「エンターテイメント」「サイエンス」の8つです。
ナイーブベイズ(Naive Bayes)分類法を用いており、2005年11月の記事でテストしたところ81.4%の精度を示しました(統計的期待値は 12.5% / 求める精度は 90%)。スポーツ(96.4%)、電脳(92.8%)、は高い精度を示しましたが、社会(63.8%)、経済(70.8%)の精度はよろしくありません。多分、人間が分類してもそんなもんです。
コンフュージョン・マトリックス(学習:2005年7月 / 判定:2005年8月)
http://labs.ceek.jp/classify/cm.pdf
表の縦(グラフ)は、推定分野。表の横は、正解分野。
参考資料: 情報意味論(第8回) ベイズ学習 (櫻井研究室 情報意味論の講義資料)
http://www.sakurai.comp.ae.keio.ac.jp/classes/infosem-class/2004/08Bayes.pdf
Text Classification with CEEK.JP NEWS (Ceekz Logs)
http://private.ceek.jp/archives/001493.html
ナイーブベイズ(Naive Bayes)分類法を用いており、2005年11月の記事でテストしたところ81.4%の精度を示しました(統計的期待値は 12.5% / 求める精度は 90%)。スポーツ(96.4%)、電脳(92.8%)、は高い精度を示しましたが、社会(63.8%)、経済(70.8%)の精度はよろしくありません。多分、人間が分類してもそんなもんです。
コンフュージョン・マトリックス(学習:2005年7月 / 判定:2005年8月)
http://labs.ceek.jp/classify/cm.pdf
表の縦(グラフ)は、推定分野。表の横は、正解分野。
参考資料: 情報意味論(第8回) ベイズ学習 (櫻井研究室 情報意味論の講義資料)
http://www.sakurai.comp.ae.keio.ac.jp/classes/infosem-class/2004/08Bayes.pdf
Text Classification with CEEK.JP NEWS (Ceekz Logs)
http://private.ceek.jp/archives/001493.html
Explanatory Note