これはなに?
CEEK.JP NEWS の2009年1月から2011年12月の記事データを基に、テキストの分類を行います。対応しているカテゴリーは「社会」「政治」「国際」「経済」「電脳」「スポーツ」「エンターテイメント」「サイエンス」の8つです。
ナイーブベイズ(Naive Bayes)分類法を用いており、概ね80%の精度で分類できます。
コンフュージョン・マトリックス(学習:2005年7月 / 判定:2005年8月)
http://labs.ceek.jp/classify/cm.pdf
表の縦(グラフ)は、推定分野。表の横は、正解分野。
参考資料:
情報意味論(第8回) ベイズ学習 (櫻井研究室 情報意味論の講義資料)
Tackling the Poor Assumptions of Naive Bayes Text Classifiers
Explanatory Note