これはなに?

CEEK.JP NEWS の 〜2005年10月 の記事データを基に、テキストの分類を行います。対応しているカテゴリーは「社会」「政治」「国際」「経済」「電脳」「スポーツ」「エンターテイメント」「サイエンス」の8つです。

ナイーブベイズ(Naive Bayes)分類法を用いており、2005年11月の記事でテストしたところ81.4%の精度を示しました(統計的期待値は 12.5% / 求める精度は 90%)。スポーツ(96.4%)、電脳(92.8%)、は高い精度を示しましたが、社会(63.8%)、経済(70.8%)の精度はよろしくありません。多分、人間が分類してもそんなもんです。

コンフュージョン・マトリックス(学習:2005年7月 / 判定:2005年8月)
http://labs.ceek.jp/classify/cm.pdf
表の縦(グラフ)は、推定分野。表の横は、正解分野。

参考資料: 情報意味論(第8回) ベイズ学習 (櫻井研究室 情報意味論の講義資料)
http://www.sakurai.comp.ae.keio.ac.jp/classes/infosem-class/2004/08Bayes.pdf

Text Classification with CEEK.JP NEWS (Ceekz Logs)
http://private.ceek.jp/archives/001493.html
Explanatory Note

URL を指定

判定させたい URL を指定してください。取得されるコンテンツの全てが判断材料となります。

わからない EUC-JP Shift_JIS JIS UTF-8
URL

テキストを入力

判定させたいテキストを入力してください。あまり短い文章の場合は、判定できない場合があります。
「ライブドア」「楽天」のように単語だけの指定もできます
TEXT