Create  語り部Wiki  Index  Search  Changes  RSS  Login

語り部調査委員会

語り部調査委員会

略称「かっちょい」。統計などを集計して真実を露呈させるぞっ。

c*KATARIBE.COM ここ一週間の上位100ヒットページ

構成員

sfこと古谷俊一
発言数集計してますー。
ふきら
IRCの頻出文字列調査担当。

話題まとめ

2007年頻出文字列調査

2007年出現単語上位一覧(狭間06)

括弧の中はその月の出現数です。

順位1位2位3位4位5位6位7位8位9位10位
1月鋭司(350)氷我利(313)彗(312)葛海(301)空音(299)千紗紀(268)紫(263)眞由美(218)正樹(214)あまり(196)
2月氷我利(180)正樹(151)紫(112)眞由美(86)彗(82)空音(78)渚(69)かえで(66)みかん(62)優一(55)
3月氷我利(234)優一(163)かえで(116)眞由美(115)紫(107)桃花(102)亜美(96)渚(85)ゆかりん(82)正樹(73)
4月朱敏(386)佐緒里(181)片帆(164)健司(159)珊瑚(129)棗(127)薗煮(110)氷我利(107)仙(98)小池(88)
5月朱敏(798)正(313)月夜(278)竜胆(274)健司(189)珊瑚(184)渚(175)美絵子(173)紫(165)小池(159)
6月珊瑚(289)かえで(234)優一(211)紫(196)摘薙(171)亜美(143)葛海(140)朱敏(126)正樹(120)竜胆(102)
7月正樹(969)つかさ(538)渚(434)白亜(390)摘薙(340)氷我利(297)千沙紀(282)紫(271)かえで(259)溥(254)
8月正樹(747)結夜(517)竜胆(426)オワタ(392)渚(323)つかさ(312)シチシチ(312)摘薙(279)りまりま(274)幹也(249)
9月オワタ(772)りまりま(580)正樹(569)白亜(527)摘薙(403)つかさ(363)竜胆(319)みゐえ(272)朱敏(267)鋭司(255)
10月オワタ(346)幹也(182)結夜(179)白亜(162)りまりま(162)つかさ(161)竜胆(154)碧流(119)正樹(86)各務(86)
11月オワタ(324)幹也(188)りまりま(137)小池(106)各務(103)大樹(73)渚(68)結夜(62)尚久(61)鋭司(61)
12月オワタ(480)木下(479)朱敏(471)珊瑚(330)溥(329)正樹(287)彗(282)りまりま(269)幹也(217)つかさ(197)

2006年頻出文字列調査

2006年出現単語上位一覧

括弧の中はその月の出現数です。

順位1位2位3位4位5位6位7位8位9位10位
1月真帆(581)達大(580)摘薙(550)葛海(533)ノナ(467)相羽(456)鋭司(378)六華(325)八尋(308)先輩(302)
2月真帆(656)達大(588)葛海(460)優一(442)梗二(404)鋭司(403)摘薙(363)相羽(321)学(326)夏澄(205)
3月真帆(278)相羽(215)人形(142)鋭司(141)アリス(137)葛海(133)御南深(127)夏澄(124)梗二(104)泰弥(103)
4月真帆(564)鋭司(497)優一(336)葛海(258)相羽(222)達大(190)丹下(180)泰弥(166)御南深(161)亜美(157)
5月摘薙(951)正樹(544)鋭司(540)少女(531)旅邁(485)竜胆(434)達大(393)紫(331)渚(264)一之瀬(213)
6月摘薙(1952)正樹(1081)鋭司(1012)竜胆(989)少女(881)キューブ(645)旅邁(635)紫(620)葛海(562)渚(448)
7月摘薙(1284)正樹(847)竜胆(687)少女(651)キューブ(647)鋭司(420)渚(388)あやめ(335)紫(326)ツナギ(286)
8月摘薙(1273)正樹(856)竜胆(709)少女(628)渚(487)紫(447)結夜(432)アゲハ(394)葛海(387)キューブ(378)
9月摘薙(1041)渚(578)梅太郎(564)鋭司(560)窓香(494)正樹(485)アナ(417)達大(409)竜胆(397)ヨルグ(377)
10月摘薙(912)正樹(637)和枝(597)竜胆(543)アナ(459)瞑(440)渚(439)キューブ(396)芳弘(362)綺胤(349)
11月氷我利(894)摘薙(875)竜胆(701)彗(667)空音(648)正樹(590)葛海(488)眞由美(476)渚(381)アナ(381)
12月氷我利(1233)正樹(878)眞由美(652)彗(589)千沙紀(553)渚(545)葛海(530)紫(466)鋭司(434)優一(429)

2005年頻出文字列調査報告

2006年頻出文字列調査報告

2007年IRCログ月別特徴語調査

やっていることは今までの文字列調査と同じようなこと。ただし、形態素解析を行って対象を名詞のみに限定したりしているので名称変更。

その他の集計

非常に簡単な技術的な話

頻出文字列の数え上げ

1文字から10文字の幅で出現する文字列を単純に数え上げています。本来なら形態素解析などをしたものを対象として、単位を文字ではなく形態素でやるべきなのですが、口語的な文に対しては形態素解析器は弱いので、表層の文字のみで数えています。

TF-IDFについて

TF-IDF(Term Frequency-Inverted Document Frequency)は対象テキストの特徴語抽出に用いられます。これは、単語の頻度に、その単語の希少度を重みとしてかけたもので、今回使用した式は

tf×log(N/df)

というもので、tfが対象ファイル中の対象単語の出現数、Nが総ファイル数で、今回は月別にログを分けたのでN=12となります。dfが全てのファイルのうち、対象単語が出現しているファイルの数です。

よって、全てのファイルに出現した場合、重みが0になってしまいます。これを防ぐためにIDFとして上記の式に1を足した物が使われることもあります。

リンク

Last modified:2008/01/01 01:17:14
Keyword(s):
References:[ふきら] [語り部参加者キャラクター数まとめ] [かっちょい] [企画]
This page is frozen.