好きなアニメ、データで遊んでみない?
「データ分析」って聞くと、ビジネスの数字とか統計とか…堅苦しいイメージありますよね。
でも実は、好きなアニメやマンガもデータ分析の対象になるんです!
今日は、私の大好きな「ジョジョの奇妙な冒険」アニメ版第3部のセリフを分析してみました。
「オラオラ」と「無駄無駄」、どっちが多いの?
各話で一番出てくる単語は?
キャラの口癖をビジュアル化したら?
そんな「どうでもいいけど知りたい!」を、WordCloudという手法で可視化してみます😊
WordCloudって何?
一言で言うと:
「文章の中でよく出てくる単語を、大きさで表現した図」です。
特徴:
– よく出る単語 = 大きく表示
– あまり出ない単語 = 小さく表示
– 色やレイアウトで視覚的に楽しい
使い道:
– テキストの特徴を一目で把握
– プレゼンで「この文章のテーマは○○です」を直感的に伝える
– SNSの投稿傾向分析
– そして…好きなアニメで遊ぶ!🎉
今回やったこと:3部全48話のセリフ分析
データソース:
ジョジョの奇妙な冒険 スターダストクルセイダース(アニメ第3部)
全48話の字幕データ
処理の流れ:
1. 各話の字幕ファイルからセリフを抽出
2. 形態素解析(単語に分解)
3. ストップワード除去(「は」「の」「を」など意味のない単語を削除)
4. WordCloudで可視化
ツール:
Python + MeCab(形態素解析) + WordCloud(可視化ライブラリ)
結果:各話のWordCloud
各話ごとに、どんな単語がよく出てきたか見ていきましょう!
第1話

承太郎の名前が大きいですね。主人公の紹介回だけあって、キャラ名が目立ちます。
第2話

「スタンド」という単語が登場!この回でスタンドの概念が説明されたんですね。
第3話

第4話

第5話

第6話

第7話

第8話

第9話

第10話

第11話

第12話

第13話

第14話

第15話

第16話

第17話

第18話

第19話

第20話

第21話

第22話

第23話

第24話

第25話

第26話

第27話

第28話

第29話

第30話

第31話

第32話

第33話

第34話

第35話

第36話

第37話

第38話

第39話

第40話

第41話

第42話

第43話

第44話

第45話

第46話

第47話

第48話(最終話)

最終話、「DIO」が圧倒的に大きい!やっぱりクライマックスですね🔥
分析してみてわかったこと
1. キャラ名が物語の中心
各話で大きく表示される単語を見ると、その話の中心キャラがわかります。
– 承太郎
– ポルナレフ
– 花京院
– DIO
登場キャラの名前が、その話のテーマを示してくれてます。
2. スタンド名も頻出
「スタープラチナ」「ザ・ワールド」など、スタンド名もよく出てきます。
バトルシーンで何度も叫ばれるからですね!
3. 口癖や決めゼリフ
「やれやれだぜ」
「オラオラ」
「無駄無駄」
こういう決めゼリフも、WordCloudで拾えてます😊
4. 場所の名前
エジプト、カイロ、インド…旅の行程もWordCloudに反映されてますね。
自分でもやってみたい?
必要なもの:
– Python環境
– MeCab(形態素解析ツール)
– WordCloudライブラリ
– 字幕データ(.srtファイルなど)
基本の流れ:
# 簡単な例
from wordcloud import WordCloud
import MeCab
# 1. テキストを読み込み
text = "あなたの好きなアニメのセリフ..."
# 2. 形態素解析
mecab = MeCab.Tagger()
words = mecab.parse(text)
# 3. WordCloud生成
wc = WordCloud(font_path="path/to/font.ttf").generate(words)
# 4. 画像として保存
wc.to_file("output.png")
詳しいチュートリアルは、リクエストがあれば記事にします!
応用例:こんなデータも分析できる!
WordCloudとテキストマイニング、アニメ以外にも使えます:
SNS分析
→ Twitterの自分のツイートを分析して「よく使う単語」を可視化
小説・歌詞分析
→ 好きな作家の作品の特徴を掴む
ニュース記事
→ 特定トピックでよく使われる単語を把握
会議の議事録
→ 「この会議で何が議論されたか」を一目で
ブログ記事
→ 自分のブログで頻出するキーワードをチェック
可能性は無限大! 🌟
よくある質問 Q&A
Q1: 字幕データはどこで手に入る?
A:
– 公式配信サービスの字幕機能(ダウンロードはNG)
– 自分で手動で文字起こし
– ファンサブ(グレーゾーン、公式推奨しません)
注意: 著作権には十分注意してください。個人利用の範囲で楽しみましょう!
Q2: Pythonよくわからない…
A: オンラインツールもあります!
– WordCloud.com – ブラウザで簡単にWordCloud作成
– WordArt.com – デザイン性の高いWordCloudが作れる
テキストを貼り付けるだけで、プログラミング不要です😊
Q3: 日本語がうまく分割されない
A: 形態素解析エンジンの設定を確認!
– MeCabの辞書(IPAdic, NEologd など)
– WordCloudのfont_pathに日本語フォント指定必須
日本語はスペースで単語が区切られてないので、形態素解析が必須です。
Q4: もっとキレイなデザインにしたい
A: WordCloudのパラメータをいじりましょう:
– background_color: 背景色
– colormap: 色のテーマ
– max_words: 表示する単語数
– mask: 形状を指定(ハート型、星型など)
詳しくは公式ドキュメントをチェック!
まとめ:データ分析は「好き」から始めていい!
今日の教訓:
データ分析って、ビジネスだけのものじゃないんです。
「好きなもの」×「データ」= 楽しい!
それが私の持論です😊
今回はジョジョでやってみましたが、あなたの好きなアニメ、マンガ、ゲーム、なんでもデータにできます。
「これ分析したら面白そう!」
その気持ちが、データ分析スキルを伸ばす一番の原動力だと思います。
次に挑戦してみたいこと 🎯
– 他の部(1部〜8部)も分析して比較
– キャラごとの頻出単語を分析
– 感情分析(ポジティブ/ネガティブ)
– セリフの長さの統計
– 「ッ」の出現回数(ジョジョ特有の表現!)
あなたなら何を分析してみたいですか?
技術メモ:
– Python 3.x
– MeCab 0.996
– WordCloud 1.8.1
– matplotlib 3.5.1
データソース:
アニメ「ジョジョの奇妙な冒険 スターダストクルセイダース」(第3部)
全48話の字幕データ
関連記事:
– Pythonでテキストマイニング入門 (coming soon!)
– MeCabのインストールと使い方 (coming soon!)
– データビジュアライゼーションの基本 (coming soon!)
リクエスト募集中!
「このアニメも分析してほしい!」
「WordCloudの作り方を詳しく教えて!」
コメントで教えてください😊
P.S.
ジョジョファンの方、どの話のWordCloudが一番印象的でしたか?
私は最終話のDIOの存在感に改めて圧倒されました🔥
データで遊ぶって、楽しいですよね。
一緒にもっといろんなものを分析していきましょう✨

コメント