2017年8月20日日曜日

ツイイパイでクロオラア

 「twitterのクローラーでデータセット作ってる」って方がいたので、確かにそれなら無限にデータセット作れるなぁと思ったので、やることもない(自然科学の統計学を傍目に)ので触ってみた。その方はシェルらしいんだけど。

どうやらtweepyというのがいいらしいということで導入。数年前に認証で挫折した覚えがあるのだが、tweepyはめちゃめちゃ簡単に認証ができた。

ソースコードはネットで検索すれば色んな人が書いているのでわざわざ書くまでも無い。
ただしターミナルから直接入力する分にはいいのだが、プログラムとして実行すると文字コードで引っかかってどうにもうまくいかない。
またクローラーを実行しながらtwitterを監視したところどうにもすべてのtweetを拾いきれておらず、どうやら検索対象の文字列前後にスペースがないと拾ってくれないらしい。なのでハッシュタグだったり英語tweetは拾えるのだが、日本語の文章に交ざってるとダメらしい。それで広告垢とかうさんくさいツイートばかり拾っていたわけだ。

そんなわけで用途が限られていますが、「ハッシュタグならいいんだろう!?」ということで、来月初頭のあのイベント関連のハッシュタグでクローラーを回して、igraphの実践なんかをしてみたいなぁなどと思っている。

そして下手なタイトルをつけると検索で引っかかりかねないので、こんなタイトルになっている。


参考
あずみ.NET 【Python】tweepyでTwitter Streaming APIを使う方法
https://a-zumi.net/tweepy-twitter-streaming/

twitterのAPI叩いて遊ぼう! - すこしふしぎ. http://ism1000ch.hatenablog.com/entry/2014/01/30/025520

Tweepyを使って、PythonでTwitterのAPIを超簡単に操作する - StatsBeginner: 初学者の統計学習ノート http://www.statsbeginner.net/entry/2015/10/21/131717

Pythonの"Tweepy"でTwitter APIから取得したデータを読んでみる - StatsBeginner: 初学者の統計学習ノート
http://www.statsbeginner.net/entry/2015/10/22/221041

Tweepyのstatusリストで何が取れるのかわからなかったので、取り出してみた by @DeveloperRyo87 on @Qiita http://qiita.com/Ryo87/items/61b5d54cbfd7ae520fe6

0 件のコメント:

コメントを投稿