自然言語処理に役立ちたい
前回からかなり時間が空いてしまいました…。すみません…。(おい)
概要
自然言語処理用のデータをいっぱい集めたリポジトリがほしい!→自分で作ればええやん!経緯
自分は、自然言語処理で自然言語をいじくりまわすために、結構苦労しました。例えば、- Word2Vec→Wikipediaのアーカイブ→WikiExtractorがエラー吐く!
- マルコフ連鎖→青空文庫の「吾輩は猫である」→ルビが邪魔! といったところです。
このようにみると、どちらもデータの準備段階でつっかかっていることがわかります。 では、どうすればいいのでしょう。簡単です!そのまま使えるデータを最初から用意できればいいのです!
…とは言っても、都合よくそんなデータはそんなにありません。であれば作っちまえ!というのが今回です。
現時点のリポジトリ
何と!初データ(余計なものを取り除いた「吾輩は猫である」)を今朝アップロードしたばかりです!つまり!出来立てほやほや!…勢いで書きましたが、データが全然ありません。そこで、このブログを見ている皆さん(一桁いるかどうか?)!データを増やすのに協力してほしいです!
条件はリポジトリのREADMEに書いておいたので、適宜参照してください。
