【Scala】【crawler4j】Scalaでクローラーをつくってみました。

こんにちは、たくじろう(@takujiro_0529)です。

今回はcrawler4jScalaでクローラーを起動するところまでを実装しましたので、その方法を紹介します。

こちらを参考にして実装してみたのですが、うまく起動しなかったので、1からJavaで実装してから、Scalaに書き換えました。

とてもシンプルですので、ここからカスタマイズして頂けたらと思います。

スポンサーリンク




build.sbt

「libraryDependencies」に「crawler4j」を追加していきます。

BasicCralontroller.scala

メインのコントローラーの設定をしていきます。

ここではクロール対象サイトの設定から、スレッド数、スレッドの間隔などの設定してます。

わかる範囲での設定をコメントアウトで記載しましたが、細かい設定は「こちらのREADME.md」を参考にしてみてください。

BasicCrawer.scala

クローラークラスの設定をしていきます。

ここではoverrideしたメソッドの内容を書いていきます。

まとめ

Scalaの勉強のために、わざわざJavaから書き換えたものを公開しました…

設定の部分であやふやな部分はあるものの、クローラーの第一歩を踏み出せたのでJsoupと組み合わせて、さらなるWeb解析を行えるようにしていきたいです。

【Scala】【jsoup】Scalaにjsoupを導入してみた
【Scala】【jsoup】Scalaにjsoupを導入してみた
こんにちは、たくじろう(@takujiro_0529)です。 今回はScalaを使ってhtmlページ内のソースを取得してくるJavaライブ...

byたくじろう(@takujiro_0529)

スポンサーリンク

スポンサーリンク



シェアする

  • このエントリーをはてなブックマークに追加

フォローする