« 朝日屋 イチゴ小倉サンド | メイン | 大久野島 »
2005年09月14日
インチキGeocoderプレビュー
先ほどBLOGにアドレスマッチングのSOAP版があるというタレコミ情報を頂きました。
http://www.geoap.jp/service/trial/trial_adrmatch.htm
日本にもついにSOAPのGeocoder誕生ですね。
実は私もひそかにMySQLを使ってGeocoderを作っておりまして、予定では10月くらいまでにテスト版RESTを公開してみたいと思っていたのですが、いつのまにか日本語GeoCoderのWebサービスがいろいろ出てきているようなので、私もちょっぴり頑張っていることをアピールすべくちょっことだけ公開。
http://ws.podzone.net/share/test.cgi
http://ws.podzone.net/share/geocoder.cgi( 改良版 追記参照)
(自宅サーバなので落ちている可能性あり)
住所を入力していただき、データベースに問い合わせて、住所の位置がわかった場合に、GoogleMap API上に表示します。(つまり出来の悪いGooge Mapsの住所検索ですな)
GoogleMap上に吹きだしとして、その住所が正しいかどうかの確認画面がでますので、正しい場合Yes,違う場合はNoをクリックすると返却した住所データが正しいかどうかの情報をサーバに蓄積します。このデータは今後の修正時の参考にします。
※測地系の問題で、GoogleMaps上のアイコンを表示する際に新座標の位置データから旧座標に一律平行移動させていますので数メートル程度の誤差があります。
Google Localや他の商用サービスそして、東大のアドレスマッチングサービスの精度に比べるとまだまだ使い物にならない(今のところ精度が6割強くらい)とは思いますが、プレビューということで弄って頂いてフィードバックしていただけると幸いです。
このGeoCoderの実装について
MySQL+Python+Mecabを利用しています。入力した住所を分かち書きし、それをMySQLの全文検索を使い、一番マッチした住所の緯度経度を返す方式です。この方法は、検索速度が速く文章の揺らぎには強いものの100%の精度を出すことは出来ませんが、Mecabが利用している辞書(ipadic)を住所専用にチューニングしていくことにより徐々に精度を上げていくことができると踏んでいます。(あと、マッチング処理をDBとMecabにやらせるのでプログラムが短いためメンテナンス性も良いと思われる)
問題点・課題も多くありそうですが、その辺をこれから洗い出していき、使えるレベルになりそうでしたら、Webサービス化します。
対応する予定のバグ(直す予定)
- 県から入力しないとダメな場合がある
- 郡部の実装がダメダメ
- 市町村合併への対応。
- 丁目を省いた表記
対応方法が未定の問題(無理かな?)
- 略字の対応(竜・龍などの)
9/20 追記
先ほど気づいたのですが、
Geocoding.jpさんも動き出していますね。精度が全く違います。商用データを使っているようなのでかなり精度が高いです。完敗ですなorz...
(Google先生とほぼ同じような動きをしているような???)
完敗していますが、まああきらめずに、ちょこっとだけ精度を上げたバージョンを提供してみます。
私の作ったテストでは、市レベルでは9割以上の精度が出ていると思います、これ以上の精度向上は、とても泥臭い作業になりそう...
あと、hogemanさんのコメントのとおり、郡レベルでは思いっきり使い物にならん悪寒。役場の住所の街区情報ですら全国の半分も入っていないんじゃないでしょうか?
- 郡・町村に対応
- 9月前半までの合併に対応
- 1-1-1を1丁目1-1に置き換え
投稿者 nishioka : 2005年09月14日 12:21
TrackBack
このエントリーのトラックバックURL:
http://nishioka.sakura.ne.jp/mt/mt-tb.cgi/60
Comment
Mecabのリンク壊れてるかも。
ところで以前私も街区レベル位置参照情報使ったジオコーダーサービス自作したことありますが、エンジンがいくらがんばっても辞書データの品質や網羅度のせいで市販品のような精度は出せないのがなんとも。
っていうか街区レベル位置参照情報ってOCRでデータつくったとおぼしき誤字とかもあって笑えます。
投稿者 hogeman : 2005年09月14日 20:39
なんかnishiokaさん以外の方に誤解を与えそうな書き方してしまったので一般の方むけに補足しますと、普通の用途だと街区レベル位置参照点のレベルの品質や精度で必要充分と思われます。
ジオコーダの需要は多いはずだし、おもしろいのでぜひがんばってください!
投稿者 Anonymous : 2005年09月14日 22:43
あちゃぁ、リンク間違えてました。
hogemanさんは本当になんでも嗜んでますね、底が見えなくて恐ろしい...
街区レベル位置参照情報は、フリーで使わせて頂いているのに文句なんて言えません。遊び(勉強??)で作っているだけなので、誤差があろうが公開してくれていることに感謝。
投稿者 nishioka : 2005年09月15日 19:02