« 脱・弁当男子 | トップページ | Oblivion of first "Kvatch Rebuilt"とか »

2010年6月 8日 (火)

続・衝撃の数千件

数千件の実態は7000件強で、データでご提供いただき一安心。

さて、提供されたデータファイルの拡張子はxlsで、開いてみたところ、各行A列にのみデータが格納されている。一見してcsv変換に失敗しているように見受けられたが、実際は、csv形式で保存されたファイルの拡張子をxlsにリネームしただけのシロモノだった。そうと気づかず、1.5hかけてDBに格納するプログラムを書いてしまったことはさておき。
最近は、bmp画像の拡張子をjpgにリネームして画像変換できたわーいとする風潮があるようだが、なまじ開けただけに、ファイル形式を疑うことは思いつかなかった次第である。
いらんワナしかけんなと。

事前に了解していたとおり、顧客を管理するテーブルが10個ほどあり、ざっと見てみると、同じテーブルに重複する顧客データが存在する。異なるテーブルにも重複する顧客データが存在する。クライアントが二十年蓄積したエントロピーを目の当たりにしているわけだ。
テーブルごとに桁数が異なる顧客コードはあてにならない。同じ顧客データであるかどうかを識別するためは電話番号か顧客名に依るしかないのだが、電話番号が未入力のレコードが存在し、同じ顧客と思える名称もバリエーションに富んでいる。

とりあえずは、データのパターンを洗い出し、重複と見なせる条件を設定する必要がある。
この手のデータ解析は須く然りであるが、答えのないパズルであり、精度は眼力に依存する。わかりやすい、アナログとデジタルの境界線の一例といえよう。

« 脱・弁当男子 | トップページ | Oblivion of first "Kvatch Rebuilt"とか »

日記・コラム・つぶやき」カテゴリの記事

コメント

めんどくせーなw ちゃりが重複とみなしたら重複ってことで良いのではないかwww
データの欠損があるときは、「重複かもしれない」は「重複ではない(別人である)」としなければならないのだろうけど、正直ウゼエな。グレーは無罪ってのと同じくらいウゼエ。グレーってほぼ有罪だぜw

ところで昔から思っていたのだが、やはり未来、jpg(プゲラwww)になって、ベタデータ(bmp)が当然という時代は来るのだろうか。ずっと来ると思っていたのだけど、昔思っていた頃は、現在くらいにはそんな時代になっている気がしていたものだけどな。さらにその未来、動画も無圧縮になるのだろうか……。解像度の高詳細化と記憶容量の増大のラインがどこで逆転するかなのだろうけど、まだまだ高詳細化は留まるところを知らずな感じだし(フルハイの上の上くらいまでは見えてる)……俺たちが生きているウチにそんな時代は来るのか来ないのか。

なんにせよ、クオリティが低く、さらに不可逆で、しかも劣化していく圧縮技術はいつか駆逐されるのは間違いないと思うのだけどな。

どのみち俺様準拠で、顧客に是非を問う形にならざるを得んので、まあ、いいようにやるさ。
誰も手をつけたがらない仕事だけど、形が見えてくると文句が出てくるんだよなw

今でも変わりないと思うけど、象牙の塔に在籍していた頃に画像のrawさが重要視されていたのは、医療、宇宙科学など。rawさを重視して、カラー情報を捨て、グレー画像を採用していた。カラーで撮影すると、なにもかも三倍増しになる。
重い画像を高速に処理できるようになってロボットビジョンが発達したことは否めないし、人の目はjpg程度で自然画質と感じるとしても、情報は多いにこしたことはないとする向きもあるだろうね。音声もしかり。

とはいえ、電子データの脆弱性が解消されない限り、圧縮技術は廃れることはないと思う。逆に、主に俗悪的な理由でデータ容量は増えていくと思うので、圧縮技術もニーズを失わないと思う。少なくとも、パケット代なんて概念がある限りは。

例えば電子文書。そのうち装飾にこり始めて、フォントや紋様とセットで売るようになるかもしれん。HTML、XMLがいいカンジに進化すれば適量なデータサイズとなるだろうが、まあ、どのみちゴミであふれかえることにはかわりない。
『ヴァレリアファイル』にデータマイナーという仕事があったが、インターネットはすでにそれをせざるを得ないありようを示している。あてにならない発掘ツールに頼らざるを得ない現状が切ないのう。

余談だが、脳内で画像再生できるようになって、脳力と解像度が比例関係にあるとか判明したらおもしろいなw

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/542052/48576280

この記事へのトラックバック一覧です: 続・衝撃の数千件:

« 脱・弁当男子 | トップページ | Oblivion of first "Kvatch Rebuilt"とか »

フォト
無料ブログはココログ

最近のトラックバック