データ分析 - info

「データさえあればAIが分析してくれる」――そう思っていないだろうか。

筆者は最近、ある地域の賃貸物件データを使って家賃トレンドの分析を行い、その結果を別の記事として公開した。「物価高騰は賃貸家賃に波及していない」「1月は割高、2月以降は割安」「追焚設備が家賃の最強予測変数」といった知見が得られた分析だ。

だがその裏側では、本格的な分析を始める前に、何時間もかけてデータセットの「確立」に苦労していた。AIを使いながらも、AIだけでは絶対に見つけられない問題が次々と現れた。そしてその問題を見逃していたら、統計的には「有意」に見えるが事実とは異なる間違った結論が導き出されていた。

今回はその前処理の過程を正直に公開する。データサイエンスの「格好いい部分」の前にある、泥臭くて地味だが最も重要な工程の話だ。

そもそも「前処理」とは何か

データ分析の工程は大まかに以下の流れになる。

データ収集（スクレイピング等）
前処理・データセット確立 ← ここが今回のテーマ
探索的分析（EDA）
モデル構築・検定
結果の解釈・レポート

前処理とは「生データを分析できる状態に整える」作業のことだ。具体的には欠損値の処理、型変換、外れ値の除去、重複の排除などが含まれる。

教科書的にはシンプルに聞こえる。しかし現実のデータは教科書とは全く違う顔を持っている。

罠①「文字列で格納された数値」――AIは気づかない

スクレイピングで取得した家賃データの形式はこうだった。

rent: "4.1万円"
admin: "4500円"
sikik: "1.5万円"

数値のように見えるが、Pythonの内部では全て文字列（string）型として格納されている。そのままモデルに渡せばエラーになるか、全件NaN（欠損値）になる。

「4.1万円」→ 41,000円への変換は一見単純だが、実際のデータには「-」（敷金なし）「応相談」「無料」など例外が無数に存在した。変換ロジックを書いても、次々と変換失敗するパターンが出てくる。

AIへの指示で自動変換を試みたところ、AIは「変換成功」と報告した。しかし実際には変換失敗した行が大量にNaN化していた。AIは処理を実行したことは正確に報告するが、結果の妥当性を自ら検証する習慣を持たない。確認コードを別途書いて人間が検証する必要があった。

罠②「DateTime型がモデルに混入する」――エラーなく通ってしまう

データには取得日（today）と取得タイムスタンプ（source_timestamp）という時系列の列があった。これらは当然、説明変数から除外すべき列だ。

ところがStandardScaler（標準化処理）にこれらをそのまま渡したとき、エラーは出なかった。Pythonは自動的にdatetime型を数値に変換して処理を続行したのだ。

結果として「取得日が新しいほど家賃が高い/低い」という意味のない相関がモデルに混入し、係数が歪んでいた。エラーが出ないため発見が遅れた。AIもこの異常を指摘しなかった。

「エラーなく動く」≠「正しく動いている」。これが前処理の恐ろしさだ。

罠③「ユニークキーの誤設定」――最も危険な罠

今回のデータは「同一物件を複数の取得日にわたってスクレイピングした」時系列パネルデータだ。分析するには「1物件 = 1レコード」に集約する必要がある。そのためにはまず「同一物件を識別するユニークキー」を正しく定義しなければならない。

これが最も深刻な罠だった。3回の定義変更を経て、ようやく正しい答えにたどり着いた。

v1: 物件名（title）単体をキーとして使う

最初は「物件名が同じなら同一物件」と考えた。しかしすぐに問題が発覚した。

「Tiare」「Bonheur」のようなマンション名は、同一棟の複数の部屋（1階・2階・異なる間取り）が同じ名前で掲載されている。title単体でキーを引くと、本来は別レコードであるべき複数の部屋が1件に誤集約される。

v2: SUUMO物件コードをキーとして使う

次に「サイトが付与している物件コード（suumo_code）が最も信頼できるはず」と考えた。しかしここに大きな落とし穴があった。

大手賃貸サイトは同一物件の掲載コードを定期的に更新する仕様だった。

これを確認したときのデータはこうだった。

suumo_code	観測期間	取得率
100493030331	2026-03-10〜03-10	1日のみ
100493042285	2026-03-13〜03-20	2日

これは実際には同一物件なのに、コード更新によって2件に分裂している。レオパレス系の物件では取得率の中央値がわずか26.5%――つまり38時点中約10回しか同じコードで観測されていない。同一物件が平均4コードに分裂していた計算になる。

この誤集約版でモデルを動かしたときのR²（決定係数）は0.836。見かけ上は非常に高精度なモデルに見えた。しかし実態は水増しされたサンプル数による見せかけの精度だった。

v3（最終）: Union-Findアルゴリズムで連結する

最終的な解決策は、Union-Find（素集合データ構造）というアルゴリズムを使った連結だ。

「物件名・不動産会社コード・階数・間取り・家賃が同一で、旧コードの最終観測日と新コードの初回観測日のギャップが7日以内」という条件を満たすものを同一物件として連結する。

連結前: 1,522件
連結後: 1,371件（151件を連結）
募集期間の中央値: 4日（異常）→ 52日（現実的）

募集期間の中央値が4日から52日に変化した時点で「ようやく正しい集約ができた」と確認できた。入居が決まるまでの期間として4日は明らかに異常で、52日は現実的な値だ。

そして正しい集約後のモデルのR²は0.750。v2の0.836より低い。これが正しい精度だ。高いR²が必ずしも「良いモデル」を意味しない典型例だ。

罠④「多重共線性」――変数を増やすほど精度が下がる逆転現象

ユニークキーが確立した後、次の罠が待っていた。

間取り（1K・2LDKなど）と専有面積（㎡）は、直感的には別の情報のように見える。しかし統計的にはほぼ同じ情報を異なる形で表しているに過ぎない。

両方を同時にモデルに投入すると、VIF（分散拡大係数）が以下のようになった。

変数	VIF	判定
madori_1K（間取り）	69.8	深刻
madori_2LDK	57.2	深刻
menseki（面積）	22.5	問題

VIF>10は多重共線性ありの目安とされる。間取りダミー変数を全て除外して面積のみにしたところ、VIFは全変数で10以下に収まり、調整済みR²も改善した。

「変数を増やす = 精度が上がる」という思い込みは危険だ。不適切な変数の追加は、むしろモデルを壊す。

「見かけの下落トレンド」が前処理の重要性を証明した

これら全ての前処理を経て初めて、時系列分析が意味を持つようになった。

生データの平均家賃をそのまま時系列でプロットすると、月▲380円という明確な下落トレンドが見えた（p<0.001）。もし前処理が不十分なままここで分析を終えていれば、「この地域の家賃は有意に下落している」と結論づけていただろう。

しかし物件条件（面積・築年数・設備など）を除去したヘドニック残差で同じ分析をすると、トレンドは月▲106円でp値=0.190——統計的に有意でない。

「下落トレンド」の正体は、安価な物件の大量新規掲載によるミックス効果だった。前処理が正しくなければ、この区別は絶対にできなかった。

なぜAIだけでは限界があるのか

今回の分析でAIは非常に重要な役割を果たした。Pythonコードの生成、統計的な解釈、可視化スクリプトの作成——これらはAIなしでは数倍の時間がかかっていた。

しかし以下の判断は、人間の「データへの疑い」なしには気づけなかった。

問題	なぜAIが見落とすか
文字列型の数値変換失敗	「処理した」事実を報告するが、結果の妥当性を自ら検証しない
DateTime型のモデル混入	エラーが出ないため異常として認識されない
suumo_codeの定期更新仕様	ドメイン知識（サイトの仕様）を持っていない
募集期間「中央値4日」の異常	「4日は短すぎる」という現実感覚がない
R²=0.836の見かけ上の高精度	高いR²を「良い結果」として肯定してしまう傾向がある

AIは与えられた指示を忠実に実行する。しかし「この結果はおかしい」「この集約方法は現実と合っているか」というドメイン知識に基づいた懐疑心は、人間が持ち込まなければならない。

データサイエンスは「AIに任せれば終わり」ではない。むしろAIを使えば使うほど、人間側の「問いを立てる力」と「結果を疑う目」が重要になる。

まとめ：前処理は「分析の9割」である

今回の分析で前処理に費やした時間は、モデル構築や解釈の時間をはるかに超えていた。そしてその前処理の品質が、最終的な結論の正否を決定的に左右した。

前処理の重要なチェックポイントをまとめる。

型変換の結果を必ず検証する（変換後のNaN率、値の範囲を確認）
除外すべき列を明示的にリストアップする（ID列・日付列・生テキスト）
集約結果が現実と整合するか確認する（「募集期間4日」は現実的か？）
ユニークキーの定義を慎重に行う（データソースの仕様を調査する）
VIFで多重共線性を確認する（変数を増やす前に必ず確認）
高いR²を盲信しない（集約バグや過学習の可能性を疑う）

「正しいデータセット」なしに「正しい結論」はあり得ない。前処理はデータサイエンスの花形ではないかもしれない。しかし、それが全ての土台だ。

データ分析のご相談はhoscmへ

「自社のデータを分析したいが、どこから手をつければいいかわからない」「AIを使ってみたが正しい結果が出ているか不安」——そんなご相談を承っています。

データの収集設計から前処理・モデル構築・結果の解釈まで、一貫してサポートします。まずはお気軽にご相談ください。

hoscm サービスサイト

本記事は、AI連携でどこまで自動化できるかを検証したものです。記事の中身の妥当性については十分には検証できていませんが、作業過程で検証を何回か繰り返しています。元データの取得方法は過去記事を参考にしてください。では、以下がClaude codeを使って解析、生成した分析結果の記事です。

「最近、家賃が上がっている気がする」――そう感じている人は多いだろう。物価高騰が続く中、賃貸市場にも影響が出ているという報道は絶えない。では実際のところ、家賃は本当に上がっているのか。

筆者はある地域の賃貸物件データを約5ヶ月間・38時点にわたってスクレイピングし、統計的な手法で「本当の家賃トレンド」を分析した。単純な平均値の変化ではなく、物件の条件（広さ・築年数・設備など）を揃えた上で比較するという、ヘドニック価格指数的なアプローチを用いた。結果は、多くの人の直感を裏切るものだった。

データの概要

収集期間: 約5ヶ月（38時点）
生データ: 8,592レコード
分析対象物件数: 1,365件（重複・外れ値除去後）
物件タイプ: 賃貸アパート・マンション・一戸建て（ある地方都市周辺）

注目すべきは、大手賃貸サイトは同一物件の掲載コードを定期的に更新する仕様があることだ。そのまま集計すると同じ物件が複数カウントされてしまう。この問題を解決するため、Union-Find（素集合データ構造）というアルゴリズムを用いて同一物件を連結し、正確な集計を実現した。

発見①「家賃は上がっていない」――条件を揃えると見えた真実

まず、シンプルに取得日ごとの平均家賃をプロットすると、月▲380円という下落トレンドが確認された（p<0.001）。「家賃が下がっているじゃないか」と思うかもしれない。

ところが、物件の条件（広さ・築年数・設備・階数など44変数）を重回帰モデルで除去した後の「残差」で同じ分析をすると――

トレンド: 月▲106円、p値=0.190（統計的に有意でない）

つまり、条件を揃えると家賃変動はゼロに近い。物価高騰の影響は、少なくともこの地域・この期間においては賃貸市場には波及していなかったということだ。

生データで見えていた「下落トレンド」の正体は、安価な物件の大量新規掲載によるミックス効果だった。

発見②「2月の急落」は本物か

データを眺めていると、2月上旬に平均家賃が突如▲1,500円近く急落する場面があった。

要因	金額
物件ミックスの変化（安価物件の大量掲載）	▲1,000円
本物の需要緩和（条件考慮後も残る下落）	▲500円
合計	▲1,500円

急落の3分の2はミックス効果で、残り3分の1が実態のある需要緩和だった。このような「見かけの変動」と「実態の変動」を区別するには、条件考慮済みの分析が不可欠だ。

発見③「1月は割高、2月以降は割安」という季節性

条件考慮済みの残差を月別に見ると、明確な季節パターンが浮かび上がった。

時期	残差（条件考慮済み）	解釈
11〜12月	±500円程度	安定
1月	+1,000〜+2,000円	需要ピーク・割高
2月以降	▲400〜▲800円	需給緩和・割安

1月は引越しシーズン前の駆け込み需要で、同じ条件の物件でも約1,000〜2,000円高く成約されていた。逆に2月以降はその反動で割安感が出ている。

賃貸を探すなら、1月ではなく2〜3月以降の方がコスト効率が良いという示唆が得られる。

発見④ 家賃を決める最強の変数は「追焚」だった

重回帰分析で44変数を投入したところ、最も家賃との相関が高かった変数は意外にも「追焚（お風呂の追い焚き機能）の有無」（相関係数r=0.670）だった。

順位	変数	相関係数
1	追焚設備あり	+0.670
2	専有面積（㎡）	+0.651
3	総戸数（棟の規模）	-0.584
4	仲介手数料額	+0.526
5	礼金	+0.459

追焚が最強の予測変数になった背景には、地域の入浴文化や生活習慣が影響している可能性がある。また、「大規模物件（総戸数が多い）ほど家賃が低い」という結果は、管理コストの規模の経済を反映していると考えられる。

発見⑤ 「2LDKは割高、1LDKは割安」という構造的価格差

間取り別に条件考慮済みの残差を分析すると、興味深い構造が浮かび上がった。

間取り	残差	解釈
2LDK	+1,000〜+3,000円	一貫して割高
1LDK	▲1,000〜▲2,000円	一貫して割安
1K	季節性あり（1月に割高）	需要変動大きい

同じ面積でも、2LDKはファミリー向けの需要プレミアムが乗っており割高になる傾向がある。一方1LDKは供給過多気味で割安。カップルや二人暮らしなら1LDKも候補に入れると費用対効果が高い。

分析に使ったモデルの精度

最終的に採用したモデル（重線形回帰・44変数＋交互作用2項目）の精度は以下の通り：

指標	値
R²（決定係数）	0.750
調整済みR²	0.699
RMSE	4,506円
VIF>10（多重共線性）	なし

実際の家賃と予測値の誤差が平均±4,500円程度に収まっており、賃貸物件の価格モデルとして実用的な精度が得られた。

まとめ：賃貸市場の「見えない構造」

今回の分析から得られた主要知見をまとめる。

物価高騰は賃貸家賃に波及していない（少なくともこの地域・この期間）
家賃の下落トレンドは物件ミックスの変化が原因で、実態は横ばい
1月は割高、2月以降は割安というサイクルが存在する
追焚・専有面積・大規模物件の規模が家賃を最も強く説明する
2LDKは割高、1LDKは割安という構造的価格差がある

賃貸物件を探す際、これらの知見を活用することで、より合理的な意思決定ができるだろう。

分析の補足・免責事項

本分析は特定の賃貸情報サイトのデータをスクレイピングして実施したものであり、市場全体を代表するものではない。また、「掲載から消えた = 入居決定」という推定には不確実性が伴う。分析期間が約5ヶ月と限られているため、年間の季節変動を完全には捉えられていない点にも注意が必要だ。

本記事の分析コードはPython（pandas・scikit-learn・statsmodels・scipy）を使用して作成した。

どうだろうか、素人が使いこなすには難しいかもしれないが、分かっている人が分析する分には効率的な作業を行える。課題は本当にわかっているか、ちゃんと検証できているかだろう。　この資料を生成するまでの過程は、別の記事にしてみよう。

Pythonで Webクローリング＋データ解析 -「今、本当に即満室になる賃貸物件のスペック」

Claude Desktop × WordPress MCP連携：何度目の正直か、すったもんだした設定記録

タグ: データ分析

AIが見落とす「データの罠」――賃貸市場分析で学んだ前処理の本当の難しさ