ソーラーフロンティア太陽光発電・発電量独自集積データ解析をiPythonで書いてみた

モニタリングを視覚化と、異常検知するアプローチを進めていきましょう。 まずは、自動化に向けて太陽光発電・発電量独自集積データ解析をiPythonで書いてみます。

先の記事までにデータ収集に成功し、ソーラーフロンティア太陽光発電のモニタリングサービスで収集した結果とデータ比較しほとんど一致していることを確認できています。ここからは、モニタリングを視覚化と、異常検知するアプローチを進めていきましょう。 まずは、自動化に向けて太陽光発電・発電量独自集積データ解析をiPythonで書いてみます。

システム構成
fmget
ソーラフロンティアモニタ代替

ここからは、前にNASに保存した形式のデータを扱う前提で書いていきます。

元のデータは、10分毎の瞬間値データでした。1時間ごとに平均してkWhに変換すると、ソーラーフロンティアモニタリングサービスに蓄積されたデータとほとんど同じデータになります。※取得した瞬間値の取得タイミングが異なるので、雲がまばらにあるような瞬間値の変動が激しい天候の場合はずれが大きくなるでしょう。
 1日分の発電量を集計・グラフ化するipythonコードは次の通りです。

import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib
from datetime import datetime

dt1 = "2025/12/02" #★参照したい日付 を指定
nas_path = r"<NASのパス名>" #★NASのパス 環境に合わせて指定


date_obj = datetime.strptime(dt1, "%Y/%m/%d")
date_with_slash = date_obj.strftime("%Y/%m/%d")
date_str = date_obj.strftime("%Y%m%d")

# --- ① parquet 読み込み(あなたのコード) ---
# ファイルパスを組み立て
file_path = fr"{nas_path}\power_{date_str}.parquet"
df = pd.read_parquet(file_path)
ttl=f"発電量推移 {date_with_slash}"

# --- ② Value1 を数値化(エラーを NaN に) ---
df["value1"] = pd.to_numeric(df["value1"], errors="coerce")

# --- ③ timestamp を datetime に変換 ---
df["timestamp"] = pd.to_datetime(df["timestamp"])

# --- ④ 時刻(Hour)を抽出 ---
df["hour"] = df["timestamp"].dt.hour

# --- ⑤ 1時間ごとの平均値を計算 ---
hourly_mean = df.groupby("hour")["value1"].mean()

# --- ⑥ 結果表示 ---
print(hourly_mean)
total_sum = df["value1"].sum()/6
print(total_sum)

# timestamp を x 軸として、そのままプロット
plt.figure(figsize=(14,4))
plt.plot(hourly_mean, linewidth=1)
plt.title(ttl)
plt.grid(True)
plt.tight_layout()
plt.show()

★印の箇所は、任意に変更してください。NASのパスは iPythonが動作しているマシン上から見た、データ保存のパスです。
\\192.168.1.50\share など

表示結果例

SolarPower

つぎは、月単位、年単位の集計値を出すコード書いてみましょう。それから、hsBoxで、スマートディスプレイやGoogleTVに表示させる仕組みに着手です。

関連記事

hsbox1.3で屋内のソーラーフロンティアホームサーバから直接発電量データ取得、データ検証編 まず2日分データで検証

hsbox でのソーラーフロンティアホームサーバーからのデータ収集の続きをしましょう。ホームサーバから直接取得する方法で、ホームエネルギーモニタリングサービス とほぼ一致するデータが取れたことを確認できました。


今回は、情報採取した2日分のデータと、「フロンティアモニター – ホームエネルギーモニタリングサービス -」のデータがどの程度一致しているか検証してみます。

取得データ比較結果

12/1と12/2の発電量の比較デーは以下の通りです。10分間隔で取得して1時間ごとに平均化しています。ほぼ同じ取得方法ですが、取得タイミングが微妙に違うので少しずれます。それでも、1日の発電量の一致度は、12/1は98.4%、 12/2は100.5%でした。十分満足できる結果でした。昨日公開した実装方法で発電量などのデータを取得できることを確認できました。

先のValue1が発電量のデータです。さらに2週間ほど並行してソーラーフロンティアに上がっているデータと一致しているか、詳細確認をしてみます。

検証環境

今回、データ取得に使用した環境は次の通りです。
フロンティアモニターホームサーバー
カーネルVer. 3.22
システムVer. 3.22
AD変換ボードVer. 2.00

hsBox
Version: 1.03.01.01, Build: 324

fmget
ソーラフロンティアモニタ代替

関連記事

https://www.frontier-monitor.com/persite/top

hsbox1.3で、ソーラーフロンティアホームサーバから発電量データ取得 遂に成功!? (fm_dataget.py)

hsbox でのソーラーフロンティアホームサーバーからのデータ収集の続きをしましょう。PROXY方式は諦めて、ホームサーバから直接取得する方法で再検討です。
結論から言うと、どうもうまくいっていそうです。最初に構成図です、前に描いた図と同じですが、ホームサーバから受け取るのではなく、ホームサーバに取りに行くイメージです。

検証環境

今回、データ取得に使用した環境は次の通りです。
フロンティアモニターホームサーバー
カーネルVer. 3.22
システムVer. 3.22
AD変換ボードVer. 2.00

hsBox
Version: 1.03.01.01, Build: 324

データ取得実装例(/home/hsbox/pyd/fm_dataget.py)

フロンティアモニターホームサーバーのバージョンによってデータ取得方法に違いがあります。参考にしてみてください

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import requests
import pandas as pd
import os
import json
import logging
from datetime import datetime
from pathlib import Path
import platform

# ===== 設定 =====
URL = "http://<★フロンティアモニターホームサーバーIP>/getEpData.cgi"
if platform.system() == "Windows":
NAS_DIR = Path(r"\\<★NAS IP>\share\PowerData")
else:
NAS_DIR = Path("/mnt/nas/PowerData") ★

NAS_DIR.mkdir(parents=True, exist_ok=True)

# ===== ログ設定 =====
today = datetime.now().strftime("%Y%m%d")
logfile = NAS_DIR / f"powerD_{today}.log"

logging.basicConfig(
filename=str(logfile),
level=logging.INFO,
format='%(asctime)s %(levelname)s %(message)s',
encoding='utf-8'
)

# ===== データ取得 =====
try:
response = requests.post(URL, data={"ep_units": "KW"}, timeout=5)
response.raise_for_status()
raw_data = response.text.strip()
except Exception as e:
logging.error(f"データ取得エラー: {e}")
print(f"データ取得エラー: {e}")
exit(1)

# ===== データ整形 =====
values = raw_data.split('|')

now = datetime.now()
data_dict = {
"timestamp": now,
"value1": values[0],
"value2": values[1],
"value3": values[2],
"value4": values[3],
"value5": values[4],
"value6": values[5],
"value7": values[6],
"value8": values[7] if len(values) > 7 else None,
"value9": values[8] if len(values) > 8 else None,
"value10": values[9] if len(values) > 9 else None,
"value11": values[10] if len(values) > 10 else None,
}

df = pd.DataFrame([data_dict]) # ← 1行 DataFrame

# ===== daily Parquet 追記 =====
daily_file = NAS_DIR / f"power_{today}.parquet"

try:
if daily_file.exists():
df_existing = pd.read_parquet(daily_file)
df = pd.concat([df_existing, df], ignore_index=True)

df.to_parquet(daily_file, index=False)
print(f"{daily_file} にデータを保存しました。")

# JSON ログ用に datetime を文字列化
log_dict = data_dict.copy()
log_dict["timestamp"] = log_dict["timestamp"].isoformat()
logging.info(f"データ保存: {json.dumps(log_dict, ensure_ascii=False)}")

except Exception as e:
logging.error(f"Parquet 保存エラー: {e}")
print(f"Parquet 保存エラー: {e}")

★印の箇所は、環境に合わせて、書き換えてください。
NAS設定はこちらのページを参考してください

cron設定

*/10 * * * *  /usr/bin/python3 /home/hsbox/pyd/fm_dataget.py

CRON設定で、10分おきに実行するように設定します。
CRON設定の方法は、hsbox本家サイトのページを参考にしてください。

このような感じでデータを取得できました


読み込み完了! → 143 行 × 12 列
timestamp value1 value2 value3 value4 value5 value6 value7 value8 value9 value10 value11
0 2025-12-01 00:00:03.338238 0.00 1.15 0.00 6.39 99.59 6.64 99.35 --/-- --:-- -.-- -.-- --/-- --:--
1 2025-12-01 00:10:03.199163 0.00 1.84 0.00 11.67 99.55 8.01 99.48 --/-- --:-- -.-- -.-- --/-- --:--
2 2025-12-01 00:20:03.231549 0.00 1.19 0.00 5.79 100.05 7.47 99.64 --/-- --:-- -.-- -.-- --/-- --:--
3 2025-12-01 00:30:02.432434 0.00 1.66 0.00 10.68 99.80 7.15 99.72 --/-- --:-- -.-- -.-- --/-- --:--
4 2025-12-01 00:40:03.512127 0.00 1.12 0.00 5.50 100.37 7.18 99.92 --/-- --:-- -.-- -.-- --/-- --:--
5 2025-12-01 00:50:02.524990 0.00 1.66 0.00 10.88 99.81 7.06 99.78 --/-- --:-- -.-- -.-- --/-- --:--
6 2025-12-01 01:00:03.315994 0.00 1.67 0.00 11.06 100.06 7.03 100.07 --/-- --:-- -.-- -.-- --/-- --:--
7 2025-12-01 01:10:02.494529 0.00 1.13 0.00 5.94 100.36 6.77 100.07 --/-- --:-- -.-- -.-- --/-- --:--
8 2025-12-01 01:20:03.026167 0.00 1.08 0.00 5.49 100.05 6.85 99.70 --/-- --:-- -.-- -.-- --/-- --:--
9 2025-12-01 01:30:03.163444 0.00 1.03 0.00 5.21 100.12 6.67 99.77 --/-- --:-- -.-- -.-- --/-- --:--
10 2025-12-01 01:40:02.385593 0.00 0.99 0.00 5.46 100.18 6.18 99.92 --/-- --:-- -.-- -.-- --/-- --:--
11 2025-12-01 01:50:03.190017 0.00 0.91 0.00 5.44 100.25 5.43 100.11 --/-- --:-- -.-- -.-- --/-- --:--

それぞれの項目のデータの意味は次のようになっているようです。

保存されたデータを確認

とりあえず一部のみです。

発電量のデータです。 多分取れているようです。2週間ほど並行してそらーフロンティアに上がっているデータと一致しているか、詳細確認をしてみます。

関連記事

本番、仕切り直し。(proxy設定 httpからhttpsに変換、 ポストデータ取得を検証)この方法は断念…   

「フロンティアモニターホームサーバー」のプロキシ設定を変更して、プロキシ経由でのデータ送信を検証してみます。hsBoxのIPとプロキシのポート番号8080を設定しました。すると、フロンティアモニター – ホームエネルギーモニタリングサービス – https://www.frontier-monitor.com/persite/top へのデータ反映が止まりました。当然過去分は見えますが、プロキシ設定変更後のデータが反映されません。 先のポストデータの取得のスクリプトでは、データが取れないどころか、「フロンティアモニターホームサーバー」から何か届いているのかさえも確認できません。スプリプトを改造してスタブ実装で200応答するように改造しましたが、コネクションまでは確認でき接続先サーバーを記録できることまではできましたが、TLS接続してくるのを疑似CAで応答できなさそうであることを確認しました。

solar
solar

PROXY方式についての結論

ユーザー名、パスワードを設定してもhttpsで接続し、httpで接続してくることはない。疑似的接続させることもほぼ不可能である。
 ということで、PROXY方式での情報採取はあきらめました。


再び、内部APIの調査、CGIでデータを採取

次回は、内部CGIでデータをとれるかを検証してみます。 どうもこっちが本命になりそう。


関連記事

さて本番だ、切り替えてみよう。(proxy設定 httpからhttpsに変換、 ポストデータ取得を検証)あと1歩に見えたが…

「フロンティアモニターホームサーバー」のプロキシ設定を変更して、プロキシ経由でのデータ送信を検証してみます。hsBoxのIPとプロキシのポート番号8080を設定しました。すると、フロンティアモニター – ホームエネルギーモニタリングサービス – https://www.frontier-monitor.com/persite/top へのデータ反映が止まりました。当然過去分は見えますが、プロキシ設定変更後のデータが反映されません。 先のポストデータの取得のスクリプトでは、データが取れないどころか、「フロンティアモニターホームサーバー」から何か届いているのかさえも確認できません。横から、テスト用のポストをするとデータは記録されるので、構築した環境は動いているようです。

今回の結果を先に書くと、www.frontier-monitor.comの仕様の古さのために、当初の第一階目のゴールにはたどり着けないということが判明した。そして、いきなり最終ゴールにむけた実装が必要ということがわかった。調査結果を以下に書く。ゴールだけを見たいという人はこの記事は読み飛ばしてもらって構わない。

再びデバック開始

よく見たら、ジャーナルにたくさん「フロンティアモニターホームサーバー」接続記録が出ていました。

journalctl -u fm-mitmproxy.service -f


11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:04.599][192.168.x.xx:57372] server connect www.frontier-monitor.com:443 (150.31.252.104:443)
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:05.235][192.168.x.xx:57372] Client TLS handshake failed. Client and mitmproxy cannot agree on a TLS version to use. You may need to adjust mitmproxy's tls_version_client_min option.
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:05.240][192.168.x.xx:57372] client disconnect
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:05.245][192.168.x.xx:57372] server disconnect www.frontier-monitor.com:443 (150.31.252.104:443)
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:11.362][192.168.x.xx:43760] client connect
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:11.469][192.168.x.xx:43760] server connect www.frontier-monitor.com:443 (150.31.252.104:443)
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:12.019][192.168.x.xx:43760] Client TLS handshake failed. Client and mitmproxy cannot agree on a TLS version to use. You may need to adjust mitmproxy's tls_version_client_min option.
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:12.023][192.168.x.xx:43760] client disconnect
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:12.028][192.168.x.xx:43760] server disconnect www.frontier-monitor.com:443 (150.31.252.104:443)
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:18.092][192.168.x.xx:40724] client connect
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:18.143][192.168.x.xx:40724] server connect www.frontier-monitor.com:443 (150.31.252.104:443)
11月 29 17:11:53 hsbox mitmdump[47809]: [17:10:18.670][192.168.x.xx:40724] Client TLS handshake failed. Client and mitmproxy cannot agree on a TLS version to use. You may need to adjust mitmproxy's tls_version_client_min option.
11月 29

「Client TLS handshake failed. Client and mitmproxy cannot agree on a TLS version to use. You may need to adjust」このログが大量に出ているが、これが問題だったようだ。 TLS1.0に下げるように要求されている。 hsBoxでも設定で下げれないことはないが、外部公開している入り口が怪しくなるので無理にTLS1.0にさげないことにした。

太陽光機器(192.168.*.**)  
      ↓ CONNECT www.frontier-monitor.com:443 HTTP/1.1    プロキシ宛
mitmproxy(192.168.*.*:8080) ←ここで TLS 開始(クライアント側 TLS)  
      ↓ TLS ハンドシェイク開始  
      × 失敗 → Client TLS handshake failed  
      (mitmproxy → 150.31.252.104:443 にはまだ接続すらしていない)


ということで、データのキャプチャにも失敗し、プロキシ経由でのサーバへのアップロードもできていない。 プロキシ設定してから、 www.frontier-monitor.comへのデータアップロードも止まったままである。
  この記事での成果は、「フロンティアモニターホームサーバー」の送信先がwww.frontier-monitor.comであると確認できたことだ。

一旦、切り戻しして、仕切り直しましょう。そして、最終型にむけて再検討します。


関連記事

proxy設定のその2 httpからhttpsに変換、 ポストデータ取得を検証

hsbox の proxy実装の続きをしましょう。 httpは通りました https対応に挑戦です。
最初に検証方法を確認しておきましょう。 httpサービスをしていないhttpsのみのサイトを探しましょう そのサイトを使って、送信データを取得できるか検証しましょう。

確認方法の検討

$ curl -I http://github.com
HTTP/1.1 301 Moved Permanently
Content-Length: 0
Location: https://github.com/


$ curl -I https://github.com
HTTP/2 200
date: Fri, 28 Nov 2025 02:58:12 GMT
content-type: text/html; charset=utf-8
vary: X-PJAX, X-PJAX-Container, Turbo-Visit, Turbo-Frame, X-Requested-With, Accept-Language,Accept-Encoding, Accept, X-Requested-With
content-language: en-US
etag: W/"06826aee56dafc29be870ab3e992ec77"
cache-control: max-age=0, private, must-revalidate
strict-transport-security: max-age=31536000; includeSubdomains; preload
---以下省略

guithub.comのトップでhttpsへのプロキシが効くが確認することにします。

最初の状態でのProxy動作を確認してみます

$ curl -x http://192.168.2.45:8080 http://github.com

何も応答がありません。
まだ、Proxyが自動的にhttpsに変換していないようです。

プロキシをとおしてプロキシでポストデータを取得するのが目的です。 この場合、POSTはhttpsではなくhttpで送られる必要があるでしょう。そして、プロキシでhttpsに変換する。 そのような使い方をしたいので、 mitmproxy の 設定方法を変更します。

 mitmproxy 用解析・保存スクリプトを更新配置(仮2)

■/home/hsbox/pyd/fm_capture.py  を更新配置  (内容は以下)

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# File: ~/fm_capture.py

import json
import os
from datetime import datetime
from mitmproxy import http
from mitmproxy import ctx

DATA_DIR = "/home/hsbox/fm_data" # ← 自分のホームに合わせて変更
os.makedirs(DATA_DIR, exist_ok=True)

# fm_capture.py の先頭に追加
force_https_domains = {
"www.frontier-monitor.com",
"github.com",
# ここに対象ドメインを全部書く(または全部強制したいなら条件を緩く)
}

def request(flow):
host = flow.request.pretty_host
if host in force_https_domains or host.endswith(".example.com"):
if flow.request.scheme == "http":
flow.request.scheme = "https"
flow.request.port = 443

def response(flow: http.HTTPFlow):
# フロンティアモニターの送信先だけを対象にする
if "frontier-monitor.com" not in flow.request.pretty_host:
return

if flow.request.path.startswith("/upload/data.php"): # 実際のURLに合わせて調整可
try:
# POSTされたJSONを取得
raw = flow.request.get_text()
data = json.loads(raw)

# タイムスタンプを付与(モニターの時刻を優先)
timestamp = data.get("timestamp", datetime.now().isoformat())

# 1. 生JSONを保存(デバッグ用)
raw_file = f"{DATA_DIR}/raw_{timestamp.replace(':', '-')}.json"
with open(raw_file, "w") as f:
f.write(raw)

# 2. 最新データを上書き保存
latest_file = f"{DATA_DIR}/latest.json"
with open(latest_file, "w") as f:
json.dump(data, f, indent=2)

# 3. SQLiteに挿入(初回はテーブル自動作成)
import sqlite3
db_path = f"{DATA_DIR}/fm_data.db"
conn = sqlite3.connect(db_path)
cur = conn.cursor()
cur.execute("""
CREATE TABLE IF NOT EXISTS power (
ts TEXT PRIMARY KEY,
generation INTEGER,
consumption INTEGER,
grid_buy INTEGER,
grid_sell INTEGER,
temperature REAL,
status INTEGER
)
""")
cur.execute("""
INSERT OR REPLACE INTO power VALUES (?, ?, ?, ?, ?, ?, ?)
""", (
timestamp,
data.get("generation"),
data.get("consumption"),
data.get("grid_buy"),
data.get("grid_sell"),
data.get("temperature"),
data.get("status")
))
conn.commit()
conn.close()

ctx.log.info(f"[FM] データ保存成功 → {timestamp}")
except Exception as e:
ctx.log.error(f"[FM] エラー: {e}")

systemd サービスファイルの更新

[Unit]
Description=Frontier Monitor Transparent Proxy
After=network.target
Wants=network.target

[Service]
Type=simple
User=hsbox
Environment="PATH=/home/hsbox/.local/bin:/usr/local/bin:/usr/bin:/bin"
ExecStart=/home/hsbox/.local/bin/mitmdump --mode regular --listen-host 0.0.0.0 --listen-port 8080 --set upstream_cert=false --showhost --proxyauth ユーザー名:パスワード@ --script /home/hsbox/pyd/fm_capture.py --quiet
Restart=always
RestartSec=5

[Install]
WantedBy=multi-user.target

ユーザー名とパスワードを設定してください。 使用しない場合、”–proxyauth”の設定は不要です。
上の設定をしたら、設定反映と起動、起動確認を行います。

動作確認

■curlで、 動作検証します。
curl -x http://<プロキシが動作するhsboxのIP>:8080 http://github.com/

実行結果例:
curl -x http://192.168.1.10:8080 http://github.com








<!DOCTYPE html>
<html
lang="en"
data-color-mode="dark" data-dark-theme="dark"
data-color-mode="light" data-light-theme="light" data-dark-theme="dark"
data-a11y-animated-images="system" data-a11y-link-underlines="true"

>




<head>
<meta charset="utf-8">
<link rel="dns-prefetch" href="https://github.githubassets.com">
<link rel="dns-prefetch" href="https://avatars.githubusercontent.com">
<link rel="dns-prefetch" href="https://github-cloud.s3.amazonaws.com">
<link rel="dns-prefetch" href="https://user-images.githubusercontent.com/">
<link rel="preconnect" href="https://github.githubassets.com" crossorigin>
<link rel="preconnect" href="https://avatars.githubusercontent.com">


<link crossorigin="anonymous" rel="preload" as="script" href="https://github.githubassets.com/assets/global-banner-disable-54e442fb573b.js" />

<link rel="preload" href="https://github.githubassets.com/assets/mona-sans-14595085164a.woff2" as="font" type="font/woff2" crossorigin>



※これで、proxyで、httpをhttpsに変換してアクセスできていそうです。

NAS設定の修正

11月 28 23:03:07 hsbox systemd[1]: Started Frontier Monitor Transparent Proxy.
11月 28 23:03:45 hsbox mitmproxy[1050039]: POST CAPTURE FAILED: [Errno 13] Permission denied: ‘/mnt/nas/solar_data/capture_20251128.log’

NASの書き込み権限がないため書き込めません、mitmproxyは、hsbox権限で起動しているので、権限を777に設定します。

しかし、smbマウントしていると、chmodでは、権限を設定できません。NAS側のGUI等で、ログインユーザの権限等でフルアクセスできるように設定しておきます。
また、暫定対処ですが、起動時に自動マウントするように以下のマウントコマンドを仕込んでおきました。※事前に手動実行で操作確認しておいてください

# mitmproxy 用 NAS マウント
mount -t cifs //<NASのIP>/share /mnt/<マウントポイント> -o username=user,password=pass,vers=3.0,iocharset=utf8,uid=1000,gid=1000,nounix,cache=none,nolease && logger "NAS mounted for mitmproxy by startup script"

 mitmproxy 用解析・保存スクリプトを更新配置(仮3)

キャプチャデータをローカルおよびNASに保存するスプリプとに更新します。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import json
import os
from datetime import datetime
from mitmproxy import http
from urllib.parse import urlencode

LOG_DIR = "/home/hsbox/fm_data" # まずローカルで確認
#LOG_DIR = "/mnt/nas/solar_data"

os.makedirs(LOG_DIR, exist_ok=True, mode=0o777)

def request(flow):
host = flow.request.pretty_host
if host in {"www.frontier-monitor.com", "github.com"}:
if flow.request.scheme == "http":
flow.request.scheme = "https"
flow.request.port = 443

def response(flow: http.HTTPFlow):
# POSTじゃなければ完全スルー(無駄な書き込みゼロ)
#if flow.request.method != "POST":
# return

now = datetime.now().strftime("%Y%m%d")
logfile = f"{LOG_DIR}/capture_{now}.log"

post_data = ""
if flow.request.urlencoded_form:
post_data = urlencode(flow.request.urlencoded_form)
elif flow.request.multipart_form:
post_data = urlencode(flow.request.multipart_form)
elif flow.request.text:
post_data = flow.request.text

# 空のPOSTは記録しない(必要なら残す)
if not post_data.strip():
return

entry = {
"ts": datetime.now().isoformat(),
"host": flow.request.pretty_host,
"url": flow.request.pretty_url,
"post": post_data
}

try:
with open(logfile, "a", encoding="utf-8", buffering=1) as f:
f.write(json.dumps(entry, ensure_ascii=False) + "\n")
f.flush()
os.fsync(f.fileno())
except Exception as e:
os.system(f'logger -t mitmproxy "POST CAPTURE FAILED: {e}"')

手動でポストをシミュレーションして動作確認

httpsのサイトに手動でポストしてみたデータを保存できるか検証します

~$ curl -x http://<hsBoxのIP>:8080 --insecure -X POST -d "test=2111
1&name=フロンティア
" http://github.com

<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-type" content="text/html; charset=utf-8">
<meta http-equiv="Content-Security-Policy" content="default-src 'none'; base-uri 'self'; connect-src 'self'; form-action 'self'; img-src 'self' data:; script-src 'self'; style-src 'unsafe-inline'">
<meta content="origin" name="referrer">
<title>Page not found &middot; GitHub</title>
<style type="text/css" media="screen">

保存されたデータを確認

{“ts”: “2025-11-29T10:13:24.269169”, “host”: “github.com”, “url”: “https://github.com/”, “post”: “test=11111&name=%C3%A3%C2%83%C2%95%C3%A3%C2%83%C2%AD%C3%A3%C2%83%C2%B3%C3%A3%C2%83%C2%86%C3%A3%C2%82%C2%A3%C3%A3%C2%82%C2%A2”}
{“ts”: “2025-11-29T10:52:06.845328”, “host”: “github.com”, “url”: “https://github.com/”, “post”: “test=21111&name=%C3%A3%C2%83%C2%95%C3%A3%C2%83%C2%AD%C3%A3%C2%83%C2%B3%C3%A3%C2%83%C2%86%C3%A3%C2%82%C2%A3%C3%A3%C2%82%C2%A2“}

1回のポストで1行追加されました。

ポストしたデータが丸ごと入っていることを確認できました。
これでキャプチャ成功です。 
NASへの保存も成功です。

ハードルが複数あるので、着実に1つづつクリアしていくのが、近道でしょう。

・–quiet にしないとサービス起動できない
・サービス起動は通常root相当だが、mitmproxyの起動ユーザはrootではうまく動かない
・書き込みタイミングの課題
・NASの書き込み権限
・hsBox独特?の自動マウントの手法

簡単にまとめると権限問題とタイミング問題ですね。開発者あるあるですね。。

関連記事

hsbox1.3上にproxyを構築する手順

太陽光発電のモニタリングサービスが終了するため、データ取得を検討中です。このデータ取得のために、proxyを構築します。 誰でも簡単に導入できるようにするためにここでは、hsbox(無料版:freebox)上に構築してみます。

どのような構成にするのかは、過去の記事を参考にしてください。ここでは、hsboxに構築する手順に特化して記載します。

0.前準備

hsboxを構築する手順はここでは省きます。本家サイトの記事(リンク先)か、Vectorサイトのドキュメント入りアーカイブを参照してください。
有償版は、GUIから操作できるなど操作性が上がりますが、ここでは無償版でも使える機能をベースに記載します。

1.プロキシのインストール

hsbox1.3は、python3環境を構築済みなので、プロキシのインストールからはじめます。

■1. hsboxに、sshでログインします。  *参考:本家サイト
  ホームディレクトリ /home/hsbox に移動。

■2. mitmproxy をインストール
pip3 install --user mitmproxy

■3. 実行パスを通す
echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc

■4. スクリプト等配置用のディレクトリ作成
mkdir /home/hsbox/pyd

2. mitmproxy 用解析・保存スクリプトを配置(仮版)

■/home/hsbox/pyd/fm_capture.py  を配置  (内容は以下)

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# File: ~/fm_capture.py

import json
import os
from datetime import datetime
from mitmproxy import http
from mitmproxy import ctx

DATA_DIR = "/home/hsbox/fm_data"   # ← 自分のホームに合わせて変更
os.makedirs(DATA_DIR, exist_ok=True)

def response(flow: http.HTTPFlow):
    # フロンティアモニターの送信先だけを対象にする
    if "frontier-monitor.com" not in flow.request.pretty_host:
        return

    if flow.request.path.startswith("/upload/data.php"):  # 実際のURLに合わせて調整可
        try:
            # POSTされたJSONを取得
            raw = flow.request.get_text()
            data = json.loads(raw)

            # タイムスタンプを付与(モニターの時刻を優先)
            timestamp = data.get("timestamp", datetime.now().isoformat())

            # 1. 生JSONを保存(デバッグ用)
            raw_file = f"{DATA_DIR}/raw_{timestamp.replace(':', '-')}.json"
            with open(raw_file, "w") as f:
                f.write(raw)

            # 2. 最新データを上書き保存
            latest_file = f"{DATA_DIR}/latest.json"
            with open(latest_file, "w") as f:
                json.dump(data, f, indent=2)

            # 3. SQLiteに挿入(初回はテーブル自動作成)
            import sqlite3
            db_path = f"{DATA_DIR}/fm_data.db"
            conn = sqlite3.connect(db_path)
            cur = conn.cursor()
            cur.execute("""
                CREATE TABLE IF NOT EXISTS power (
                    ts TEXT PRIMARY KEY,
                    generation INTEGER,
                    consumption INTEGER,
                    grid_buy INTEGER,
                    grid_sell INTEGER,
                    temperature REAL,
                    status INTEGER
                )
            """)
            cur.execute("""
                INSERT OR REPLACE INTO power VALUES (?, ?, ?, ?, ?, ?, ?)
            """, (
                timestamp,
                data.get("generation"),
                data.get("consumption"),
                data.get("grid_buy"),
                data.get("grid_sell"),
                data.get("temperature"),
                data.get("status")
            ))
            conn.commit()
            conn.close()

            ctx.log.info(f"[FM] データ保存成功 → {timestamp}")
        except Exception as e:
            ctx.log.error(f"[FM] エラー: {e}")

3. systemd サービスファイル

[Unit]
Description=Frontier Monitor Transparent Proxy
After=network.target
Wants=network.target

[Service]
Type=simple
User=hsbox
Environment="PATH=/home/hsbox/.local/bin:/usr/local/bin:/usr/bin:/bin"
ExecStart=/home/hsbox/.local/bin/mitmdump --mode regular --listen-host 0.0.0.0 --listen-port 8080 --script /home/hsbox/pyd/fm_capture.py --quiet
Restart=always
RestartSec=5

[Install]
WantedBy=multi-user.target

※ファイルの書き込みはいろいろありますが、ルート権限で上書きcat するのか簡単でしょう。

4. 設定反映と起動

# ファイルを反映
sudo systemctl daemon-reload

# 自動起動設定+今すぐ起動
sudo systemctl enable fm-mitmproxy.service
sudo systemctl start fm-mitmproxy.service

# 状態確認
sudo systemctl status fm-mitmproxy.service
journalctl -u fm-mitmproxy.service -f # リアルタイムログ

参考

statusでの確認で、起動していれば次のように”active (running)”が表示されます

root@hsbox:~# sudo systemctl status fm-mitmproxy.service
● fm-mitmproxy.service - Frontier Monitor Transparent Proxy
Loaded: loaded (/etc/systemd/system/fm-mitmproxy.service; enabled; vendor >
Active: active (running) since Sun 2025-11-23 15:29:08 JST; 1 day 7h ago
Main PID: 135951 (mitmdump)
Tasks: 2 (limit: 4378)
Memory: 46.0M
CPU: 1min 2.732s
CGroup: /system.slice/fm-mitmproxy.service
mq135951 /usr/bin/python3 /home/hsbox/.local/bin/mitmdump --mode r>

11月 23 15:29:08 hsbox systemd[1]: Started Frontier Monitor Transparent Proxy.

動作確認

■curlで、 動作検証します。
curl -x http://<プロキシが動作するhsboxのIP>:8080 http://mic.or.jp/

例:
curl -x http://192.168.1.10:8080 http://mic.or.jp/

※とりあえず、確認できるのはhttpのみ、 この設定だけではhttpsサイトへのproxy利用ができません。 httpsは次のステップです。

関連記事

ルールベースチェックでのAI利用

以下は、それぞれのページについてGPTとGrokで同じルールを使って判定した結果です。 GPT、Grokともにルールに点数をつけるルールをいれての確認で、追加で明示的に点数をつけるように指示しましたが、どちらも点数をつけるルールを理解できていませんでした。さらにGPTは、点数をつけるルールを見逃している点を指摘しても、勝手な採点ルールで点数を付けました。再度やり直して得られた結果が次です。

URLGPT採点Grok採点
https://president.jp/articles/-/10317873100
https://www.zakzak.co.jp/article/20251120-NRES442BJ5C6FMPTSOEWOPZCOU/4/77100
https://x.com/TrumpPostsJA80100
https://mic.or.jp/info/2025/11/21/web-4/– *1100

*1:GPTは該当ページを参照できず、採点できませんでした。

GPTは、厳しめの判定をする傾向があるようです。 アクセスできないケースが頻繁に発生するため、安定運用は難しいかもしれません。 厳しめに見るのは、活用シーンによっては有難いのですが、別のポリシーも厳しくアクセスができないという問題も発生してしまっています。

どう使うかは、利用者次第ですが、最初に示したように、チェックごとに結果が変わるので、作成したルールを期待通りに活用できているかを何からの方法で定期的にチェックしたほうが良いかもしれません。 チェックを行うごとにチェックの正確さが変わっていく恐れがあります。採用試験のように試験官の個人差の影響を受けないつもりでAI導入したのに、実際には同じ基準では運用できていなかったというような問題が発生しかねません。結局は、AI活用は利用者責任で利用していかなければならないのでしょう。

 しかし、自動運転での活用では誰の責任になるのか、どうなるのかこのような状況では厳しいでしょう。現状はオーナー(購入者)が責任を取る必要があるパターンがあるとされています。 問題がある場合は起動できないようにするなどの仕組みが必要でしょう。実際に購入する前に想定外の責任を背負わされないように確認しておいたほうが良いでしょう。早い段階で、このようなリスクを誰がとるかの取り決めが明確になり、利用者や購入者(お金を払う側)が責任を負わされるようなケースがなくならないと、AIバブルがはじけてしまうかもしれません。

関連記事

https://chatgpt.com

https://grok.com

Pythonで Webクローリング+データ解析 -「今、本当に即満室になる賃貸物件のスペック」

~Python + Grokで900件分析したら、入居者も納得の残酷な真実が見えた~

Pythonでのデータ収集・蓄積をやってみました。データ収集にはhsbox無料版を活用しています。集積したデータを解析していま求められている物件はどのようなものなのかを可視化して、ビジネスに活用しようという話です。

WebcI
Webクロール

上の図のデータ収集と分析環境は構築済みで運用に入りました。分析結果に関しては別の機会に書いてみようと思います。 ただ、地域によって傾向が異なると推測されます。分析したい地域のデータを収集して解析する必要があるので、真剣に参考にしたい方は実際にお試しください。構築方法等については支援いたします。 有名企業での分析実績がある現役プロの分析が欲しい方はお問い合わせください。データ収集から解析まで有償にて支援いたします。

Webクローリングだけでなく、データ構造の変更を自動検知してLineに通知する仕組みも追加しました。Line通知の仕組みは他にもいろいろ活用できそうです。 LineだけでなくE-mailや、hsbox特有のスマートスピーカーやスマートディスプレイへの通知もできます

Webクローリング+自動分析+通知など自由自裁にカスタマイズできるのでいろいろできそうですね。

-以下参考-

以下は、Grokが、こんな感じとして、書いてみた記事です。

2025年11月・小規模大家の本音分析

「場所選べない? それが現実。でも、空室ゼロの裏技はリノベと条件緩和で十分」
~Python + Grokで区別空室率を掘ったら、1棟保有者でも即満室の道が見えた~

前回の記事で「港区に築浅建てろ!」みたいな大口投資家目線で書いてすみませんでした。
ご指摘の通り、ほとんどの大家さんは1~3棟保有で、場所は運任せ
僕も都内2棟(中野区と江東区の築20年アパート)しか持ってない身として、痛いほどわかります。

今回はガチの小規模大家目線で分析。
場所固定の物件をどう磨けば、空室率を5%以内に抑えられるか。
データはSUUMO/LIFULL/アットホームの2025年11月時点をPythonでスクレイプ+Grok解析(約1,200件)。
入居者側が読んでも「これなら引っ越したい」と思える内容に仕上げました。

結論:場所固定の小規模大家が勝つための3本柱

対策カテゴリ具体策(投資額目安)期待効果(空室率低下)入居者目線納得ポイント
リノベーション水回り更新(50-100万円/室)+人気設備追加(オートロック/宅配ボックス/独立洗面台:20-50万円)15-20%低下(築20年超で顕著)「古いけど清潔感あって便利!」で即決。2025年、エアコンは「必須」超えて「当たり前」
募集条件緩和ペット可/ルームシェアOK/SOHO許可(手続き無料~5万円)10-15%低下(特に単身者需要エリア)「ペット連れOKならここ!」や「シェアで家賃半分」が刺さる。2025年ペットブーム継続中
運用改善管理会社変更+写真/動画リニューアル(無料~10万円)5-10%低下(即効性高)「写真で一目惚れ」する入居者多数。空室期間短縮で家賃収入安定

総投資100-150万円で、空室率を平均15%→5%以内に。回収期間1-2年(家賃1万円アップ想定)。
場所が中野や江東みたいな「まあまあエリア」でも、これで回転率2倍に。

実際のデータ分析(2025年11月19日・東京23区1K/1DK、15万円以下)

PythonでLIFULL/SUUMOから1,200件スクレイプ→Grokに「区別空室率推定+リノベ効果シミュ」投げました。
(空室率は掲載期間長さで推定:30日超=高リスク)

1. 区別空室率の実態(小規模大家の現実)

区(例: 中野/江東)平均空室率築20年超物件のリスクリノベ後家賃アップ幅
中野区12.5%+8%(設備なしで苦戦)+8,000円<
江東区10.7%+5%(再開発でチャンス)+10,000円<
港区(参考)19.3%-(高需要で余裕)+15,000円
葛飾区(コスパ区)15.2%+10%(狭小物件多)+6,000円
  • 中野区(僕の物件エリア):空室率12.5%。築20年で駅徒歩10分超だと20%超え。でも、水回りリノベで反響1.5倍< g ro k:render type=”render_inline_citation”>
    11
    。入居者は「中野の商店街便利!」が決め手。
  • 江東区:10.7%と低め。再開発(豊洲/有明)で上昇中。宅配ボックス追加でペット可物件が即埋まり< g ro k:render type=”render_inline_citation”>
    13
  • 全体傾向:2025年、家賃上昇4%(3LDKで40%超)なのに、空室率は9.6%平均< g ro k:render type=”render_inline_citation”>
    2
    。小規模大家は「差別化」で勝負。

2. リノベの費用対効果(築古物件限定分析)

Grokに「100万円投資でROI計算」させた結果:

  • 水回り(キッチン/浴室更新):投資50万円→家賃+5,000円、空室期間-10日。回収1年。
  • 設備追加(独立洗面+ネット無料):20万円→反響率+30%< g ro k:render type=”render_inline_citation”>
    9
    。入居者「洗面台ないとストレス!」が本音。
  • 省エネ改修(2025年法改正対応):断熱強化で光熱費補助金ゲット可能< g ro k:render type=”render_inline_citation”>
    14
    。カーボンニュートラルで家賃+2,000円上乗せ可。

築古アパートの出口戦略としても有効:リノベ後売却で+10-20%プレミアム< g ro k:render type=”render_inline_citation”>
17

3. 条件緩和の即効テク(投資ほぼゼロ)

  • ペット可:需要高(ブーム継続)、家賃+5-10%可能< g ro k:render type=”render_inline_citation”>
    13
    。リスク(修繕費)は保険でカバー。
  • ルームシェアOK:単身者増で空室埋まりやすい。江東区で効果大。
  • SOHO許可:リモート需要で家賃+3,000円。2025年トレンド「コミュニティ賃貸」< g ro k:render type=”render_inline_citation”>
    1

小規模大家が今すぐやるべきアクションプラン

  1. データ診断:自物件の空室率をGrokにCSV投げて分析(無料)。
  2. リノベ相談:空室対策特化会社に無料見積もり< g ro k:render type=”render_inline_citation”>
    11
    。ターゲット(単身/ファミリー)設定でカスタム。
  3. 運用スイッチ:管理会社変えて写真プロ級に(スマホアプリでOK)。
  4. 2025年問題対策:高齢者向けバリアフリー追加(補助金あり)< g ro k:render type=”render_inline_citation”>
    15
    。団塊世代後期高齢化で需要爆増。

まとめ:場所固定でも「入居者の心を掴めば勝ち」

小規模大家の8割が「場所が悪いから空室」と思い込んでるけど、データ見ると9割は運用ミス
リノベと緩和で、僕の江東区物件は空室ゼロ継続中。入居者も「古いけど住みやすい!」とリピート。

大家も入居者もハッピーなWin-Win。2025年は「変化の年」< g ro k:render type=”render_inline_citation”>
6
、今がチャンスです。

(次回:1棟保有者のための補助金活用術。江東区大家より)

データソース:LIFULL HOME’S 2025レポート + アットホーム市場分析 + SUUMOリアルタイムデータ

■コードのhsboxでの実装例

事前にPCで検証して、hsbox上に構築運用する手順で構築しています。
公開できる形に保存先NAS指定や、取得する地域は適当に書いています。 状況に応じて★印の箇所などを修正してください。
hsboxへのcron設定方法は、本家hsboxサイトで「hsboxで作る“LAN監視システム・アラート”」の記事の下のほうで公開されているので参考にしてください。

# crawl.py - SUUMO 賃貸情報クローラー (全ページ・部屋単位) 公開用
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import time
import json
import pandas as pd
from datetime import date, datetime
import traceback
import csv
import os
import json
import hashlib
from pathlib import Path
import requests

BASE_URL = "https://suumo.jp/jj/chintai/ichiran/FR301FC001/"
PARAMS_TEMPLATE = {
"ar": "030", # 東京都 ★
"bs": "040", # 江東区 ★
"ra": "013",
"cb": "0.0",
"ct": "9999999",
"et": "9999999",
"cn": "9999999",
"mb": "0",
"mt": "9999999",
"shkr1": "03",
"shkr2": "03",
"shkr3": "03",
"shkr4": "03",
"fw2": "",
"ek": "009014660", # ★
"rn": "0090",
"srch_navi": "1",
"page": 1
}

#https://suumo.jp/jj/chintai/ichiran/FR301FC001/?ar=030&bs=040&ra=013&cb=0.0&ct=9999999&et=9999999&cn=9999999&mb=0&mt=9999999&shkr1=03&shkr2=03&shkr3=03&shkr4=03&fw2=&ek=009014660&rn=0090
#

HEADERS = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
}

# ==================== IFTTT + LINE 通知設定(★書き換えてください)====================
IFTTT_EVENT_NAME = "<あなたのAppletのイベント名>" # あなたのAppletのイベント名
IFTTT_KEY = "<あなたのWebhookのキー>" # ← ここはあなたの本番キー
IFTTT_WEBHOOK_URL = f"https://maker.ifttt.com/trigger/{IFTTT_EVENT_NAME}/json/with/key/{IFTTT_KEY}"
# =========================================================================================



EV = "hsbox" # ★
#EV = "PC"
TEST=0 # テストモードは 1 運用は 0 ★
#######################################^ 切り替え用

if TEST != 1:
MAXC = 10000 #★要調整
else:
MAXC = 2 #テスト用
TC = 0 # 全件数
TODAY = date.today()
SER = datetime.now().strftime("%Y%m%d%H%M%S")

FINGERPRINT_FILE = "suumo_structure_fingerprint.json"


# 監視する重要セレクタ(これが1つでも変わったら即検知)
STRUCTURE_SELECTORS = {
# 一覧ページ(動的変動耐性強化)
"一覧ページ_物件カード数": "div.cassetteitem",
"一覧ページ_物件タイトル": "div.cassetteitem_content-title, h2.cassetteitem_content-title",
"一覧ページ_詳細リンク": "div.cassetteitem a.js-cassette_link_href", # ← 親div限定で広告除外

# 詳細ページ(安定)
"詳細ページ_物件名": "h1.property_view_title",
"詳細ページ_メイン表": ".property_view_table th",
"詳細ページ_概要表": "table.data_table.table_gaiyou",
"詳細ページ_特徴リスト": "#bkdt-option ul.inline_list li",
}



def ifttt_line_notify(changes_list=None, page_type="不明", extra=""):
"""
SUUMO構造変化をIFTTT経由で即LINE通知(JSON形式)
changes_list : 変化内容の文字列リスト(例: ["物件カード数 20→8", "物件名セレクタ消失"])
"""
if changes_list is None:
changes_list = ["(詳細不明の変化を検知)"]

# value2 に改行で最大5行まで入れる(LINEで見やすい)
changes_text = "\n".join(changes_list[:5])
if len(changes_list) > 5:
changes_text += f"\n…他 {len(changes_list)-5} 件"

payload = {
"value1": "【SUUMO構造変化検知!!】",
"value2": f"{changes_text}\n\nページ種別: {page_type}\n{extra}",
"value3": datetime.now().strftime("%Y/%m/%d %H:%M:%S")
}

try:
response = requests.post(
IFTTT_WEBHOOK_URL,
headers={"Content-Type": "application/json"},
json=payload,
timeout=10
)
if response.status_code == 200:
print("LINE通知成功!")
else:
print(f"IFTTT通知失敗: {response.status_code} {response.text}")
except Exception as e:
print(f"IFTTT通知エラー: {e}")


def calculate_fingerprint(soup, page_type):
"""soupとページ種別からフィンガープリント生成(構造重視版・偽陽性防止)"""
fp = {"page_type": page_type, "date": datetime.now().isoformat()}
for name, selector in STRUCTURE_SELECTORS.items():
elements = soup.select(selector)
count = len(elements)
first_struct_hash = "" # 構造ハッシュ(タグ+クラス名のみ、テキスト無視)
if elements:
first_el = elements[0]
struct_info = f"{first_el.name}:{' '.join(first_el.get('class', []))}" # 例: "h1:property_view_title"
first_struct_hash = hashlib.md5(struct_info.encode('utf-8')).hexdigest()
fp[name] = {"count": count, "first_struct_hash": first_struct_hash} # キー名を統一
return fp

def detect_structure_change(current_fp):
"""最終版:countは無視、構造ハッシュ(タグ+クラス)のみで判定"""
page_type = current_fp.get("page_type", "unknown")
filename = f"suumo_structure_fingerprint_{page_type}_tokyo.json"
path = Path(filename)

previous_fp = {}
if path.exists():
try:
previous_fp = json.loads(path.read_text(encoding="utf-8"))
except:
print(f"[{page_type}] フィンガープリント破損→リセット")
path.unlink()

if not previous_fp:
path.write_text(json.dumps(current_fp, ensure_ascii=False, indent=2), encoding="utf-8")
print(f"[{page_type}] 初回登録完了(構造ハッシュ保存)")
return False

changes = []
for key, current_val in current_fp.items():
if key in ("date", "page_type"):
continue

prev_hash = previous_fp.get(key, {}).get("first_struct_hash", "")
curr_hash = current_val.get("first_struct_hash", "")

# 構造ハッシュが違う=タグ or クラスが変わった → 本物の構造変化
if curr_hash != prev_hash and curr_hash and prev_hash:
changes.append(f"【真の構造変化】 {key}\n タグ/クラスが変わりました!")

if changes:
ifttt_line_notify(changes, page_type=page_type, extra="要セレクタ修正")
print(f"[{page_type}] " + "\n".join(changes))
# 新しい構造を保存(次回から適応)
path.write_text(json.dumps(current_fp, ensure_ascii=False, indent=2), encoding="utf-8")
raise SystemExit(f"[{page_type}] 本物の構造変化検知 → 停止")
else:
# 正常なら最新構造を上書き保存(徐々に最新化)
path.write_text(json.dumps(current_fp, ensure_ascii=False, indent=2), encoding="utf-8")
print(f"[{page_type}] 構造正常(広告変動は無視)→ 継続OK")
return False


def get_soup(url):
res = requests.get(url, headers=HEADERS)
res.raise_for_status()
return BeautifulSoup(res.text, "html.parser")

def parse_property_detail(url, check_structure=True): # パラメータ追加
"""物件詳細ページから情報を取得"""
soup = get_soup(url)
if check_structure:
fp_detail = calculate_fingerprint(soup, "detail")
detect_structure_change(fp_detail)
data = {}

# 物件名
title_tag = soup.select_one("h1.property_view_title")
data["物件名"] = title_tag.get_text(strip=True) if title_tag else ""

for th in soup.select(".property_view_table th"):
label = th.get_text(strip=True)
td = th.find_next_sibling("td")
if not td:
continue
value = td.get_text(strip=True)
if "賃料" in label:
data["賃料"] = value
elif "間取り" in label:
data["間取り"] = value
elif "面積" in label:
data["面積"] = value
elif "住所" in label:
data["住所"] = value
else:
# その他の詳細情報も取得
data[label] = value
uls = soup.select("#bkdt-option ul.inline_list")
for ul in uls:
for li in ul.find_all("li"):
lis = li.get_text()
data["部屋の特徴・設備"] = lis
table = soup.select_one("table.data_table.table_gaiyou")
results = []
for tr in table.select("tr"):
ths = tr.find_all("th")
tds = tr.find_all("td")

# th と td の数が合わない場合がある(colspan 特殊ケース)
# → そのまま zip せず、柔軟に処理する
td_index = 0
for th in ths:
th_text = th.get_text(strip=True)

if td_index < len(tds):
td = tds[td_index]

# td の中に ul > li があるケース
if td.select("ul li"):
td_value = "、".join(li.get_text(strip=True) for li in td.select("ul li"))
else:
td_value = td.get_text(strip=True)

data[th_text] = td_value
td_index += 1

for th in soup.select(".data_01 th"):
label = th.get_text(strip=True)
td = th.find_next_sibling("td")
if not td:
continue
print(f"{th} {td}\n")
print(td)
value = td.get_text(strip=True)
if "賃料" in label:
data["賃料"] = value
elif "間取り" in label:
data["間取り"] = value
elif "面積" in label:
data["面積"] = value
elif "住所" in label:
data["住所"] = value
else:
data[label] = value

required_keys = ["所在地", "駅徒歩", "間取り", "築年数", "向き","専有面積","建物種別","部屋の特徴・設備"]
missing_count = sum(1 for k in required_keys if not data.get(k))

if missing_count >= 2:
error_msg = f"【詳細ページ解析異常】\nURL: {url}\n欠損項目: {[k for k in required_keys if not data.get(k)]}"
ifttt_line_notify([error_msg], page_type="詳細ページ", extra="必須項目欠損")

return data



def fetch_page(page_num):
params = PARAMS_TEMPLATE.copy()
params["page"] = page_num
print(f"--- ページ {page_num} 取得 ---")
r = requests.get(BASE_URL, params=params, headers=HEADERS)
if r.status_code != 200:
print(f"ページ取得失敗: {r.status_code}")
return None
return BeautifulSoup(r.text, "html.parser")

def parse_cassetteitems(soup):
cassette_items = soup.select("div.cassetteitem")
properties = []
global TC, MAXC, EV, TEST

first_room = True # 1物件目だけ詳細ページの構造チェック

for item in cassette_items:
if TC > MAXC:
break

# タイトル
title_tag = item.select_one("div.cassetteitem_content-title, h2.cassetteitem_content-title")
title = title_tag.get_text(strip=True) if title_tag else "N/A"

type_tag = item.select_one("div.cassetteitem_content-label span")
prop_type = type_tag.get_text(strip=True) if type_tag else "N/A"

address_tag = item.select_one("ul.cassetteitem_detail li.cassetteitem_detail-col1")
address = address_tag.get_text(strip=True) if address_tag else "N/A"

detailc3_tag = item.select_one("ul.cassetteitem_detail li.cassetteitem_detail-col3")
year = detailc3_tag.select_one("div:nth-of-type(1)").get_text(strip=True) if detailc3_tag else "N/A"
kaisuu = detailc3_tag.select_one("div:nth-of-type(2)").get_text(strip=True) if detailc3_tag else "N/A"

# 部屋ごとのループ
room_rows = item.select("table.cassetteitem_other tr")
for row in room_rows:
cells = row.select("td")
if not cells:
continue

# ここから全部定義しないとNameErrorになる部分
price_td = cells[3]
rent = price_td.select_one("li:nth-of-type(1) span.cassetteitem_price--rent")
rent = rent.get_text(strip=True) if rent else "N/A"

admin_el = price_td.select_one("li:nth-of-type(2) span.cassetteitem_price--administration")
admin = admin_el.get_text(strip=True) if admin_el else "N/A"

price2_td = cells[4]
sikik = price2_td.select_one("li:nth-of-type(1) span.cassetteitem_price--deposit")
sikik = sikik.get_text(strip=True) if sikik else "N/A"

reiki_el = price2_td.select_one("li:nth-of-type(2) span.cassetteitem_price--gratuity")
reiki = reiki_el.get_text(strip=True) if reiki_el else "N/A"

madri0_td = cells[5]
madori = madri0_td.select_one("li:nth-of-type(1) span.cassetteitem_madori")
madori = madori.get_text(strip=True) if madori else "N/A"

menseki_el = madri0_td.select_one("li:nth-of-type(2) span.cassetteitem_menseki")
menseki = menseki_el.get_text(strip=True) if menseki_el else "N/A"

# 階数(cells[2]は階数と面積が一緒に入っていることが多い)
area = cells[2].get_text(strip=True) if len(cells) > 2 else "N/A"

# 詳細リンク
syosai_u = cells[8]
a_tag = syosai_u.select_one("a.js-cassette_link_href")
href = a_tag.get("href") if a_tag else ""
url = urljoin("https://suumo.jp", href)

# 詳細ページ取得(1物件目だけ構造チェック)
try:
data = parse_property_detail(url, check_structure=first_room)
first_room = False
time.sleep(1)
print(f"物件取得成功: {url}")
except Exception as e:
print(f"物件取得失敗: {url}\n{e}\n")
traceback.print_exc()
data = {}

TC += 1
if TC > MAXC:
break

properties.append({
"today": TODAY,
"tc": TC,
"title": title,
"type": prop_type,
"address": address,
"rent": rent,
"admin": admin,
"sikik": sikik,
"reiki": reiki,
"madori": madori,
"menseki": menseki,
"area": area,
"year": year,
"kaisuu": kaisuu,
"data": data,
"url": url
})

return properties

def save_properties_to_csv(properties, filename="properties.csv"):

# CSV の列定義(あなたの出力形式に完全一致)
fieldnames = [
"today", "tc", "title", "type", "address", "rent",
"admin", "sikik", "reiki", "madori", "menseki",
"area", "year", "kaisuu", "url", "data"
]

# UTF-8 BOM あり(Excel で文字化けしない)
with open(filename, "w", newline="", encoding="utf-8-sig") as csvfile:
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

writer.writeheader()

for p in properties:
# data(辞書)を JSON 文字列化して保存
data_json = str(p["data"])

writer.writerow({
"today": p.get("today", ""),
"tc": p.get("tc", ""),
"title": p.get("title", ""),
"type": p.get("type", ""),
"address": p.get("address", ""),
"rent": p.get("rent", ""),
"admin": p.get("admin", ""),
"sikik": p.get("sikik", ""),
"reiki": p.get("reiki", ""),
"madori": p.get("madori", ""),
"menseki": p.get("menseki", ""),
"area": p.get("area", ""),
"year": p.get("year", ""),
"kaisuu": p.get("kaisuu", ""),
"url": p.get("url", ""),
"data": data_json,
})

print(f"CSV 出力完了: {filename}")

def build_parquet_filename(prefix="df", ext="parquet"):
timestamp = datetime.now().strftime("%Y%m%d%H%M%S")
return f"{prefix}_{timestamp}.{ext}"


def properties_to_parquet(properties, parquet_file):

# data は dict → JSON 文字列化
rows = []
for p in properties:
row = p.copy()
row["data"] = json.dumps(p.get("data", {}), ensure_ascii=False)
rows.append(row)

df = pd.DataFrame(rows)

df.to_parquet(
parquet_file,
index=False,
engine="pyarrow",
compression="snappy"
)

print(f"Saved → {parquet_file}")


def main():
all_properties = []
page_num = 1

while True:
soup = fetch_page(page_num)
if soup is None:
break

cassette_count = len(soup.select("div.cassetteitem"))
if page_num == 1 and cassette_count < 10: # 1ページ目で極端に少ない
ifttt_line_notify([f"【SUUMO異常】1ページ目の物件カード数が{cassette_count}件です。レイアウト変更?"], page_type="list", extra="")

fp_list = calculate_fingerprint(soup, "list") #構造変化検出用
detect_structure_change(fp_list)

properties = parse_cassetteitems(soup)
if not properties:
print("物件が存在しないため終了します。")
break

print(f"このページの物件数: {len(properties)}")
all_properties.extend(properties)
page_num += 1

print(f"\n抽出された物件総数: {len(all_properties)}\n")
if EV != "hsbox":
base = r"\\192.168.**\share" # ★
filename = build_parquet_filename()
parquet_filep = f"{base}\\{filename}"
else:
base = r"/mnt/nas/share" # ★
filename = build_parquet_filename()
parquet_filep = f"{base}/{filename}"
if TEST != 0: #テスト用
parquet_filep = "test.parquet"

properties_to_parquet(all_properties, parquet_filep)



if __name__ == "__main__":
main()

補足

マウントポイントへのマウントは  /etc/fstabへの設定や 、 mount コマンドなど、環境に合わせて実施してください。※hsBox1.3では、仕様上 /etc/fstabの設定は使用できません。 cron設定で、起動後にマウントするように設定してください。

詐欺メール 、新たなストーリーベース詐欺の前振り? 2005年ころからおなじみのストーリー調スパムの最新版か spam-mail

この記事は、スパムアサシンやメーラーでのスパム判定をすり抜けた怪しいメールを取り扱います。その内容の判定や設定方法の改善策について取り扱います。

このメールはdmarcポリシーのチェックを”pass”しています。 このパターンはドメイン自体を自動的にbanする(ブラックリスト登録する)のが良いかもしれませんが、様子見です。 スパマーによるハニーポット探索が目的なのかもしれません。  

★対象のメールのコピー

Apple Store 20,000円ギフトカードを今すぐ受け取る

Apple Store 5,000円 gift card 贈呈中 @media only screen and (max-width:600px){ .container{width:100% !important;} .btn{display:block !important; width:100% !important;} } 【Apple Store】20,000円 gift card 贈呈中 特定アカウント限定/24時間以内に受け取り

いつもAppleをご利用いただきありがとうございます。現在、特定のアカウントを対象に20,000円分のApple gift cardを贈呈しております。

本gift cardは24時間以内に 受け取り いただいた場合のみ有効です。期限内に受け取りが完了しない場合、権利は自動的に失効いたします。

20,000円を受け取る ▼

ご利用条件対象:本メールを受信した特定アカウントに限ります。 受け取り期限:本メール受信から24時間以内。 利用範囲:Apple Storeおよびオンラインストア内の特定商品に限りご利用いただけます。 他の割引・クーポンとの併用はできない場合があります。
本メールは送信専用です。ご返信いただいても対応いたしかねます。
誤送信と思われる場合は、このメールの破棄をお願いいたします。
© 2025 Apple. All rights reserved.
spam22
spam
過去(2024年以前)実施の迷惑メール対策方法、設定

スパムアサシンの設定と、メーラーでの設定については、要望があれば記事を用意いたしま。コメントとをお願いします。