関連

現在は「あらかじめ1行1発言で書き出したテキストファイル」を学習対象にしている これは運用前の学習としては良かったが、実際に運用に入った後は「この入力の時にこんな反応をしたぞ」が再学習のトリガーになるので、このファイルにない入力を使いたくなる

ugoki/user.py

def _talkid_to_logs(talkid):
    data = json.load(open(f"{_HERE}/../../logs/cache/{talkid}.json"))
    for user, text in data["log"]:
        if user == 1:
            yield text

def get_unknowns():
    #logs = open(_RAW_LOGS).readlines()
    logs = _talkid_to_logs("alUKPkDIxF4BN18b4Yoe")
    for text in logs:
        for case in text_to_cases(text):
            yield case

「全部のログを対象にする」ってやると良いのではないかと思うかもしれない(し昔実際にやってみた)けど、意味のない文字列を投稿し続けたりボットを罵倒し続けたりするおかしなログがあるのでイマイチ。 おかしなユーザを無視する機能が先に必要なのかも知れない。