routers/imports.py


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349

import csv
import io
from datetime import datetime

import httpx
from fastapi import APIRouter, Depends, File, Request, UploadFile
from fastapi.responses import RedirectResponse
from fastapi.templating import Jinja2Templates
from sqlalchemy import or_, text
from sqlalchemy.orm import Session

from database import get_db
from models import Film
from services.tmdb import TMDBNotConfiguredError, apply_metadata_to_film, find_movie

router = APIRouter(tags=["imports"])
templates = Jinja2Templates(directory="templates")


def _value(row: dict, *names: str) -> str:
    for name in names:
        value = row.get(name)
        if value:
            return value.strip()
    return ""


def _parse_int(value: str) -> int | None:
    value = value.strip()
    if not value:
        return None
    try:
        return int(value)
    except ValueError:
        return None


def _parse_bool(value: str) -> bool:
    return value.strip().lower() in {"1", "true", "yes", "y", "on", "rewatched"}


def _parse_explicit_stars(value: str) -> int | None:
    value = value.strip()
    if not value:
        return None
    try:
        stars = int(value)
    except ValueError:
        return None
    return stars if stars in {0, 1, 2, 3} else None


def _parse_rating_to_stars(value: str) -> int:
    value = value.strip()
    if not value:
        return 0
    try:
        rating = float(value)
    except ValueError:
        return 0

    if rating < 0 or rating > 5:
        return 0
    if rating >= 5:
        return 3
    if rating >= 4.5:
        return 2
    if rating >= 3.5:
        return 1
    return 0


def _stars_from_row(row: dict) -> int:
    explicit_stars = _parse_explicit_stars(_value(row, "Stars"))
    if explicit_stars is not None:
        return explicit_stars
    return _parse_rating_to_stars(_value(row, "Rating"))


def _parse_shelf(value: str) -> str:
    shelf = value.strip().lower()
    return shelf if shelf in {"diary", "queue", "abandoned"} else "diary"


def _parse_date(value: str):
    value = value.strip()
    if not value:
        return None
    for date_format in ("%Y-%m-%d", "%m/%d/%Y", "%d/%m/%Y"):
        try:
            return datetime.strptime(value, date_format).date()
        except ValueError:
            continue
    return None


def _normalize_title(value: str | None) -> str:
    return (value or "").casefold().strip()


def _date_key(value) -> str:
    return value.isoformat() if value else ""


def _duplicate_keys_for_film(film: Film) -> set[tuple]:
    keys = set()
    watched_date = _date_key(film.date_watched)
    if film.tmdb_id:
        keys.add(("tmdb", str(film.tmdb_id), watched_date))

    title = _normalize_title(film.title)
    if title:
        keys.add(("title", title, str(film.year or ""), watched_date))

    return keys


def _existing_duplicate_keys(db: Session) -> set[tuple]:
    keys = set()
    for film in db.query(Film).all():
        keys.update(_duplicate_keys_for_film(film))
    return keys


def _decode_csv(content: bytes) -> str:
    for encoding in ("utf-8-sig", "utf-8", "latin-1"):
        try:
            return content.decode(encoding)
        except UnicodeDecodeError:
            continue
    return content.decode("utf-8", errors="replace")


def _film_from_row(row: dict, shelf: str) -> Film | None:
    title = _value(row, "Name", "Title")
    if not title:
        return None

    is_diary = shelf == "diary"
    return Film(
        title=title,
        original_title=_value(row, "Original Title") or None,
        director=_value(row, "Director") or None,
        year=_parse_int(_value(row, "Year")),
        country=_value(row, "Country") or None,
        language=_value(row, "Language") or None,
        runtime=_parse_int(_value(row, "Runtime", "Runtime (mins)")),
        date_watched=_parse_date(_value(row, "Watched Date", "Date")) if is_diary else None,
        rewatch=_parse_bool(_value(row, "Rewatch")) if is_diary else False,
        rewatch_count=(_parse_int(_value(row, "Rewatch Count")) or 0) if is_diary else 0,
        stars=_stars_from_row(row) if is_diary else 0,
        watched_with=_value(row, "Watched With", "Watched_with") or None,
        shelf=shelf,
        how_found=_value(row, "How Found", "How_found") or None,
        context=_value(row, "Context", "Tags") or None,
        notes=_value(row, "Review", "Notes") or None,
        poster_url=_value(row, "Poster URL", "Poster") or None,
        tmdb_id=_parse_int(_value(row, "TMDB ID", "tmdb_id")),
    )


async def _dedupe_enrich_and_save(
    films: list[Film],
    db: Session,
) -> tuple[list[Film], int, int]:
    skipped = 0
    existing_keys = _existing_duplicate_keys(db)
    pending_keys = set()
    deduped_before_enrichment = []

    for film in films:
        film_keys = _duplicate_keys_for_film(film)
        if film_keys & (existing_keys | pending_keys):
            skipped += 1
            continue

        deduped_before_enrichment.append(film)
        pending_keys.update(film_keys)

    enriched = await _enrich_films_from_tmdb(deduped_before_enrichment)
    deduped_after_enrichment = []
    final_keys = set(existing_keys)
    for film in deduped_before_enrichment:
        film_keys = _duplicate_keys_for_film(film)
        if film_keys & final_keys:
            skipped += 1
            continue
        deduped_after_enrichment.append(film)
        final_keys.update(film_keys)

    if deduped_after_enrichment:
        db.add_all(deduped_after_enrichment)
        db.commit()

    return deduped_after_enrichment, skipped, enriched


async def _enrich_films_from_tmdb(films: list[Film]) -> int:
    enriched = 0
    if not films:
        return enriched

    async with httpx.AsyncClient(timeout=10.0) as client:
        for film in films:
            if film.poster_url and film.tmdb_id and film.genre:
                continue
            try:
                metadata = await find_movie(film.title, year=film.year, client=client)
            except TMDBNotConfiguredError:
                return enriched
            except httpx.HTTPError:
                continue
            if metadata and apply_metadata_to_film(film, metadata):
                enriched += 1

    return enriched


@router.get("/import")
def import_page(request: Request):
    return templates.TemplateResponse(
        request=request,
        name="import.html",
        context={"request": request, "error": None, "active_page": "import"},
    )


@router.post("/data/clear")
def clear_data(db: Session = Depends(get_db)):
    deleted = db.query(Film).delete(synchronize_session=False)
    bind = db.get_bind()
    if bind.dialect.name == "sqlite":
        db.execute(text("DELETE FROM sqlite_sequence WHERE name = 'films'"))
    db.commit()
    return RedirectResponse(f"/?cleared={deleted}", status_code=303)


@router.post("/data/clear-duplicates")
def clear_duplicates(db: Session = Depends(get_db)):
    seen_keys = set()
    duplicate_ids = []
    for film in db.query(Film).order_by(Film.id.asc()).all():
        film_keys = _duplicate_keys_for_film(film)
        if film_keys & seen_keys:
            duplicate_ids.append(film.id)
            continue
        seen_keys.update(film_keys)

    deleted = 0
    if duplicate_ids:
        deleted = (
            db.query(Film)
            .filter(Film.id.in_(duplicate_ids))
            .delete(synchronize_session=False)
        )
        db.commit()

    return RedirectResponse(f"/?deduped={deleted}", status_code=303)


@router.post("/data/enrich-posters")
async def enrich_missing_posters(db: Session = Depends(get_db)):
    films = (
        db.query(Film)
        .filter(or_(
            Film.poster_url.is_(None),
            Film.poster_url == "",
            Film.tmdb_id.is_(None),
            Film.genre.is_(None),
            Film.genre == "",
        ))
        .order_by(Film.year.asc(), Film.title.asc())
        .all()
    )
    enriched = await _enrich_films_from_tmdb(films)
    if enriched:
        db.commit()
    return RedirectResponse(f"/?enriched={enriched}", status_code=303)


@router.post("/import/letterboxd")
async def import_letterboxd(
    request: Request,
    file: UploadFile = File(...),
    db: Session = Depends(get_db),
):
    if not file.filename.lower().endswith(".csv"):
        return templates.TemplateResponse(
            request=request,
            name="import.html",
            context={"request": request, "error": "Upload a CSV file.", "active_page": "import"},
            status_code=400,
        )

    content = await file.read()
    reader = csv.DictReader(io.StringIO(_decode_csv(content)))
    films = []

    for row in reader:
        if not any(value.strip() for value in row.values() if value):
            continue

        film = _film_from_row(row, _parse_shelf(_value(row, "Shelf")))
        if film is None:
            continue
        films.append(film)

    films, skipped, enriched = await _dedupe_enrich_and_save(films, db)

    return RedirectResponse(
        f"/?imported={len(films)}&skipped={skipped}&enriched={enriched}",
        status_code=303,
    )


@router.post("/import/watchlist")
async def import_watchlist(
    request: Request,
    file: UploadFile = File(...),
    db: Session = Depends(get_db),
):
    if not file.filename.lower().endswith(".csv"):
        return templates.TemplateResponse(
            request=request,
            name="import.html",
            context={"request": request, "error": "Upload a CSV file.", "active_page": "import"},
            status_code=400,
        )

    content = await file.read()
    reader = csv.DictReader(io.StringIO(_decode_csv(content)))
    films = []

    for row in reader:
        if not any(value.strip() for value in row.values() if value):
            continue

        film = _film_from_row(row, "queue")
        if film is None:
            continue

        films.append(film)

    films, skipped, enriched = await _dedupe_enrich_and_save(films, db)

    return RedirectResponse(
        f"/queue?imported={len(films)}&skipped={skipped}&enriched={enriched}",
        status_code=303,
    )