2023/5/6 7:52:00
izumi-lab/wikipedia-ja-20230720あれ『Scaling Analytics @ Instagram: The power of deterministic sampling | by Analytics at Meta | Aug, 2024 | Medium』インプレゾンビをしばくためのブラウザ拡張機能の機能案あれエシカルデータ『エシカルデータの潮流 | ドクセル』生成AIの学習データ不要化推定の分散で学習データのクリーニングあれあれあれあれ良い学習データtzmtwtr/tw-posts-jaあれあれ『大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か』
izumi-lab/wikipedia-ja-20230720
2024/9/14 11:06:00
あれ
2024/9/14 10:58:00
機械学習とDuckDBが相性が良い説がある。
HuggingFaceにあるデータセットのURLを指定するだけでSQLでデータ取得できる。
例:
SELECT * FROM 'https://huggingface.co/datasets/izumi-lab/wikipedia-ja-20230720/resolve/main/data/train-00000-of-00008-ff339eae82f3a35d.parquet?download=true' LIMIT 10;
インプレゾンビをしばくためのブラウザ拡張機能の機能案
2024/8/11 7:52:00
あれ
2024/7/30 3:57:00
AIの学習データ枯渇が問題になるならば、「人間のデータ生産速度向上」がトレンドになりそう。
とはいえ、メモツールでAIが強調されているとなんとなく萎える。