Podcastfy 是一個開源的 Python 軟件包,能將網(wǎng)絡(luò)內(nèi)容、PDF 文檔及文本轉(zhuǎn)換成多語言的音頻對話形式。這款工具采用了先進(jìn)的生成式人工智能(GenAI)技術(shù),類似于谷歌旗下的 NotebookLM,但更加注重編程...
-
-
Gradio 是一個開源的 Python 庫,簡化機器學(xué)習(xí)模型的演示和共享過程。支持開發(fā)者基于簡單的代碼快速創(chuàng)建出友好的網(wǎng)頁界面,任何人、任何地點能輕松使用機器學(xué)習(xí)模型。Gradio 支持多種輸入和輸出組件,如文本、圖像、音...
-
StoryDiffusion是一個先進(jìn)的AI圖像和視頻生成框架,用于從文本描述生成具有一致性的圖像和視頻序列。基于Consistent Self-Attention機制增強圖像間的一致性,生成的內(nèi)容在身份和服飾等細(xì)節(jié)上保持連...
-
Crawl4AI是一款用 Python 開發(fā)的異步爬蟲框架,專為大型語言模型(LLMs)和人工智能(AI)應(yīng)用設(shè)計,簡化網(wǎng)絡(luò)爬蟲和數(shù)據(jù)提取流程。基于異步架構(gòu),高效地處理多個網(wǎng)頁,快速抓取所需數(shù)據(jù)。Crawl4AI支持多種輸出...
-
Wren AI 是一個開源的文本到 SQL 解決方案,基于自然語言處理技術(shù),支持用戶通過自然語言提問執(zhí)行數(shù)據(jù)庫查詢,無需編寫復(fù)雜的 SQL 代碼。支持多種數(shù)據(jù)庫和數(shù)據(jù)源,包括 PostgreSQL、MySQL、BigQuer...
-
Playground v3(PGv3)是由Playground Research推出的最新文本到圖像模型,基于深度融合的大型語言模型(LLM)技術(shù),實現(xiàn)在圖形設(shè)計任務(wù)上超越人類設(shè)計師的能力。PGv3擁有240億參數(shù)量,能精確...
-
Reverb ASR是Rev公司推出的開源自動語音識別和說話人分離模型,基于20萬小時的人工轉(zhuǎn)錄英語數(shù)據(jù)訓(xùn)練而成。模型在長語音識別領(lǐng)域表現(xiàn)卓越,適合處理如播客和財報電話會議等場景。Reverb ASR支持用戶控制輸出文本的逐...
-
Inverse Painting 是一種AI技術(shù),由華盛頓大學(xué)的研究人員推出,能逆向重現(xiàn)繪畫過程。通過分析藝術(shù)家的繪畫視頻,學(xué)習(xí)繪畫技巧和順序,然后生成一系列繪畫指令,逐步更新畫布,模擬藝術(shù)家的創(chuàng)作過程。過程包括學(xué)習(xí)繪畫過程...
-
Open NotebookLM 是一個開源的AI工具,基于最新的開源AI模型,如Llama 3.1 405B、MeloTTS和Bark,將PDF文檔轉(zhuǎn)換成播客形式的音頻內(nèi)容。工具適合將書面信息轉(zhuǎn)換成聽覺格式的用戶,例如學(xué)生、...
-
IFAdapter是一種新型的文本到圖像生成模型,由騰訊和新加坡國立大學(xué)共同推出。提升生成含有多個實例的圖像時的位置和特征準(zhǔn)確性。傳統(tǒng)模型在處理多實例圖像時常常面臨定位和特征準(zhǔn)確性的挑戰(zhàn),IFAdapter通過引入兩個關(guān)鍵組...










